Data Talk #109: Jakub Jurových (Deepnote)
epizoda#109 | vyšlo | délka | 747 poslechů | permalink | mp3
V této epizodě se baví moderátor Jiří Vicherek s Jakubem Jurovýchem, zakladatelem Deepnote. Na začátku Jakub vypráví, jak se dostal do USA a začal pracovat pro startup Operam, proč je opustil v době největšího růstu a založil vlastní startup Deepnote. Dále se ohlédli za posledními devíti měsíci vývoje Deepnote a probrali akvizici Hyperquery. Jakub také sdílel svůj pohled na generativní AI a vysvětlil, proč jejich tým nasazoval AI funkce do produktu velmi uvážlivě. Diskutovali o současném trhu s datovými nástroji a jak Deepnote reaguje na notebooky integrované do platforem jako DataBricks nebo Google Cloud.
Strojový přepis
Dobrý den, moje jméno je Jirka Vicherek a vítám vás u dalšího dílu podcastu Datatalk. Mým dnešním vzácným hostem je Jakub Jurovich, zakladatel a CEO firmy Deepnode. Ahoj, díky za pozvání.
Jakuba tady máme podruhé, byl hostem speciálu, a protože to byl speciál a měli jsme hodně věcí, co probírat, nevěnovali jsme tolik času samotnému Deepnodeu a také Jakubovi. To bych chtěl napravit, protože pro mě je to jedna z nejvýraznějších osobností československého datového prostoru a to, co dělají v Deepnode, mi přijde světové, investice a výsledky to potvrzují.
Budeme se bavit o tom, co se stalo v Deepnodeu a na datové scéně za posledních 9–12 měsíců, co jsme se neviděli, a Jakub byl většinu času na západním pobřeží. Na začátek bych ale rád napravil chybu z minulého podcastu, kdy nebyl prostor trochu ukázat tvůj příběh, říct, jak ses k tomu všemu dostal a jak vznikl Deepnode, protože je to podle mě unikátní.
Tak jaký je tvůj příběh, Jakube?
Normálně se při tomhle představení červenám, ale dobře. Můj příběh, když to vezmeme zpětně, začíná možná před deseti lety, kdy jsem se zamýšlel nad tím, že bychom mohli zlepšit nástroje pro vývojáře. Už tehdy jsem rád tvořil a budoval různé věci a viděl jsem, že hlavně ve světě webového vývoje, zejména když mluvíme o JavaScriptu, ten ekosystém ještě nebyl tak vyspělý.
Začal jsem přemýšlet, co bychom mohli zlepšit, aby byli vývojáři produktivnější, spokojenější a aby dělali méně chyb. To mě velmi zaujalo, ten přístup “budovat pro budovatele”. Tak jsem se vlastně dostal i do Mozilly, kde jsem chvíli pracoval na Firefoxu. Byl to můj první kontakt se západním světem.
Vždy jsem chtěl jít do San Francisca, protože je to místo, kde se věci dějí, hlavně v našem oboru. Ta příležitost tam přijít něco dělat a potkávat lidi, kteří… Jak ses vlastně dostal do Mozilly a k práci na Firefoxu?
Jednoduše jsem poslal e-mail. Jak se říká, “jede e-mail může změnit osud člověka”. Jednoho dne jsem si řekl, že to prostě pošlu. Poslal jsem velmi krátký e-mail, myslím, že to byly jen tři věty, kde jsem napsal: “Ahoj, jmenuju se Jakub, zajímají mě tyto věci, to jsou projekty, na kterých jsem pracoval, třeba by to mohlo být zajímavé i pro Firefox.”
O půl roku později jsem letěl do San Francisca s tím, že ty věci, které jsem si předtím zkoušel a stavěl, budu budovat a implementovat přímo do Firefox DevTools.
Byl to odkaz na GitHub?
Ano, přesně tak. Odkaz na GitHub s jedním screenshotem. A radši jsem to moc neukazoval…
Opravený text:
Od začátku nevěděli, že tu moji stránku dělám v angličtině, a vyšlo to. Takže se stěhuješ na západní pobřeží, sen se plní. Přesně tak, přišel jsem na západní pobřeží a začal jsem pracovat, velmi mě to bavilo, a v tom momentě mi píší moji kamarádi a říkají, že poslouchali, že tady v LA také začneme něco podobného. Mám takovou myšlenku, že bychom potřebovali pomoci, chceme pracovat pro filmová studia a oni potřebují dělat datovou analýzu. Opět mě to strašně nadchlo, ale zároveň mě zajímalo, kam ty peníze půjdou, a myslím, že se tam dá něco zlepšit. Tak jsem si říkal, jak dlouho to potrvá? Potrvá to tak hodinu a půl… tak jsem se rozhodl letět tam na týden, přiletěl jsem tam, něco jsme brainstormovali, navrhli a otestovali.
Ukázalo se, že to je velmi zajímavý problém, který opravdu je potřeba řešit. Tak jsem si řekl, že OK, možná je to něco, čemu bych mohl věnovat trochu víc času. Původně jsem se tedy přidal s tím, že to bude jen na pár měsíců, než se to rozběhne, než tam vybudujeme tým. Ale problémy byly takové, že každý měsíc se objevilo něco nového. První měsíc to bylo, že OK, máme signál, fú, první klient, A24, a je pořád hodně práce. Tak jsem řekl, že OK, pomůžeme s tím. Pak jsme začali mluvit o Universal Studios. Říkal jsem si, že OK, pomůžeme taky s tím. No a později pak Academy Awards, nějaké Oscary. Byl jsem rád, že už na tom pracujeme rok, dva. Nakonec jsem na tom pracoval tři roky. A problémy začaly narůstat. Začalo to tím, že jsme měli nějaké analýzy hlavně marketingových aktivit. Ale velmi rychle si lidé uvědomili, že toto je datový tým, který by mohl i předpovídat, co se stane s filmem dopředu. Dokonce by mohl porozumět tomu, že když vydáme trailer a trailer má 5–10 milionů zhlédnutí, tak tam asi budou komentáře, kde se dá něco najít. Uděláme tam data mining a zjistíme, že OK, tato scéna rezonuje trochu lépe, tento herec má větší vliv na publikum. Takže mnoho datové analýzy se tam začalo pěkně rozvíjet a my jsme to všechno samozřejmě dělali co nejrychleji.
No, to byl Operam, tam jsme se vlastně poprvé setkali. Když jsi odcházel, jak velký byl Operam? Abychom to mohli srovnat. Fú, to mohlo být několik… Myslím, že nás bylo tehdy asi 120 a už jsme byli na konci práce na asi 50 různých filmech. A pracovali jsme hlavně na různorodých typech filmů – od menších artových filmů, které měly velmi dobrou recepci, hlavně když získaly nějaká ocenění, až po velké komerční filmy. Pamatuji si, když jsme pracovali na Deadpoolovi nebo na Star Treku a podobných projektech. Bylo to zajímavé prostředí.
Možná doplním, že úvodní problém byl ten, že většina marketingového rozpočtu na filmy jde před samotným uvedením. A vlastně bylo potřeba najít korelaci mezi tím, které marketingové aktivity… (text končí nedokončen)
Ity dávajú zmysel. Presne tak. Úplne opačný problém, ako rieši väčšina ľudí, že tak poďme tam vyhodiť nejaký produkt na internet a potom to nejako zoptimalizujeme a budeme sa pozerať, čo funguje, čo nefunguje a nejakým spôsobom to ziterujeme a potom o pár mesiacov už máme dobrý produkt. Ale respektíve dobrý targeting a dobre nastavené kampane. Film je presne opačný problém. Film je tá vec, kde ty do toho investuješ roky času, až potom príde ten jeden veľký event, to je ten opening night, niekedy v piatok večer, a vtedy prvýkrát uvidíš, že tak tých 100 miliónov, čo som tam do toho dal, tak vráti sa to, nevráti sa to? A naozaj to sú, to vidíš aj na tom svete, že tam ľudia sedia a pre nich akože piatok, sobota nie sú také tie časy, že idem si oddýchnuť. To sú také tie high stress environments, kde každé ráno proste refreshuješ tie štatistiky a snažíš sa pochopiť, že OK, tak bude výplata, nebude výplata a čo s tým ďalej. Možno podobné s hrami, v UMH, že väčšina rozpočtu je predtým a potom najednou tak čo. No, čo ťa tým pádom premluvilo založiť si vlastnú firmu? Si na takto totálne nahypovanej firme, je vás na 120 a riešite zaujímavé problémy a najednou you made it z môjho pohľadu tehdy. Áno, problémy, čo sme riešili, boli teda veľmi silno takého doménového charakteru, že tam som prišiel do knižnice, zobral som knižku, že Information Technology in Hollywood z 1990. No a čítaš si, že ako to tam vlastne funguje a síce už bol teda rok 2000, neviem, koľko to mohlo byť, 2007. A tá knižka stále bola veľmi relevantná, urobil som to presne tak, ako som to tam čítal. Ale tie problémy toho dátového sveta ma tam vtedy veľmi chytili, lebo som videl, aké dobré nástroje už existujú pre softvérových vývojárov. Keď budeme písať nejaký Python, alebo nebudeme písať nejaký JavaScript, budeme to deployovať, tak ten svet to už vtedy veľmi dobre poznal. Píše sa to v takomto editore, volá sa to VS Code, PyCharm, niečo také. Potom, keď ideme to kolaborovať, tak samozrejme, že to uploaduje do GitHubu a tam sa robia všetky pull requesty, tam sú všetky git flowy, ktoré sú všetky naučené. Potom tam je samozrejme nejaký CICD, ktorý sa postaral o to, že tá kvalita kódu je na dobrej úrovni. A potom sa už aj všetci vedia, kam sa to rovno deployuje, je to pekne naintegrované, tam to budeš niekde možno na Heroku, teraz možno na Vercel, alebo na AWS a podobných nástrojoch. A už aj keď je to deploynuté, tak všetci vedia, že OK, tak tu sú nejaké monitoringové nástroje, tam dám nejaký uptime monitoring, vtedy ešte BetterStack nebolo, teraz to dáme do BetterStacku, dáme tam nejaké, začneme tam zbierať nejaké logy. A vieme celý ten, fakt naozaj všetko od toho úvodného prototypu, tej prvotnej myšlienky, až do toho prvotného Figma súboru až do toho konca, je naozaj pekne zmapované. Vieš si to predstaviť, dokonca dokážeš predikovať, že koľko to asi zaberie, koľko ľudí tam to budeš potrebovať, či sú tam nejaké rabbit holes a podobne. A keď sa to pozorilo z toho dátového sveta, kde za mnou niekto prišiel a hovorí…
Tu je opravený text s úpravou pravopisu, interpunkcie, formálneho štýlu a plynulosti vyjadrovania:
Ori, že no, tak túto máme históriu všetkých scenárov z tohto štúdia, a ak tu máme nejaký dataset, nejaké CSV-ko, ktoré uvádza, koľko tie filmy zarobili, vieš tam nájsť nejakú koreláciu? A ty sa teraz rozhodneš, že buď spravíš túto analýzu za 15 minút a niečo tam bude, alebo to bude trvať dva mesiace. Dopredu vlastne vôbec nevieš, aký ťažký ten problém je, vlastne nevieš ani, či je riešiteľný.
A keď sa aj pozrieme na spôsob práce a kolaborácie, veľa zo softvérových problémov spočíva v tom, že ak máš dobrú špecifikáciu, môžeš sa pokojne zavrieť na nejakú chatu, kde ťa nikto nebude otravovať, napíšeš to a hotovo. Tie dávkové problémy sú presný opak. Zistíš, že aha, tak OK, dostal som to CSV-ko, ale po 15 minútach práce zistíš, že tam chýba polovica dát, alebo tam sú nejaké nulové hodnoty, alebo ti chýba prístup do databázy, alebo máš zvláštny syntax error v nejakej SQL query, ktorá pred pár mesiacmi ešte fungovala, a nevieš, ako sa pohnúť ďalej.
Takže hlavný spôsob komunikácie — tá iteratívna práca a spätná väzba — začínajú vyžadovať iný prístup k práci aj iné nástroje. A to sme práve videli na príklade notebookov. My sme vtedy vo veľkom používali Jupyter notebooky, v čase, keď neboli ideálne. Sedíš pri počítači, pozeráš na to a ak máš nejaký dizajnový background, bolí ťa srdce vždy, keď musíš kliknúť na tlačidlo alebo otvoriť localhost 8888. No zároveň sme videli, že filozofia pod tým — OK, implementácia je možno najlepšia, ale to, čo nástroj umožňuje, teda kombinovať vysvetlenie, Python kód a grafy na jednom mieste — bolo veľmi silné a vedeli sme, že na tom sa dá budovať.
Čo to znamená? Že dáš výpoveď operám a prenajmeš si garáž? Nie si popravde až tak ďaleko od reality. Týmto spôsobom sa rodí myšlienka a dostávaš inšpiráciu, že toto je niečo, čo svet potrebuje. Začali sme sa rozprávať s maintainermi Jupyteru a povedali sme im: „Počúvajte, toto môžeme spraviť ešte lepšie, máme na to rozpočet, len povedzte, komu to máme poslať na účet.“ Na to sa však pozerali skepticky a vraveli: „Fú, ale my sme open source projekt, takže to takto nefunguje. Ak chceš prispieť kód, prispej, ale nebudeme robiť veľké zásahy do produktu.“
Povedal som, že okej, to je zvláštne, nie je to úplne komerčný prístup, ktorý by si človek predstavoval od nástroja, na ktorom staviam celý svoj biznis. A zároveň to bola zvláštna diskusia o tom, ako by mala fungovať kolaborácia. To bol ten zlomový moment, keď už pohár pretiekol. Hovorili sme o tom, že jedna z najviac žiadaných funkcionalít bola real-time …
Ak chceš, môžem pokračovať ďalej alebo upraviť ešte iné časti textu.
Tu je opravený text s lepšou gramatikou a štylistikou:
Me collaboration. A ty akože prídeš za nimi, ja sa tak spýtam: „Tak no, čo ideme spraviť s tou real-time collaboration? My to tiež potrebujeme.“ A oni sa na teba pozerajú a hovoria, že by to nemalo fungovať, hej, že oni si myslia, že real-time collaboration je zlá a že Jupyter notebooky by sa mali verzovať cez Git, a že kolaborácia by mala fungovať cez GitHub. A vtedy si uvedomíš, že aha, to nie je iba technický problém, to je problém politického charakteru, teda mindsetu. Tam by sme to nedokázali pretlačiť ani keby sme do toho investovali, ani keby sme začali budovať veľký tím, ktorý by vyvíjal Jupyter – aj tak by sa to nestalo.
Takže to bol ten čas, keď sme si povedali, že treba budovať nový notebookový nástroj, ktorý sa bude viac pozerať do budúcnosti a bude mať silnejšiu víziu toho, čo notebooky môžu znamenať. Nie je to iba code editor, nie je to IDE, ale miesto, kde môže prebiehať dátová explorácia nielen pre technických ľudí, ktorí ovládajú Python a Markdown, ale aj pre tých, ktorí majú len otázku, napríklad koľko custom row momentálne existuje v tvojom CRM, alebo ako spraviť jednoduchú analýzu, ktorý feature či produkt performuje najlepšie.
A s touto myšlienkou sme začali pracovať na DeepNote. Vtedy, v tom čase, predstava budovať niečo cloud native bola už veľká inovácia, výrazná diferenciácia. A keď sme niekomu ukázali demo, že dvaja ľudia majú každý svoj kurzor v tom istom bloku a môžu písať súčasne, ľuďom to doslova odpálilo dekel. To bolo seed demo, keď sme zháňali investíciu – ja som otvoril laptop, rozdelil obrazovku na dve okná a v jednom som písal na klávesnici „fghfgh“ a na pravej strane sa to zároveň objavilo. Ľudia boli nadšení: „Wow, skvelé!“
Mne sa páči, že tam bol viditeľný trend naprieč rôznymi odvetviami, že to musí zasiahnuť aj dáta. Spomínal si Figma a podobné kolaboratívne designové nástroje, ktoré mali svoj veľký boom, a videli sme, že toto príde aj do dátovej analýzy, data science a BI. To bola naša veľká výhoda. Veľmi rád tomu hovorím “standing on the shoulders of giants”. Vtedy bol v Silicon Valley krásny prípad firmy Figma, ktorá robila real-time collaboration pre design. Každý sa pozeral, kde sa to dá zreplikovať a bolo tam veľa paralel, na ktoré sa dalo nadviazať. Designer je definícia človeka, ktorý si nedizajnuje sám pre seba, ale musí zdieľať svoju prácu s ďalšími ľuďmi, ktorí často nie sú dizajnéri – sú to vývojári, produktoví manažéri, CEO alebo exekutíva, ktorí chcú vidieť, ako bude vyzerať landing page predtým, než sa spustí.
Presne toto sme videli aj v dátovom tíme, ktorý si analýzy nenecháva len pre seba…
Ak chceš, môžem text ešte viac upraviť, skrátiť alebo prispôsobiť štýl.
Tu je opravený text s úpravou gramatiky, štylistiky a interpunkcie:
Pre seba. Tiež to musí zdieľať s vývojármi, ktorí z toho možno budú implementovať nejaké produkčné modely, alebo sú to presne tí business analytici či business stakeholderi, ktorí sa na začiatku pýtali tie isté otázky. Tak sme si hovorili, že okej, s tým dokážeme niečo spraviť a to bola presne tá myšlienka. Než urobím nejaké zhrnutie cesty, dokázal si vtedy…
Predstaviť GenAI a túto formu toho zjednodušenia a demokratizácie… vôbec. To bolo v čase, keď sme vedeli, že notebook je niečo zaujímavé. Notebook, aj keď pochádzaš z vývojárskeho sveta, keď študuješ napríklad human-computer interaction, alebo nejaký dev tooling, hľadáš taký svätý grál — nejaký nástroj, ktorý dokáže byť veľmi jednoduchý na používanie, teda má nízku vstupnú bariéru (low floor), ale zároveň je to nástroj, ktorý ťa nelimituje v tom, čo dokážeš spraviť (high ceiling). A také nástroje vtedy neexistovali.
Napríklad spreadsheet je super nástroj, veľmi ľahký na začatie používania a na pochopenie, ako veci fungujú. No v spreadysheete veľa komplikovanejších vecí nespravíš. Potom musíš prekonať obrovský gap, kde sa učíš pandas na tutoriáloch, ako otvoriť terminál, spustiť Python konzolu a začať importovať numpy knižnice. A až o šesť mesiacov neskôr spravíš svoj prvý filter na dataframe. Je to veľký rozdiel.
My sme sa pozreli na ten notebook a hovorili si, že „vau“, ak to spravíme dobre, ak to naozaj dobre implementujeme a exekvujeme tak, ako si predstavujeme, môžeme mať nástroj, ktorý je veľmi jednoduchý na používanie. Môžeš prísť do notebooku a začať tým, že napíšeš text – nemusíš byť markdown expert, proste napíšeš text ako v Google Dokumentoch. Potom, ak máš nejaké dáta, jednoducho ich drag and dropneš. Keď chceš vizualizovať, tam bude button na vizualizáciu. Potom si povieš, že chceš pokročilejšiu vizualizáciu — nevadí, proste klikneš na Python button, zoberieš surový dataframe, importuješ Plotly a robíš tam rôzne vylepšenia.
A keď chceš posunúť svoje projekty ešte ďalej, nič ti nebráni prepnúť si hardware, mať GPU, importovať TensorFlow a bežať. Toto nás bavilo, tieto notebooky boli pre nás zaujímavé a vedeli sme, že to bude niečo veľké. Mali sme pocit, že je to nástroj, user interface, ktorý nielen škáluje s komplexitou problémov, ale zvládne aj budúci vývoj.
Keďže je postavený na jednoduchých princípoch a pracuje s blokmi, keď príde nejaká nová technológia, stačí pridať nový blok a hotovo. Ale dopredu sme nevideli, kam to až pôjde. To sa stalo až keď vyšiel ChatGPT a my sme si povedali, že to je úplne super. Nielenže sme boli všetci ohúrení z demo verzie ChatGPT, ale zároveň sme to videli aj takto…
Dajte vedieť, ak chcete text ďalej upraviť alebo zjednodušiť!
Tu je opravený text:
My sme si povedali, že keby sme chceli spraviť ChatGPT lepším, tak by sme to spravili presne ako notebook. A práve na tom sme vlastne pracovali takmer dva roky. Nerozmýšľame nad ničím iným, len ako dokážeme využiť tieto nové – my tomu hovoríme „new piece of grammar“, teda nové prvky práce, ktoré predtým neexistovali – a ako to dokážeme zakomponovať do každodenného života dátových analytikov a data scientistov.
Z môjho pohľadu ste k tomu mali zaujímavý prístup, pretože ešte predtým, než Deep Note skočil na tú vlnu a jednoducho povedal, že máme integrovaný Gen AI, ste mali dostatok času riešiť, kde je správne miesto na použitie tejto technológie a aké sú tie správne funkcie. Viem, že ste boli trochu opatrní voči hype-u, keď na druhý deň všetci vraveli, že tu máme chatbota a Deep Note má Gen AI. Môžeš povedať niečo viac o tomto procese, kde ste hľadali inflection points, teda tie kľúčové momenty a pákové body?
Mám pocit, že to je dosť zaujímavé a myslím si, že to rieši aj mnoho našich poslucháčov – zaujímavá technológia, ale nie na všetko, a treba vedieť, kde dáva zmysel.
Keď sme to prvýkrát videli, vzniklo mnoho startupov, ktoré sa snažili integrovať AI do svojich workflowov. Ako si pamätáš, tie prvé integrácie fungovali tak, že sa v produkte objavil nový chatbot. Avšak nebolo to dobre integrované s produktom – produkt s tým nedokázal nič spraviť. My sme si hovorili, že toto nevyzerá ako budúcnosť. Nemyslím si, že vezmem akýkoľvek vtedy existujúci produkt, zmenším jeho šírku o 200 pixelov, vložím tam chat interface a zrazu to zvýši produktivitu desaťnásobne.
Takže sme sa pozerali na to, že OK, ako to vlastne spravíme? Aké sú tie nové interakcie, ktoré boli skutočne nové? Ty vieš, ako pridať nový button, modal, slider alebo input box do UI, ale ten vzor, keď tam je stále prítomný AI agent, ktorý sa môže kedykoľvek zobraziť, dopísať text za teba alebo vykonávať pokročilú analytickú prácu – to vtedy ešte nebolo úplne jasné.
Naša roadmapa AI teda začala tým, že sme ako prvú vec spravili code completion. Nešlo o to, že znížime bariéru vstupu pre úplných začiatočníkov, ktorí ešte nevedia, čo je Python. Naším cieľom bolo zvýšiť produktivitu ľudí, ktorí už píšu kód v Pythone, a to desaťnásobne. A doteraz to pôsobí ako kúzlo. Aj keď sme už všetci zvyknutí písať väčšinu kódu s AI, stále ma to prekvapuje a teší, keď idem napísať novú funkciu – ledva začnem písať „def“, a už je celý kód doplnený. Je to zaujímavý zážitok, hlavne keď sú modely kvalitné a dobre sa integrujú s konkrétnym codebaseom a kontextom.
Ale vedeli sme, že tým to nekončí. Vedeli sme, že tá naozaj zaujímavá časť bude v ďalších interakciách, ktoré sú o niečo subtilnejšie.
Ak chceš, môžem ti text ešte viac upraviť alebo zjednodušiť.
Tu je opravený a upravený text s lepšou formálnosťou a zrozumiteľnosťou:
Ťažko sa to opisuje iba slovne, ale predstav si svet, v ktorom napíšeš nejaký SQL dotaz. Ten dotaz je komplexný, možno si ho skopíroval zo Stack Overflow alebo si ho nechal vygenerovať. A zrazu tá SQL query nefunguje. Predtým sme mali tlačidlo „Search error on Stack Overflow“, ktoré automaticky skopírovalo chybu, otvorilo nové okno Stack Overflow a vyhľadalo možný riešenie. Toto tlačidlo sme nahradili funkciou „Fixed with AI“. Stačí stlačiť tlačidlo a za pár sekúnd môžeš pokračovať v práci. Takýchto interakcií je naozaj veľa.
Postupne sme začali budovať interný framework, aby sme vedeli o týchto veciach rozprávať. Predstav si, že máš produktových manažérov a dizajnérov, ktorí sa musia dohodnúť, ako pôjdeme robiť roadmapu a ako budeme nové funkcie nazývať. Preto sme veľmi rýchlo pochopili, že existujú tri hlavné interakcie pri práci s kódom alebo dátovou analýzou: Generate (generovanie), Edit (úprava) a Explain (vysvetlenie). Práve tieto tri pojmy sme použili na pomenovanie prvých funkcií, ktoré sme vydali.
Ako sa týmto spôsobom technológia posunula v rámci produktu DeepNote? Jedno z našich dôležitých rozhodnutí bolo, že nebudeme budovať vlastný model. V tom čase to ešte nebolo úplne jasné, no mnoho firiem investovalo obrovské peniaze do fine-tuningu open source modelov, čo bol veľký hype. Vždy to však vyzeralo tak, že to nie je úplne správny smer. Ak sa pozrieme na to zo základných princípov, prečo by sme mali stavať vlastný model, keď okolo je veľa kvalitných riešení? Aké budeme mať odlíšenie a ako to budeme vedieť obhájiť?
Takže sme dospeli k rozhodnutiu spoľahnúť sa na tých, ktorí modely vyvíjajú, a vybrať si ten najlepší, čo momentálne existuje na trhu. Pri rokovaniach s prvými dodávateľmi sme hovorili: „Aký najkratší kontrakt môžeme podpísať? Lebo vieme, že o tri mesiace už nemusíte byť najlepší.“ Toto bolo kľúčové uvedomenie – nebudeme stavať vlastné modely, ale zameriame sa na to, ako ich dobre integrovať do UI a ako im poskytnúť potrebný kontext.
Pretože samotný GPT-4.0 je skvelý, ale keď sa ho spýtaš: „Ukáž mi históriu predajov najpredávanejšieho produktu a určité významné momenty,“ a nemá prístup do tvojej databázy ani k štruktúre dát vo warehouse v Snowflake, nedostaneš relevantnú odpoveď. Tu vzniká veľký problém – kontext, ktorý má model dostupný, je len pár tisíc tokenov a otázka je, ako doňho vtlačiť veľké množstvo dát z data warehouse.
Ak chceš, môžem text doplniť alebo upraviť podľa ďalších požiadaviek.
Tu je opravený a upravený text, aby bol zrozumiteľnejší a gramaticky správny:
Príklad u dnešných zákazníkov je, že majú aj 120 tisíc tabuliek. To jednoducho veľmi dobre nefunguje. Takže veľa z toho, čo sme začali robiť – rôzne spôsoby optimalizácie, pochopenie, ako tie modely fungujú a čo je dôležité a čo nie – to bola taká náročná časť našej práce. V nej sa rysuje aj to, že najväčším IP (intelektuálnym vlastníctvom) firmy nie je samotný model, ale spôsob, akým feedujeme informácie a kontext do modelu.
Mám pocit, že ste produktová firma, ktorá skutočne staví produkt pre budúcnosť – nie len jednotlivé komponenty, ale logiku a celkový feeling, aby sa to dobre používalo. V tom máte západný štýl, nesústredíte sa len na drobné úpravy a jednotlivé časti kódu. Keď hovoríš, že ragy a tá vnútorná logika sú vaše najväčšie IP, sú tam nejaké „lessons learned“, slepé uličky alebo iné skúsenosti? Trh sa veľmi rýchlo vyvíja. Boli tu napríklad agentné systémy, ktoré vyzerali veľmi dobre, teraz sa vracia jednoduchosť logiky.
Ak pracuješ s dátami, halucinácie sú veľký problém – je kľúčové, aby model mal “source of truth”. Mali ste nejaké ťažké prípady, ktoré ste hrdo vyriešili? A čo by si odporučil ako best practices?
Je toho veľa, no najťažšie je vyvarovať sa “rabbit hole” (zašlapaným slepým uličkám). Meriate a vidíte, kde ste začínali – napríklad asi s 51 % úspešnosťou SQL query, ktoré model generoval na získanie dát. To je pomerne nízka úspešnosť. Postupne sa to snažíte zlepšiť, pretože to nie je dobrý user experience.
Možnosti sú napríklad pomáhať modelu – dať predmodel, ktorý prompt rozšíri alebo kontext zúži. Avšak všetko, čo dnes riešite, nemusí byť relevantné o pol roka – napríklad keď používate GPT-3.5 a príde štvorka, stačí zmeniť jeden riadok kódu (endpoint) a môžete vymazať stovky riadkov nepotrebného kódu.
Najťažšie je nájsť rovnováhu medzi tým, čo optimalizovať a čo ešte nie. Neviem, či ti teraz takto z hlavy poviem niečo odborné, čo by si si nevšimol sám – skôr sú to také malé rozhodnutia, ktoré musíš robiť denne.
Dynamika vývoja je veľká, preto neplánovať custom riešenia, ktoré za pár mesiacov budú už vyriešené inak, je dôležité. Na začiatku bola hlavnou výzvou veľkosť kontextového okna. A hlavne ide o to, ako postavíte organizáciu. Mnohé produktové organizácie sú veľmi viazané na KPIs, čo je super, ale zároveň to núti robiť veci tak, aby vyhovovali OKR, napríklad robiť code completion alebo SQL generovanie, namiesto skutočnej hodnoty.
Ak chceš, môžem text ešte viac upraviť, spraviť stručnejší alebo naopak podrobnejší.
Opravený text:
Generation a hitnete nejakých 70 % a ty vieš, že je to OK, tak môžeš to hitnúť, keby chceš, ale je to veľmi short term investment a môžeš ten čas venovať nejakej inej feature, ktorá je úplne z iného súdka, a tá druhá sa medzitým zlepšuje. Takže je to dosť veľký organizačný problém, ktorý musí veľa firiem teraz riešiť, lebo svet na to nie je pripravený. No, ako ste riešili pricing? Mám pocit, že veľká diskusia bola tým, že keď do toho napojíš LLM-ko, tak ti v tú chvíľu rastú náklady, a napriek tomu, že cena tých dotazov veľmi rýchlo rastie, tak počet používaní krát počet používateľov, ktorí to používajú, môže veľmi rýchlo naskočiť a urobiť neprekonateľný problém v batérii. Veľmi sa diskutuje o tom, že OK, keď pridáš AI feature, tak je to prémiová feature, ktorú musí používateľ zaplatiť. Ako ste na to vy mysleli a ako to riešite?
No pozri, v praxi si povieš, že wow, toto bude super feature, a máš nejaký pricing, že OK, koľko dolárov ťa bude stáť tisíc tokenov, ale ako to spočítať reálne v praxi a odhadnúť, ako často ľudia budú používať, aké veľké outputy im to bude dávať a podobne, to proste nevieš. Takže je to taký zaujímavý pocit, že prídeš, releasneš feature a sedíš a refreshuješ dashboard a čakáš. A pozeráš sa, že OK, začalo to používať pár ľudí, OK, už to používa viac používateľov, povieš si, že aha, momentálne si on track, že to môže byť niečo za tých 10 000 dolárov tento mesiac a už ti z toho začína tiecť pot po čele. Ale potom vidíš ten engagement, ako dobre to funguje a pochopíš, že to tam jednoducho musí byť.
Jedno z rozhodnutí, ktoré sme spravili veľmi rýchlo, bolo, že AI nie je prémiová feature. AI je spôsob, akým by mal produkt fungovať. Je to proste nedeliteľná súčasť produktu. Často riešime veľkých enterprise zákazníkov vo finančnom sektore, firmy z Fortune 500, ktoré sú veľmi skeptické k akýmkoľvek modelom. Pracujeme s nimi na tom, že: „Počúvajte, vieme, že to možno vypnúť, nemusíte to používať, ale povedzte nám spôsob, ako to dokážete presadiť, lebo ak používate dátový workspace a tie nové implementované produkty v roku 2024 nemajú ten next productivity improvement, tak to bude zlé.“ Preto sme aj my v podstate dali náš pricing tak, že OK, AI je zahrnuté v cene. Áno, stojí nás to viac peňazí, musíme to nejakým spôsobom optimalizovať, ale dokonca sme to pustili tak, že ľudia v free pláne, v našej community edition, neplatia nič za AI. A to nás trochu bolí, lebo tých ľudí je veľa a oni sú radi, že majú takto AI features. V každom prípade myslím, že AI je dnes nedeliteľná súčasť produktov. To, ako potom manažuješ tie náklady, je už iná otázka, ale počas toho, čo ti steká pot po čele, príde často nečakaný darček. Veľký podiel, ktorý by si predtým nečakal…
(Text končí neukončený.)
Tu je opravený text s úpravami pre lepšiu gramatiku, štylistiku a čitateľnosť:
Ešte som nedostal odpoveď. Hej, ani to nie, skôr myslím, že tak tam použiješ nejaký free point five a zrazu, zničoho nič, príde free point five turbo. A je to rýchlejšie, lepšie odpovedať na otázky a je to niekoľkonásobne lacnejšie.
A povedal som si, uff, dobre, tak tých 10 tisíc to teda nebude, bude to už len 8 tisíc, hej? Predĺžila si nám runway o pol roka, kámo. Hej, a potom sa, akože, hneď na to dostaví efekt, začne fungovať návratnosť investície a ľudia veľmi rýchlo pochopia, že dokážeš rozdávať kredity, takže sa potom idú o ne pobiť, kto ti dá viac kreditov.
Napríklad my teraz používame z veľkej časti Azure, presne z toho dôvodu, že Azure má svoj vlastný ChatGPT servis, ktorý má nejaké nevýhody, hlavne v stabilite a rýchlosti generovania, ale zároveň má veľké výhody, napríklad to, že stojí na kreditoch a tých kreditov je dosť veľa. A keď tie kredity na tých modeloch klesajú rýchlejšie ako rast používateľov, tak si povieš, že to je celkom dobrý deal.
Ako je vlastne postavený pricing Deepnote? Museli ste ho zmeniť týmto spôsobom, že ste všetkým tímom zdražili, aby sa náklady pokryli, alebo niečo také? My postupne zdražujeme Deepnote každých pár rokov, neviem presne koľko, asi každý rok a niečo, lebo produkt sa naozaj zlepšuje. Keď sme začínali, bol to čisto notebook, a náš hlavný konkurent bol Jupyter. Nemôžeš len tak prísť a povedať, že toto je zadarmo, a toto má cenu, keď sme ledva odstránili beta logo a dali sme to na vlastnú doménu botka.com.
Postupne, ako začínaš riešiť väčšie problémy, ako nahrádzanie Jupyteru, Databricks, Looker a kopu ďalších enterprise nástrojov, môžeš si dovoliť zvýšiť cenu. Ten AI bol naozaj veľký skok, najmä aj v tom, ako sa dokážeš rozprávať pri pricingu. Predtým mal argument o úspore času pri komunikácii so stakeholdermi – čo je ťažko opísať a presne vyčísliť.
Potom robíš kalkulácie, že teraz si vlastne nemusíš manažovať vlastnú platformu, nemusíš zamestnávať devopsa, ktorý manuálne updatuje všetky Jupyter Huby, Helmčarty a zároveň zabezpečuje, aby bolo všetko bezpečné. Aby keď niekto začne používať novú databázu, boli tam predinštalované potrebné balíčky a aby niekto neprišiel s novým machine learning modelom, ktorý by vyžadoval upload vlastných Docker kontajnerov.
Toto už je niečo, čo sa ľahšie opíše a vysvetlí v pricing modeli. Ale keď máš ten „killer“ argument, že teraz máš 100 dátových vedcov a vieš, že otvoriť súbor v Pythone im trvá čas, že musia písať nejaké flagy, iterovať cez viacero riadkov kódu, a potom prídeš ty a napíšeš prompt a zrazu je to hotové – tak ten produkt je jasný víťaz.
Ak chceš, môžem text ešte viac upraviť alebo zjednodušiť.
Tu je opravený text:
Improvement celkom silný a to už je potom v tom svete jednoduchá matematika, kde vieš odhadnúť, koľko stoja tí data scientisti a koľko dokážeš ušetriť tým, že im dáš proste toho IS centa, ktorý stojí rádovo desiatky dolárov mesačne. A čo tým pádom pricing? Tak máte seeds, máte compute, máte features využitia, alebo kde robíš tú čiaru? Pracujeme to na základe seeds a takisto vychádza z našej filozofie, že čaržujeme ťa iba za editorov, za ľudí, ktorí naozaj píšu kód, vytvárajú nové reporty, nové analýzy. My veríme v to, že dáta by mali byť demokratizované a keď musíš v tom momente platiť za každého viewera, tak akože tak rozmýšľaš, že OK, tvoj CEO to asi potrebuje, tvoj CFO by to kind of potreboval a radšej mu to nedáš, lebo jednoducho vieš, že budú problémy a musíš to vysvetľovať a potom to
a po tomto kredite hrášira, že OK, tak tento produktový manažér práve teraz ešte joinol a tak ešte mu to chvíľu nebudeme dávať, keď to bude treba, tak sa spýtame manažéra. A to vytvára zbytočné problémy. Takže my sme veľmi rýchlo pochopili, že minimálne tí vieweri musia byť zdarma. A popravde dosť často aj iterujeme na tom pricing modeli. Rozmýšľame, ako to ešte viac zjednodušiť. My by sme boli radi za svet, kde aj tí editori sú všetci neobmedzení. Lebo to aj vidíme, čo sa deje s tým AI svetom. Pred rokom, dvoma, to proste OK, tak desať ľudí v tvojej firme dokázalo napísať Python a zodpovedať na tú otázku, ale teraz to vie spraviť asi každý človek a jedinou limitáciou je, aký si veľmi odvážny. Takže hej, ale aby som to nejakým spôsobom dal do poriadku, čaržujeme za licencie. Dokonca robíme takú vec, že v tých licenciách ti rovno dávame compute. A spravili sme nejaký datový model, pripravili sme si to, aby sme vedeli povedať, OK, koľko asi nás bude stáť ten compute pre tohto používateľa. Lebo nechceme, aby si mal v hlave taký ten fear, že OK, túto analýzu by som spustil, ale keď spravím túto query a zapnem nejakú veľkú mašinu, tak to bude stáť nejakú sumu. Bude to stáť centy, ale stále to máš v hlave, stále je to ďalší dôvod, prečo to nepoužívať. A to nechceš. Chceš byť jedno miesto, ktoré neriešiš, máš defaultne dostupné. To mu rozumiem.
A vlastne si mi trochu nahral zase na začiatku Deep Note, cítil som, že ste tool for data developers, že ste veľmi v data science, veľmi v dátových tímoch, že to je vaša primárna cieľovka. Na začiatku bolo skvelé, ako veľmi ste boli na svetových univerzitách a ako to bol go-to tool pre niekoho, kto sa učí data science. To sa vám neuveriteľne podarilo. A čím ďalej tým viac, a teraz vlastne s tými novými features, ako teraz hovoríš, že sa rozširuje a demokratizuje počet nielen viewerov, ale aj editorov, tých, čo chcú robiť vlastné analýzy a prototypy. Ako sa toto prejavilo na trhu, na pozíciách, na vašich klientoch? Vidíš to? Už sa to deje? Určite áno.
Ak chceš ešte niečo konkretizovať alebo upraviť, daj vedieť!
Tu je opravený a upravený text:
A keď sme začínali, nemali sme predstavu, že by cieľovkou našej firmy boli univerzity. Nezačínaš firmu s tým, že tvoja cieľovka budú univerzity. Ale zároveň vidíš, že to je miesto, kde môžeš rásť extrémne rýchlo. Ak to začne používať jeden človek, veľmi rýchlo sa to rozšíri medzi ďalších 300 ľudí v tom ročníku. Takže to bola vec, ktorá nám veľmi rýchlo začala fungovať a funguje nám to dodnes.
Keď si vezmeš top 100 univerzít na svete – Harvárd, Stanford, Oxford, Cambridge, ale aj také, o ktorých si možno nikdy nepočul, napríklad v Číne, ktorá má mnoho výborných univerzít – na týchto univerzitách by si nemal mať prístup na západné servery. Malo by to teda vôbec nefungovať. Napriek tomu sa na každej z top 100 univerzít používa DeepNote. A keď to rozšíriš na top 1000 univerzít, ešte som to nespočítal, pretože je ťažké dohľadať tieto dáta, ale zastúpenie je obrovské.
My o tom však veľa nerozprávame, lebo za prvé, nechceme, aby ľudia mali pocit, že DeepNote je len pre univerzity – to by neprospelo nášmu brandingu a positioning-u. A za druhé, ako startup potrebuješ zarábať peniaze, a univerzity nie sú miesto, kde sa to deje.
Preto sme sa veľmi rýchlo zamerali na získavanie enterprise zákazníkov a myslím, že sa nám to začína pekne dariť. A čo sa týka rýchlosti, medzi našimi klientmi je veľa finančných inštitúcií, ktoré samozrejme majú obrovské dátové tímy. Jeden z najväčších suverénnych fondov – Norský suverénny fond Norges Bank – používa DeepNote. Mnoho private equity firiem, hedge fondov, bánk, ako aj startupov, využíva DeepNote.
Medzi startupy patria napríklad SoundCloud, Webflow, Gusto a podobne. Z času na čas pribúdajú aj štátne a neziskové organizácie, napríklad nedávno sme boli radi, že DeepNote používa aj organizácia Streska. Máme mnoho väčších zákazníkov, a to sú zaujímavé miesta, o ktorých by si možno predtým nepomyslel.
Je tam napríklad startup, ktorý sa venuje vertikálnemu farmárstvu a modeluje, koľko vlhkosti je potrebné v ich skladovacích priestoroch. Alebo Bill & Melinda Gates Foundation, ktorá používajú DeepNote na modelovanie šírenia malárie v juhovýchodnej Ázii.
Takže záber nášho nástroja je veľmi široký. Ľudia sa nás často pýtajú, aká je naša vertikála, no my nemôžeme nikomu zakazovať používať Python tak, ako potrebuje. Využívajú sa všetky možné scenáre – od predikcie a detekcie podvodov až po cutting edge výskum v materiálových vedách.
Čo sa týka horizontálnej roviny, teda odboru data science a modelovania, stáva sa, že sa postupne posúvame viac k biznisu z dátových oddelení a to už je cítiť. Ako pre vás je to dôležité? Máte už nejaké use cases?
My sme začali ako dátová platforma s notebookom, pretože to je miesto, kde musíš začať, a zároveň je to naše jadro. Notebook je spôsob, ako chceš štruktúrovať nielen svoju dátovú platformu, ale aj manažovať svoj dátový tím. Preto sme veľmi jasne začali práve s tým notebookom.
Ak chceš, môžem ešte viac upraviť text, prípadne zjednodušiť štylistiku.
Tu je opravený text:
Ok, so skúsenosťou s notebookom si potom povieš, že vlastne ten notebook je veľmi dobrý nástroj nielen na exploratívnu prácu, ale aj keď si potrebuješ dokumentovať svoj interný dátový katalóg alebo internú knowledge base, prečo by si to písal do nejakého samostatného readme.md a dával to niekam úplne inde? Proste to vložíš do notebooku a postupne sa k tomu začnú „nalepovať“ také veci ako semantic layer. Takže si to práve opísal v angličtine – že naozaj to musíš znova prepísať do toho YAML súboru, lebo AI to nemôže pochopiť a mať všetko na jednom mieste, aby si potom mohol generovať svoje vlastné queries.
A keď už máš ten notebook a povieš si, že spravil si nejakú super analýzu, z ktorej vznikol napríklad graf, chceš to tiež naozaj skopírovať a dať do nejakého Tableau alebo Power BI, aby to notebook začal prirodzene posúvať do iných častí dátového stacku. No, toto je aj na nás otázka a myšlienka – ktorým smerom sa chceme vydať. Chceme byť skôr taký ten, ktorí pridávajú frontendové funkcie – viac vizualizácií, viac dátových aplikácií, viac pie chartov, viac customizácií, napríklad či tooltip bude zarovnaný doľava alebo doprava? Alebo chceme robiť backendové funkcie, kde model, ktorý si práve natrénoval, pozeráš, či ho môžeš rovno servovať priamo z notebooku, či vieš robiť nejaké API, API calls, či ten notebook vieš naskedžulovať, aby ti bežal ako dátová pipeline?
Takže to je veľká otázka, ktorú aj my interne riešime a je ťažké na ňu odpovedať. Vidíš, že hodnota produktu prichádza z toho, že už nemusíš vyberať, že nemusíš platiť zvlášť licenciu za BI tool, zvlášť za dátové pipeline a zvlášť za dátový katalóg, ktoré musíš aj tak zlepiť dokopy, lebo to sú nedeliteľné súčasti toho istého dátového sveta. Takže robíme, čo môžeme, a snažíme sa manažovať priority, pričom naša vízia je zjesť všetko v tom dátovom stacku, ktorý momentálne máš.
Táto vízia sa potvrdila aj tým, že máte za sebou nedávno prvú akvizíciu. Pre mňa to bolo šokujúce – že už požierate nielen jednotlivé časti hodnotového reťazca v dátovej analytike, ale že už aj konkurenciu. Ako sa to vlastne upeklo? Môžeš o tom niečo povedať?
Aby sme to mali v kontexte – my sme startup vo fáze Series A. Nedá sa povedať, že by sme boli nejakým veľkým hráčom viditeľným na CrunchBase a niekto by si povedal: „Oh my God, toto je firma, ktorá zarábala stovky miliónov dolárov a teraz na kríze míňa.“ Zároveň sme firma, ktorá má podľa mňa veľmi dobré financie a peniaze, ktoré sme narezali, boli dosť značné. Takže máme biznisový potenciál aj strategický dôvod, aby sme sa poobzerali, čo sa v okolí deje, a povedali si: „OK, kto robí nejaké zaujímavé veci?“ Tento trh je dosť ťažký – neprišiel si s ničím úplne novým. Každá firma už má nejakú dátovú platformu. Dátový trh ako taký je…
Ak chceš, môžem pokračovať alebo upraviť aj ďalšie časti textu.
Tu je opravený a upravený text tak, aby bol gramaticky správny a plynulý:
Historicky vždy rástol o 30–40 % ročne. Je to tu jednoducho od začiatku 70. a 80. rokov. Áno, nie je to malý trh, nie je tam málo hráčov. Takže tam naozaj potrebuješ mať veľmi dobrú exekúciu, aby si dokázal nejakým spôsobom vyčnieť z davu. Jedným z našich konkurentov bola firma HyperQuery. Poznáme tých founderov. Urobili super produkt, ale zároveň sme videli, že úplne nestíhajú držať krok s tým trhom, napríklad s nami. Keď sa robil nejaký deal a vždy sme počuli, že „OK, tento zákazník si pozrie zopár nástrojov a vyhodnotí, či ísť s DeepNote alebo s HyperQuery,“ tak väčšinou padlo rozhodnutie, že to bude DeepNote. Pre nich to teda bolo ťažké nejakým spôsobom konkurovať. A vtedy si vlastne uvedomili, že je tu dobrý príbeh a že sa tam dá niečo skonsolidovať.
My sme už nezverejňovali presné čísla, za koľko sme ich kúpili. V zásade máme taký západnejší prístup k reportovaniu našich metrík verejnosti. Ale môžem povedať, že už teraz tá akvizícia na seba zarobila, pretože feedback bol vynikajúci. Zákazníci, ktorí používali HyperQuery, mali veľmi ľahký prechod na DeepNote ako nový systém. Zároveň vidíš, že keď niekomu dáš do rúk pokročilejšiu dátovú pracovnú plochu, pokročilejšiu dátovú platformu, tak tí ľudia ju začnú viac používať a sú ochotní míňať viac peňazí.
Aby som to uviedol do kontextu – bola to pre vás najmä akvizícia trhového podielu, alebo skôr akvizícia SaaS riešenia na notebooky? Z úvodného rozhovoru som mal dojem, že ste mali veľmi podobné produkty.
Áno, filozoficky sme boli veľmi blízko. Produkt sme integrovali do DeepNote a takmer sme tých ľudí presunuli z HyperQuery na DeepNote. Pretože filozofia produktov je relatívne podobná, nemuseli sme to veľmi ohýbať. Jedného dňa si jednoducho spravia switch a majú lepší systém, v ktorom všetko, čo mali predtým, funguje.
Čo sa týka trhu ako takého – keď som DeepNote prvýkrát zaznamenal, vedel som, že sú tu Jupyter notebooky. Ale netušil som, že notebooky budú raz takým centrom celého stacku a že budú nástrojom na jeho konsolidáciu. To som počul len od teba. V informačnom Nexuse sa to veľmi neriešilo, viac sa riešili iné veci, ako Snowflake a databázy.
A neviem, nakolko som ovplyvnený tebou, ale posledný rok a pol vidím, že notebooky sú všade a veľkí hráči im pridávajú funkcie a čoraz viac na ne stavia. Ako to vnímaš ty? Je to pre teba potvrdenie? Alebo riziko a potreba budovať väčší mód?
Nie si jediný, kto začal vnímať, že notebooky získavajú väčší vplyv v dátovom svete. Keď sme začínali, skutočne naši začiatok bol v tom, že tam bol iba Jupyter. A keď Jupyter nevedel spraviť collaboration tak, ako sme potrebovali, museli sme to spraviť my. Odvtedy si myslím, že viacero dátových platforiem pochopilo,…
Ak chceš, môžem pokračovať alebo text ešte upraviť podľa ďalších potrieb.
Samozrejme, tu je opravený text s lepšou gramatikou, štylistikou a plynulosťou:
Notebook nie je len nejaký addon, kde niečo pridáš, napríklad tlačidlo do toho rozhrania, ktoré ti otvorí Jupyter v nejakom iFrame, tam rýchlo niečo napíšeš a potom to pomôže zatvoriť. Je to proste neoddeliteľná súčasť toho, ako funguje dátová platforma. A vlastne každá nová dátová platforma, ktorá vzniká alebo je modernejšia, už neslúži len ako pridaný prvok. Vidieť vplyv toho, že notebook nie je prizvarený zvonka, ale stáva sa jadrom celého používateľského zážitku. Databricks to robil veľmi dobre už veľmi skoro. Notebook mali takmer od začiatku, čo je veľký dôvod, prečo Databricks teraz tak rastie. Práve preto, že notebook tam je. Snowflake prišiel s tým veľmi neskoro a začal konkurenciu s Databricksom najmä na úrovni databázového data warehouse. Ako sa tieto veci konsolidujú a štandardizujú, je čoraz ťažšie nájsť zásadné rozdiely medzi rôznymi databázovými technológiami.
Snowflake tak rýchlo pochopil, že áno, vie získať príjmy od ľudí, ktorí píšu SQL dotazy, ale zároveň všetci chcú písať Python, importovať LLM modely, fine-tunovať LAMY – a to sa v tradičnom databázovom engine nedá. Takže všetky veľké dátové platformy pochopili, že potrebujú nielen SQL editor s veľkým textovým poľom a panelom na zobrazenie výsledkov, ale aj notebook, ktorý umožní rozširovať komplexnosť, importovať Python balíčky, spúšťať veci na GPU a analyzovať dáta, ktoré nie sú iba tabulárne.
Keď hovoríme o Snowflake a Databricks, ide o technologickú vrstvu od databázy nahor. Ako to vnímaš, keď teraz veľa ľudí hovorí o Notebook LM od Google, ktorý ide asi zo „shora dole“ a predstavuje taký lightweight nástroj?
To je veľmi dobrá otázka. Keď sme začínali skúmať vznik notebookov, Microsoft urobil tiež silný presun v tomto smere. Mal totiž svoj hosted Jupyter Notebooks, ale zrazu ho zatvoril. Bolo to zvláštne, pretože mnohí zákazníci nevedeli, čo teraz robiť. Microsoft na to nemal úplne jasnú odpoveď. O rok neskôr sa ukázal vo fáze private preview Fabrik, ktorý naznačoval, že tomu už lepšie rozumejú. Okrem toho Microsoft vlastní GitHub, ktorý je veľmi silno integrovaný s VS Code a obsahuje Jupyter Extension, takže technicky vzaté, aj tam je veľký potenciál pre notebooky.
Google je v tomto ohľade naozaj zaujímavý hráč. Často sa hovorí, že Google často produkuje veľa prototypov, ktoré vznikajú a zanikajú – u notebookov to platí asi desaťnásobne. Jedna z mojich obľúbených zábav je počítať, koľko rôznych typov notebookov Google vlastne má. Začalo to veľmi dávno s Colabom, ktorý má sám o sebe zaujímavú históriu – vznikol z niekoľkých interných verzií, ktoré sa podstatne líšia od toho, čo vidia používatelia dnes. Po forknutí pôvodnej verzie sa vytvoril úplne nový tím, ktorý pridal Colab priamo do Google Cloud Platform…
Ak chceš, môžem pokračovať ďalej. Stačí dať vedieť!
Tu je opravený text:
Platforma, kde to nejakým spôsobom pomenuješ. To sa volá Collab Pro Enterprise, ktorý sedí hneď vedľa iného tlačidla, čo sa volá Vertex, ktorý takisto má v sebe notebooky. A to už vôbec ani nerozprávam o veciach, o akvizíciách typu Kaggle, ktorý tie notebooky takisto má, a asi ďalších dvoch alebo troch interných nástrojoch, o ktorých svedectvo ani nevie. Takže to, že Google si pridal do svojho portfólia piaty, šiesty, možno siedmy notebook, asi nikoho neprekvapilo. Čo je zaujímavé, je, ako sa na to Google pozerá, a zatiaľ to, čo som tu teraz rozprával, tak tie notebooky boli vždy nástroje pre vývojárov. Bol to miesto, kde primárne…
Píšeš kód, notebook LM je úplný opak. A v podstate s deep notebookom ani tak nemá veľa spoločné, lebo deep notebook špecificky je dátový notebook. A keď sa pozrieš na ten notebook LM, tak OK, je to notebook, máš tam nejaký chat interface, vieš tam pracovať s nejakými, vieš tam drag and dropovať nejaké súbory. Ale to je v podstate všetko, čo sa tam dá momentálne robiť. A keď sa o tom rozprávame, tak sa už zase dostávame do veľmi komplikovaného sveta, že OK, toto skôr vyzerá ako taká alternatíva chat GPT, ktorý takisto veľmi silno inovuje a má nejaký code execution engine zabudovaný priamo v tom interface. A teraz včera, predčerom vydali nový produkt Canvas, ktorý ti dovolzuje robiť ešte pokročilejšie veci s tým kódom.
Takže ja si myslím, že sa momentálne nachádzame v takej renesancii užívateľských rozhraní, kde už nie sme tu iba my, ktorí hovoria, musia búchať do toho stola, že počúvajte, notebook, notebook, notebook, to bude tá budúcnosť, ale tá budúcnosť naozaj je a ľudia tomu rozumejú. A keď sa na to pozerám ja, zakladateľ notebook startupu, tak sa z toho veľmi teším, lebo to je tá budúcnosť, ktorú som chcel vybudovať.
A za druhé, náš najväčší problém, ktorý riešime, je, že nedokážeme predávať zákazníkom, ktorí predtým nikdy v živote nevideli notebook. To je deň a noc – keď prídeme za niekým, kto používa Jupyter, a povieme mu, že toto je Deepnote, že je to lepšie, oni povedia „omagad, jasne, to je super, rozumiem tomu, nemám žiadne ďalšie otázky,“ a ja im poviem, ako sa za to platí. Ale čo keď to musíme ukazovať človeku, ktorý doteraz pracoval s Excelom, a zrazu mu musíš vysvetliť, že nie je to úplne tabuľka, že môžeš tam pracovať s tabulárnymi dátami, ale nemôžeš tam drag and dropovať veci, keď chceš pridať nejaký nový stĺpec, tak to nie je tak, že tam iba klikneš pravým tlačidlom a dáš „insert right“ a zrazu tam pridáš nejakú novú formulu, ktorá hneď funguje.
Takže aj keď napríklad vznikol chat GPT, tak to bol zase nový kanál pre nás, keď ľudia povedia: „Aha, tak ja teda síce nie som dátový analytik, nie som vývojár, ale bol som schopný tu vygenerovať 200 riadkov nejakého kódu a dokonca to vyzerá, že funguje, len mi tam chýba miesto, kam to môžem deployovať, neviem to pripojiť na svoj Snowflake, neviem to zdieľať, neviem tam kolaborovať,“ tak to sú presne tie veci, ktoré…
Ak chceš, môžem text upraviť ďalej, napríklad v štýle alebo zrozumiteľnosti.
Tu je opravený text s uvážením plynulosti a správnej slovenčiny a češtiny:
H: Tešíme sa, a to je taký vianočný darček pre nás, že z ničoho nič máme nový kanál a nový zdroj našich používateľov. Čo ešte, keď sa bavíme o tej budúcnosti? Hovoril si o renesancii, ja som tu nedávno mal Terezu Tížkovú z E2B, tá spomínala, že si jeden z ich angel investorov, to som nevedel. A čo sa mi na tom rozhovore páčilo, bolo to, že sídlia v San Franciscu, že sú naozaj veľmi hands-on, blízko tomu, čo vzniká, čo sa deje. Ty si urobil rozhodnutie, že tam chceš byť, pretože tam sa tvorí budúcnosť. Tak čo sú tvoje prognózy, trendy, ktoré vidíš tam, v tom centre diania, v súvislosti so softvérovými produktmi, generatívnou AI, dátovou analitikou a ako generatívna AI mení svet?
Myslím si, že E2B to robí veľmi dobre, veľmi dobre pochopili, že musíš byť priamo v tom meste so svojimi zákazníkmi. Momentálne, neviem to presne kvantifikovať, ale podľa mňa drvivá väčšina ľudí, ktorí robia čokoľvek s AI, sídli v San Franciscu, takže tam jednoducho musíš byť aj ty. V našom svete, v dátovom svete, to nie je až tak silno koncentrované, nevedel by som povedať, že drvivá väčšina je v San Franciscu, ale minimálne ten najväčší klaster tam určite je. A keď budeš v Data Platform…
…platforme, tak nie si ostrov sám o sebe. Musíš sa integrovať so Snowflakeom, Databricksom, Oracle a všetkými stovkami ďalších nástrojov, databáz, systémov, ETL, ELT, reverznými procesmi, všetkými možnými pipeline-ami, ktoré existujú. A to sa robí výrazne lepšie, keď máš ľudí pár metrov od seba, môžeš ísť s nimi na nejaké raňajky alebo obed a dohodnúť sa, ako svet vidia oni. Sú tam spoloční zákazníci, vieme niečo spolu vymyslieť. Jediná informácia, ktorú od nich dostaneš, nie je ich tlačová správa, ale môžeš si ich vypočuť, pokecať s nimi o tom.
Čo ten trend, tá budúcnosť? Myslím si, že niečo, čo už prišlo aj sem a čo už všetci vidíme, je, že to, čomu sme hovorili modern data stack, sa rozpadá. Že špecializovaný nástroj na každú vec bola nesprávna alebo len dočasná predstava. Že to vieci platformizujú, že tam vidíme ten coupling — to mi potvrdíš, nie?
Áno, súhlasím. Asi je lepšie to opísať tak, že nikto nevie dopredu. Z času na čas príde nejaká myšlienka, ktorá znie super, napríklad modern data stack. A potom pár rokov na to zistíš, že to nebol najlepší nápad. Ale keď všetko dobre do seba zapadne, vznikne ude nový štýl, vznikne éra, máš VC push, aby vznikali nové kategórie, a zároveň vieš budovať príbehy o partnerstvách medzi rôznymi firmami, vďaka čomu môžeš vyvíjať ich produkty lepšie a efektívnejšie. A keď to ešte zabalíš do nejakého „tektonického“ posunu napríklad s novým OLAP warehouse ako Redshift, ktorý zmenil celý svet, vieš to nejakým spôsobom pospájať a vznikne niečo ako modern data stack. Ale nie je to o tom, že by ľudia vedeli budúcnosť dopredu. To, čo skutočne vidia, je skôr súčasnosť, vidia problémy…
Ak chceš, môžem dokončiť text alebo upraviť ešte niektoré časti.
Opravený text:
Môžeš sa o tom porozprávať. Keď sa pozrieš na najväčších používateľov alebo ľudí, ktorí riešia dátové problémy, najrýchlejšie narazíš na kľúčových hráčov práve v tých firmách, ktoré sídlia v tom regióne (BR), a tí ľudia sa tiež radi porozprávajú aj s tebou. Máš malý startup, ale riešiš problém už niekoľko rokov, takže veľmi radi si vypočujú, čo máš k tomu povedať. Popri tom sa samozrejme dozvieš aj niečo ty – či už nejaký gossip o tom, ako kto čo robí a nerobí, čo fungovalo a čo nie, ale zároveň pochopíš aj best practices, dokážeš si vytvoriť dobrý mentálny model a použiť ho vo svojej roadmape.
Z môjho pohľadu tu v Prahe je gen AI, alebo presnejšie infraštruktúra LLM, trh, ktorý sa hrozne rýchlo vyvíja a rastie – nielen v oblasti foundation modelov, ale aj v celom okruhu nástrojov ako LangChain, LangGraph, teda všetko okolo zabalenia, monitoringu a práve E2B – v tom to tiež vnímam. Pomohlo vám to nejako postaviť AI funkcie a rozhodnúť sa, čo vyrieši open source do šiestich mesiacov a nemusíte to robiť sami, a čo je špecifický problém DeepNote, ktorý musíte vymyslieť a nakódovať?
Dosť často sa rozprávame o OpenAI, pretože má veľmi dobré modely, väčšina ľudí ich pozná, je to taká „gorila“ na trhu, ale v OpenAI stále pracujú ľudia. Ja sa napríklad môžem prejsť s dizajnérom z OpenAI, ktorý navrhol tie nové grafy, ktoré tam pridali, a rozprávame sa o tom, či videl nové artefakty v cloude, čo si o tom myslí, či je to budúcnosť, či by sme to mali robiť u nás takto. A on hovorí: „Myslím, že to bude skôr zaujímavá myšlienka, ja by som išiel iným smerom. Ukážem ti vo Figma, ako som to včera dizajnoval, čo myslíš?“
Máš najlepší poradný tím na svete za cenu kávy. Presne tak. A práve preto, že je to cutting edge a všetci sa snažíme problém vyriešiť spolu, vznikajú veľmi úprimné konverzácie. A ty sa potom vieš v tom svete lepšie pozicionovať.
A keby som sa ťa spýtal, čo by si nám odporučil sledovať? Kde vedieš svoje konverzácie, prechádzky, obedy? Čo je next big thing? Alebo nejdeme na nič konkrétne, ale skôr – ktorým smerom by si sa ako investor alebo niekto, kto uvažuje o novom startupe, alebo ako niekto, kto chce posunúť dátový trh, pozrel?
Úplne úprimne, neviem. Aj my v DeepNote máme pravidlo, že roadmapa nesmie byť dlhšia ako 6 mesiacov, pretože nikdy sme neboli schopní predikovať, čo sa stane za tak dlhý čas. Aj keď sledujeme, čo sa môže stať a robíme jednoduché odhady, napríklad že kontextové okná budú väčšie – to je už informácia, ktorú si určite nevedel. A to sú veci, ktorým ľudia celkom dobre rozumejú.
Tu je opravená verzia textu:
To, čomu nerozumejú, sú možno tie efekty, ktoré to spôsobí. Predstaviť si tie use cases, že už to nie je o tom, že ideme zosumarizovať nejakú knižku, ale že dokážeme pochopiť celú codebase. A potom môžeme hlásiť bugy na úrovni jedného súboru, alebo bugy hlásiť na úrovni komplexného distribuovaného systému. A ťažko sa to takto dopredu predpovedá. Niekto spraví demo, potom tam dá loom video alebo proste nejaký screenshot na Twitter a zrazu sa to uchytí. Ja veľa rozmýšľam práve nad tým, nad tou infraštruktúrou. Lebo proste vidíme, že ok, samozrejme, že potrebuješ mať veľa GPU, z ktorých ti budú generovať tokeny – či už textové tokeny, alebo to budú hociaké iné multimodálne tokeny alebo byty. Zároveň ale rozmýšľam o infraštruktúre, že ok, teraz vygenerujeme veľa kódu, ktorý tiež bude musieť niekde bežať. A čo to spraví práve s tou infraštruktúrou? To je napríklad to miesto, kde e2b sa veľmi dobre pozicionuje. Veľmi rýchlo pochopili, že ok, artefakty sú super, ale kto tie artefakty spustí? Takže toto je napríklad miesto, ktoré ma zaujíma.
A keď to vzťiahnem teda na teba a DeepNote a vašu produktovú mapu na nasledujúcich 6 mesiacov, alebo čo vás čaká v nasledujúcich 6 mesiacoch? Ja si myslím, že stále sme len na začiatku toho, ako dobre integrovať AI do každodenných workflowov. Samozrejme, že máš víziu a rozprávaš o tom, ako každý človek v tvojej organizácii bude schopný ráno sa zobudiť, otvoriť si laptop, napísať napríklad „Čo by mala byť moja stratégia na ďalšie 3 mesiace?“ a AI spraví nejakú super pokročilú dátovú analýzu, zistí všetky insighty a povie, že ok, teraz by si mal robiť toto a toto. Super vízia, ale tam ešte nie sme. Takže exekúcia je niečo, čo je do veľkej miery naša roadmapa – tie step-by-step kroky. Zároveň nás často zaujíma, aká bude budúcnosť dátových aplikácií. Historicky každá firma potrebuje nejaké dátové aplikácie, a z časti tých aplikácií si proste spravíš v Tableu nejaké filtre a to ti postačí. Vlastne tie aplikácie sú pokročilejšie, už ti nestačí len filter, už by si tam možno chcel mať aj predikciu. Alebo chceš mať nejaký button: pozrieš sa na tohto zákazníka, vidíš, že newsage ide dole, tak by si mohol spraviť nejakú promo akciu alebo napísať e-mail. Alebo ti niekto napíše na customer support, že toto je úplná blbosť, chce refund, tak tie dátové aplikácie by ti mohli pomôcť refundovať toho zákazníka. Historicky to bol strašne zmätok, neexistoval žiaden unifikovaný spôsob, tak niekto napíše React dashboard, interné API, ktoré beží na nejakom serveri, a keď sa to pokazí, musíš hľadať jediného človeka, ktorý to dokáže opraviť. Iní si povedia, že ok, sú to nejaké zapieri, s ktorými môžeš niečo automatizovať, a niektorí…
(Tu sa text končí neukončený – ak chceš, môžem pomôcť dokončiť alebo doplniť.)
Tu je opravený a plynulejší text:
Kúpili sme si licence na Retool a budujeme tam interný tooling, ale historicky platí, že vždy to boli vývojári – ľudia, ktorí vedeli písať kód. Štandardne sú to jedni z najdrahších ľudí vo firme, ktorí pritom majú často najmenší kontext o tom, aký problém vlastne riešia. A práve toto nás zaujíma – ak máš business analytikov, ktorí už dobre poznajú dátový model, možno nedokážu úplne napísať špecifikáciu na papier, čo presne má tá aplikácia, report alebo dashboard robiť, ale dokážu si to minimálne predstaviť, aby sme mohli na tom spolu iterovať.
Ak zároveň poskytneme nástroje a možnosti, aby si ten tool mohli pripraviť sami, chceme dosiahnuť, aby notebook bol nástroj, ktorý tieto veci zvládne vytvárať. My tomu hovoríme interné dátové aplikácie, no uvidíme, ako sa to ešte posunie, pretože to môže zahŕňať nielen reporty a dashboardy, ale aj interné nástroje či API endpointy – a všetko toto môžeš budovať priamo v notebooku.
Veľká vízia! Držím palce a dúfam, že budeme mať ďalšieho zástupcu medzi svetovými softvérovými firmami. Ďakujem veľmi pekne, Jakub, verím, že sa čoskoro opäť uvidíme. Ďakujeme, že ste to počúvali až sem a ďakujeme aj našim partnerom a členom Data Talk klubu: Inpex, Saska, Bystreet, Colors of Data, Revolt BI, GoodData, Kebula, Emark, Karl Data Company, Datamind, Notino a Flow. Ak chcete zostať v obraze ohľadom českej datovej scény a globálnych dátových technológií, nezabudnite sa registrovať na odber nášho týždenného newslettera na datatalk.cz.
Nech vás sprevádzajú dáta.
Ak chcete, môžem text upraviť podľa iného štýlu alebo zjednodušiť.