Data Talk #43: Ivan Sivák (BotX)

V novém díle podcastu Data Talku se setkáte s Ivanem Sivákem, zakladatelem start-upu BotX. Jak se Ivan dostal od tvorby grafiky a programování k touze propojit neurovědy s umělou inteligencí a jak se v BotX staví agnostická low-code platforma, která je volně přenositelná mezi doménami, ať už jde o právniky využívající automatizaci či stavaře? A kam se s nástupem low-code/no-code řešení a AI posune programování? O tom všem si s Ivanem povídají moderátoři Jirka Vicherek a Hynek Walner.

Strojový přepis

Dobrý den, moje jméno je Jirka Vicherek.
Dobrý den všem, moje jméno je Hinek Volner.

Vítáme vás u dalšího dílu Datatalku. Dnes k nám do studia přijal pozvání Ivan Sivák, CEO a CTO společnosti BotX. Vítej, Ivane.
Dobrý den, děkuji za pozvání.

Ivan je zakladatel, CEO, CTO a jistě zastává i řadu dalších pozic v nově vzniklém early stage startupu BotX, který se snaží přinést do oblasti umělé inteligence přístup typu low-code, tedy vytvořit platformu, na níž si může uživatel udělat téměř vše spojené s umělou inteligencí, přestože neumí programovat. O tom se dnes budeme bavit – o tom, jak funguje low-code, jaká byla Ivanova cesta ze softwarového inženýrství přes neurovědy až k umělé inteligenci a jak to vlastně dneska vypadá. Děkuji ti, Ivane, že jsi přišel. Asi začneme úplně od začátku. Jak jsi vlastně přišel k datům, umělé inteligenci a podobně?

Děkuji. Ještě jednou dobrý den všem posluchačům. Já jsem svoji programátorskou dráhu začal někdy, když mi bylo 12 nebo 13 let. Tehdy to vlastně začalo díky mojí velké vášni – vášnivě jsem se zajímal o tvorbu her, která se ale velmi rychle přetvořila spíše v zájem o 3D grafiku jako takovou. Ze her se postupně vyvinulo něco, co bylo zaměřeno na práci v softwaru jako 3D Studio Max, kde se tehdy vytvářely modely, nebo do experimentování v Maje a dalších podobných programech. Žádnou hru jsem nedokončil, všechno se to postupně přeorientovalo na 3D grafiku, kterou jsem pak programoval třeba i pomocí OpenGL – to byly mé první programátorské začátky.

Můžeme, Ivane, jenom pro ukázku upřesnit, o jaké roky se bavíme?
To mohlo být někdy kolem roku 2000 nebo 2001. Super, a co jsi začal s 3D grafikou dělat? Hrál ses, nebo jsi už byl profesionál?
Já myslím, že dosud mám profil na české 3D grafice, která už moc nereprezentuje aktivní činnost, ale tam jsou dodnes vidět mé tehdejší práce. Byl jsem velmi vášnivý uživatel software jako Maya, Softimage, 3D Studio Max, což mě hrozně fascinuje. I když jsem programoval, vždycky mě zajímalo, jak ty programy fungují, jak řeší problémy a jak bych je řešil já. Měl jsem svůj osobní projekt zaměřený na tvorbu 3D grafiky a animací, který jsem vlastně dělal přes celé své dospívání. Nakonec to vyrostlo do poměrně rozsáhlého projektu, na kterém jsem se hodně naučil.

Šlo tedy o software, který používalo více lidí?
Tehdy jsem to nepublikoval, nebyl jsem tolik aktivní na internetu, byl jsem spíš zavřený doma, nicméně profil na 3D grafiku mám stále. Ten projekt byl samozřejmě i dobrou školou programování. Naučil jsem se, jak by se to nemělo dělat, jak se spojuje kód – byla to taková přirozená evoluce.

A jak tohle pokračovalo dál? Předpokládám, že jsi měl další experimenty, ale v určitém okamžiku už to asi přerostlo do profesionálnější dráhy?
Přesně tak. Musel jsem se z 3D grafiky transformovat spíše do obchodního světa. Najednou to nebyla 3D grafika, OpenGL nebo řešení animací a modelů, ale začaly se objevovat databáze, vlastně Oracle, PLSQL nebo desktopové či webové aplikace. Tím jsem si musel projít a moje první práce byla právě v tomto oboru.

Kde to bylo?
Byla to tehdy menší ostravská IT firma. Měla několik produktů a já jsem tam začal na pozici programátora pracovat, používal jsem Pascal, Delphi a podobné technologie.

Pak jsi ale udělal velký krok – ve tvém profilu na LinkedIn je vidět, že jsi pracoval v HSBC, což je velký korporát. Jak se z malé ostravské firmy člověk dostane do velkého světového korporátu?
V podstatě HSBC v té době v Ostravě plánovala vytvořit centrum služeb a já jsem byl jedním z prvních programátorů, kteří byli do této divize přijati. Byl to pro mě velký skok – z malé firmy do obrovského nadnárodního korporátu. Bylo to tak trochu šokující.

Jaká byla tvá role v HSBC?
Nejdříve jsem pracoval v RPG, což je programování pro mainframy, IBM, takové velké systémy, ale to byla krátká epizoda. Velmi rychle jsem přešel na programování v C# na webu, JavaScript, SQL Server a další technologie tohoto stacku.

Jak dlouho jsi v HSBC pracoval a co se pak stalo?
V HSBC jsem byl necelých pět let. Pak jsem odešel, protože mě lákalo vyzkoušet si práci v menším startupu oproti korporátnímu světu. To byl vlastně zárodek mého posunu k neurovědám a posléze umělé inteligenci. Zpočátku mě AI úplně nezajímala, ale kombinace programování a neurovědy mě k ní přirozeně vedla.

A jak jsi přišel na neurovědy?
Impulz přišel ze zkušenosti s přítelkyní, která trpěla schizofrenií – mentální poruchou. Zajímalo mě, co se v mozku děje, proč to funguje tak, jak to funguje. Nešlo mi o to ji „přeprogramovat“, ale spíše o pochopení původu poruchy. Jsem zvídavý člověk a programátor, což mě vedlo ke studiu mechanismů, které pak přirozeně přecházejí i k umělé inteligenci.

Kdy to bylo?
Byl to rok 2015. Zmínil jsi, že programování, neurovědy a AI spolu souvisí. Můžeš nám to více přiblížit?
Umělá inteligence, zejména deep learning, byla inspirována biologií a tím, jak funguje lidský mozek. Existuje přirozená průnik mezi těmito obory. Například schizofrenie je zajímavá tím, že existují teorie o jejím vzniku. Jedna z nich říká, že normální člověk má v mozku samoobslužný dialog – interní debaty. Při halucinacích se však dodatečné informace nepřipíšou jako interní dialog a člověk cítí, že slyší hlas zvenčí, i když jde o interní hlas. Tento mechanismus je typický neurovědní popis a prolíná se s algoritmickými postupy softwarového inženýrství a systémového designu.

Skvělé, to nás přivádí k tomu, že jsi po určité době odešel ze zahraničního startupu a rozhodl ses pustit na vlastní pěst – původně jako profesionál v oblasti služeb. Co tě k tomu vedlo? Jak jsi přešel ze zaměstnance na freelancera nebo specialistu na projekty?

Začal jsem zaujímat zájem o umělou inteligenci a chtěl jsem vytvořit vlastní experiment, který by poskytoval framework pro studium dynamiky výměny informací mezi jednotlivými kortexy v mozku. Chtěl jsem simulovat tento proces na počítači. To byl zárodek BotX. My se snažíme rozbít složité úkoly na menší diskrétní dílčí úlohy. To je základ naší platformy, kterou nazýváme „kognitivní diagram“, kde právě tyto dílčí úseky skládáme.

Čímž se to dostává i do komerční sféry. Rozdělením na diskrétní kroky vlastně automatizujete procesy, což je velké téma – celá ekonomika směřuje směrem k automatizaci.

Takže jsi se rozhodl do profesional services jít proto, že jsi měl ve svých rukou nějakou funkční platformu?
Ano. V tomto bodě jsem přes známého začal řešit problém jedné stavební firmy. Vytvořil jsem experiment, který rovnou řešil jejich potřebu – vyhledávání vektorově podobných dat, dnes bychom řekli pomocí vector search databáze jako Pinecone. Tehdy jsem používal metodu kosinové podobnosti a další metody, ale už šlo o diskrétní funkce v rámci našeho kognitivního diagramu.

Často přišel další požadavek, aby systém kromě vyhledávání ve vector space také hledal na internetu. To už byl jenom další blok v diagramu, přidání tzv. crawlerů.

Můžeš pro české posluchače přiblížit, co znamená v kontextu stavební firmy prohlížení vektorového prostoru?
Jde v podstatě o naceňování zakázek a hledání vhodných názvů produktů. Cihla není jen cihla, má rozměry a další charakteristiky. Potřeba byla najít co nejpřesnější a nejinteligentnější vyhledávání. Kdybych použil obyčejné fulltextové hledání na SQL serveru, nebylo by to dostatečné. Proto jsme museli zvolit robustnější přístup.

Součástí byla také schopnost vyhledávat na internetu, což dodnes automatizujeme u spousty operací. Mnoho činností, které dnes dělají lidé v back office, vyžaduje práci s internetem a je to naprosto nezbytné.

Ano, chápu. Ivan tedy odešel z německého startupu, začal pomáhat velké stavební firmě s naceňováním pomocí svého nástroje a tím ověřil hypotézu, že jeho řešení funguje i v produkčním prostředí.

Přesně tak. Zároveň to přineslo i finanční kapitál, který mi umožnil nebýt závislý na zaměstnanecké pozici. Na základě toho jsme založili BotX.

A kdy jsi řekl, že to je startup, SaaSová platforma, s kterou půjdeš do světa a vezmeš si investici ze Švýcarska a začneš nabírat lidi?

To bylo asi rok po založení firmy, po prvním use case. Během toho roku jsem dále vyvíjel platformu, přibývaly nové zajímavé případy použití. Do kognitivního diagramu jsme přidali nástroje pro deep learning, tedy prediktivní modely. Začalo se objevovat více zajímavých use caseů, které jsme mohli díky platformě efektivně využít.

Na tom základě myšlenka low-code v naší oblasti začala sílit až do té podoby, že loni jsme získali investici.

Můžeš specifikovat, co přesně znamená kognitivní diagram ve vaší platformě?

Low-code náš nastroj převážně reprezentuje formou diagramu, což je vlastně svobodný způsob vyjádření automatizace. Kognitivní diagram je náš název proto, že jednotlivé bloky v diagramu mohou být, jakoby v uvozovkách, inteligentní – mohou zahrnovat vektorové vyhledávání, crawlování, ale i deep learning. Všechny tyto prvky lze kombinovat.

To, co mezi těmito bloky probíhá, je tok informací, což je podobné práci s množinami dat v SQL. Programátoři jsou zvyklí buďto na objektové programování, tedy manipulaci s diskrétními objekty, nebo na práci s množinami dat jako v SQL. Naše řešení funguje na podobném principu jako SQL – v kognitivním diagramu stále pracujeme s množinami, které si mezi bloky předáváme.

Pokud bych měl být trochu ďáblovým advokátem, tak si popsal Airflow či jiné orchestrace. Mám pocit, že vaše platforma nabízí mnohem větší komplexitu, kdy jednotlivé „krabičky“ jdou do hlubších AI funkcí než pouze orchestrace a logické kroky. Jak na to nahlížíš?

Ano, deep learning modely provozujeme přímo v rámci naší platformy, není zde závislost na třetích stranách. To jde ruku v ruce s dalšími částmi produktu, jako je datové studio, které jsme vytvořili. Data jsou pro nás klíčová. Datové studio navíc umožňuje rychlé prototypování, což nám dává výhodu u klientů.

Možná pojďme projít produkt jako celek – co je nyní BotX?

BotX je nástroj, který umožňuje automatizaci poháněnou umělou inteligencí. To byla od začátku naše vize a zároveň trend, o kterém věříme, že bude prostupovat celým světem dále.

Tímto produktem chceme být připraveni na tento trend. Klasické případy užití, které někdo řeší, nebo které v něm vyřešíte – jak si to mám vlastně představit? Řešili jsme případy užití, například ESG, což je zajímavý případ, který je zabezpečen vlastně několika agenty. Není to jen jeden kognitivní diagram, ale dohromady nějakých sedm diagramů, přičemž každý z nich zabezpečuje jinou část.

Jeden agent kraluje na internetu, druhý extrahuje z vykralovaných informací data, třetí provádí sentimentální analýzy, čtvrtý realizuje další operace. Nově, tím že jsme integrovali GPT do kognitivních diagramů, nám to poskytuje prakticky nemožné možnosti, které teď dokážeme v platformě velice rychle integrovat.

Pokud se podíváme na nejčastější use cases z pohledu byznysu, co tam vy a vaši klienti nejčastěji stavíte? Jednoznačně to jsou prediktivní modely, kombinované s webcrawlingem. Tyto dvě oblasti jsou asi nejdominantnější. Prediktivní modely, i když je vnímáme možná podhodnoceně, jsou z evolučního pohledu klíčové – biologicky schopnost predikovat nebo simulovat budoucnost odlišuje člověka od zvířat. Právě tato schopnost, vidět budoucnost a predikovat, je to, k čemu slouží náš neokortex v mozku. Proto je to tak výpočetně náročný proces. Predikce jsou tedy velmi důležité a v AI Part Automation jsou klíčovou součástí schopnosti předvídat jisté záležitosti.

Vedle predikcí a webcrawlingu jsou nově významné také generativní modely, tedy large language modely, které jsme začlenili do platformy. Tato kombinace umožňuje stavět komplexní řešení a úlohy.

Co vše bych potřeboval mít, kdybych chtěl začít používat BotX? Když se vrátíme k ESG use case, představme si, že jde o reporting. Procházím web a stavím reporty firem – do čeho dávají peníze, s jakými partnery spolupracují – a vytvářím nějaké skóre nebo podobný ukazatel. Řekněme, že je to obrovská manuální práce, kterou chci automatizovat pomocí BotX. Co potřebuji vědět a mít, abych si to takto dokázal nastavit?

Momentálně tyto případy, protože jsme stále startup – pořád jsme „new kids on the block“ – řešíme v rámci profesionálních služeb my. Snažíme se zároveň vytvářet edukační materiály, aby se tato technologie mohla rozšířit. Už máme první vlaštovky. V budoucnu se to bude čím dál více rozšiřovat a být dostupnější. Mluví se všude o komoditizaci umělé inteligence a modelů a naše aktivita to jednoznačně umožňuje.

Pro začátek bys potřeboval účet u BotX, což není problém. Poskytli bychom ti podporu, v první fázi bychom to naklikali my, ale následnou úpravu modelu, případné rozšíření či změny bys již zvládl nastavit sám.

Jak si mám představit ty úpravy a manipulaci? Na začátku má moje firma zájem o ESG reporting, přijdu k vám, vy za nějaký čas přijdete a řeknete: „Budete už platit jen licenční poplatky, protože je to vyřešené.“ Ne úplně za dva měsíce, spíš za řádově desítky týdnů. Co se při projektu odehrává? Máte platformu, do ní napojení na databázi, nejspíš. Modus operandi není vždy důležitý, ale hlavní je vždy pochopit opravdovou potřebu klienta. My jsme AI startup, nejsme finanční instituce, která řeší ESG, takže je potřeba vstupní analýza, která problematiku rozvine.

Jakmile víme přesně, co udělat, modus operandi je přímočarý. Víme, kde v platformě na co sáhnout a jak to zrealizovat.

Provedu vás krok po kroku. V případě ESG šlo o fondy. Zjistíme, že klient chce skenovat portfolio fondů a hledat online indicie, zda informace o „zelenosti“ fondu jsou pravdivé, nebo zda existuje podezření na greenwashing. S klientem identifikujeme tuto potřebu.

V BotX přecházíme k implementaci prototypu, který přinese výsledky z webového prohledávání klientovi. Prototyp vypadá tak, že si zapnu bota, přihlásím se a vytvořím nový kognitivní diagram. První komponenta je webcrawler s mnoha dropdown menu, kde si uživatel nakliká, co chce sledovat, a pustí crawler. Vidí, že funguje, pak přidá další komponentu – nahrání do databáze.

Druhá komponenta neukládá data přímo do databáze, ale hledá online PDF, které transformuje na text. Tento text je následně podroben extrakci entit. OCR máme jako funkci na jedno kliknutí – funkčnost je asi na 80 % a v 20 % případů je potřeba zasáhnout do kódu.

OCR řešíme často, protože PDF dokumenty často obsahují obrázky, kde je třeba uplatnit OCR. Je to právě výhoda low-code přístupu – uživatel nemusí řešit detaily OCR, má komponentu, která sama zjistí, zda je soubor PDF, zda je to obrázek, a zda je třeba OCR použít.

Když nasadíte první verzi, co se děje dál? Výsledek uložíme do databáze, projdeme s klientem a porovnáme, zda jsou výsledky validní.

Můžete ukázat jiný use case než ESG? Například pro právníky máme zajímavý případ, kdy robot jednou v noci autonomně skenuje loga a informace na internetu, zda nejsou v rozporu s registrovanou ochrannou známkou. Výsledky poté reportuje právníkům, kteří dříve tuto práci dělali manuálně.

Ráno pak právník přijde do práce a najde již připravený e-mail od robota s přehledem firem, které jsou potenciálně problematické. Samozřejmě je to také o rozhraní, není to jen o modelu, ale musí být systém zasazený do procesu. Uživatel musí mít možnost poskytnout zpětnou vazbu, co robot udělal dobře a co špatně.

To je jedna z no-code funkcí platformy – uživatel, například právník, se přihlásí, označí chyby a navrhne úpravy. Model se automaticky přetrénovává na nových datech, což je klíčové pro každé AI řešení. Není to fixní, proces je dynamický.

Dokážu si představit, že právnická kancelář si podobné řešení nemůže dovolit. Může si ho ale dovolit díky vám, protože hodně věcí je na jedno kliknutí a nemusí mít mnoho strojových inženýrů nebo datových vědců?

Ano, a právě to je výhoda low-code – komoditizace věcí, které by byly drahé, umožní levnější realizaci.

Co vše musíte provést z produktového vývoje, aby něco takového fungovalo? Zajímá mě, jak složité je vytvořit platformu, která uživatelům, kteří o AI nemají zkušenosti, umožňuje vytvářet vlastní projekty a navíc si měnit parametry úloh.

Nejdůležitější je koncept. Například Vectors Reach, Pinecode a další technologie jsou zaměřené na hledání. Tato schopnost je univerzální – lze ji použít ve stavebním průmyslu i v retailu. Proto je podstata toho řešení ta, že vše spolu komunikuje pod jednou střechou, je modulární a připravené na budoucnost.

Když jsme integrovali GPT, provedli jsme to rychle. Na úrovni abstrakce jsou většina úloh podobné.

Existují nějaké use cases, které by se vaším stackem špatně modelovaly?

Řešili jsme spoustu use cases a dosud nám žádný nesklouzl z konceptu platformy, i když některé jsme zastavili z jiných důvodů než technických. Záleží na situaci.

Proč tedy v Americe není něco podobného standardem, když je to prý otázka konceptu?

Jsou tam startupy jako Dataclebot, ale jejich koncepce je poněkud odlišná, více fragmentovaná. Naši cestu nazýváme unikátní, což nám umožňuje produkt vytvořit a udržovat.

Někteří uživatelé BotX chtějí více možnosti si programovacími zásahy upravovat a kustomizovat. Jak často se takové požadavky objevují?

Vlaštovek s takovými dotazy přibývá, což souvisí i s rozvojem platformy. Stále jsme startup a máme velkou roadmapu. Dotazy rostou a spolu s tím se snažíme vytvářet edukační materiály, aby byly dostupné širší veřejnosti.

Jaká je pravděpodobnost, že BotX bude za deset let kompletně no-code, protože vše bude abstrahováno a komoditizováno, nebo bude headless – tedy analytická a produkční platforma, kde code je hlavní, ale uživatelé budou řešit jen své vlastní rozhraní?

Domnívám se, že budoucnost je hybridní. Potřeby firem se liší a podobně jako se vyvíjel cloud – nejdřív vše do cloudu, pak hybridní řešení – tak i zde bude mix no-code a headless řešení. Zákazníci požadují určitou flexibilitu.

Takže v BotX se budou potkávat programátoři s byznysovými uživateli?

Ano, už první vlaštovky to potvrzují. Podle portfolia to odpovídá realitě.

Na čem je platforma softwarově postavená, jak si ji máme představit, když klikám a spojuji webcrawling s predikcí a dalšími roboty?

Používáme asi vše, co si umíte představit pro tento stack: Cassandra, SQL Server, React, PyTorch, TensorFlow, .NET Core na web servery, Docker a další.

Rozumím tomu tedy, že pro modulární platformu, kde uživatel naklikává, je celý systém založený na mikroslužbách a kontejnerizaci?

Ano, přesně tak je to navrženo, je to modulární a flexibilní platforma.

Problém v té orchestraci celý? Když máte něco velmi náročného uprostřed, mělo by se to spustit mnohem dřív, protože to bude trvat nejdéle. A takové věci? Určitě. Celý DevOps, celkově ta interní orchestrace, je samozřejmě velké téma.

Jako startup na tom neustále pracujeme a snažíme se držet krok s novými trendy v této oblasti. Operací je určitě spousta. I programování – ta kombinace, ta škála je široká, co používáme a jak to používáme.

Co by mohlo nejvíc překvapit? Nejvíc se zřejmě chat GPT mýlí, protože je to často omílaná lež, co se týče technologií. Například Microsoftí stack a React, což se v minulosti moc nedělalo. Míchání JavaScriptu a .NET se nedělá, ano. Ale teď mám pocit, že mnoho stacků vlastně React vyhrálo jako frontendový web.

A potom jsou tu MS stacky, kde si ponechávají .NET, protože je to solidní základ, backend. Tak třeba tohle.

Na co se vaši lidé diví, na co jsi hrdý v infrastruktuře? Určitě bych zmínil Relay, tomu říkáme interně náš interní orchestrátor všech těch Dockerů. Zastřešuje rozjezd těch robotů, což jsou na pozadí v podstatě nějaké dockery, takže Relay interně za DevOps.

Je to vlastně distribuovaný Python, který běží napříč cloudem mezi servery.

A jaké jsou největší technické výzvy, které tě budí ze spaní? Asi rozvoj těch DevOps, protože to rozhodně není status quo. To, že máme nějaké Relay, je fajn, ale vždycky je co zlepšovat.

Distribuovanost je velké téma – distribuované výpočty, databáze a tak dále. Protože distribuovanost je náročná, zabezpečit chod je těžší než v případě menších škál, kdy člověk má jeden webserver a jednu databázi a nemusí řešit distribuovatelnost. Tady je to jiné.

Nejvíc mě budí a stále motivuje zjišťovat, jaké nové věci by se daly použít, a obecně distribuovanost a její řešení je největší téma.

To je obecně fenomén nejen u nás. Například v Pythonu můžeme vidět iniciativu jako Mojo, což je vlastně super set nad Pythonem, který pod kapotou zabezpečuje výrazně rychlejší chod než čistý C Python – je to úplně nový jazyk pod pokličkou.

Člověk pak nemusí řešit „Python versus Mojo“ nebo psaní CUDA kernelů, pokud chce opravdu rychlý výpočet. Mojo tohle v budoucnu zastřešuje. Je to novinka, ekosystém teprve vzniká, ale věřím, že je to jedna z iniciativ, jež podporují fakt, že technologický stack rozhodně není dokonalý.

Ačkoliv jsme daleko, není to konečná. Kolik času OpenAI muselo strávit psaním CUDA kernelů, aby optimalizovali výpočty, v porovnání s vlastním modelem, matematikou a transforméry?

Takže to rozhodně není dokonalé, vždy je co zlepšovat, a nové iniciativy jako Mojo to dokazují.

Když už mluvíme o infrastruktuře, zmínil jsi jazykové modely, které jsou stále poměrně drahé na přetrénování, pokud se moc neoptimalizují pro výkon, efektivitu či fine tuning. Je to u vás problém, když máte hodně klientů, kteří potřebují language modely? Přeci jen je to teď běžné a pro naše vlastní use case je třeba modely přetrénovat, vy to všechno hradíte?

Ano, máme vlastní infrastrukturu i GPU servery, ale samozřejmě potřeba výkonu pro GPT je obrovská a nákladná.

Na ad hoc tréninky proto využíváme externí infrastrukturu a pronajímáme si GPU servery, které by normálně byly velmi drahé, ale díky pronájmu platíme hodinově.

Platíte to vy, nebo klient? Platbu přenášíme na klienty, je to zabalené v jejich nákladech.

Snažíme se náklady minimalizovat, používáme optimalizační metody, například v GPT modelech LoRa (Low Rank Adaptation). Držíme krok s vývojem, abychom minimalizovali náklady a zlevnili trénink.

Vy přetrénováváte GPT modely, například na úrovni vlastního GPT nebo je to fine tuning nad existujícími GPT a používáte prompty přes jejich API?

V rámci experimentů jsme dělali vlastní tréninky někde na úrovni GPT-2, tedy modely s 1,5 miliardy parametrů. To je regulérní transformer v Pythonu.

Na fine tuning pak využíváme open source pre-trained modely, které je nutno doladit. Většina modelů dnes nevyužívá reinforcement learning from human feedback. Spíše se jedná o fine tuning na úrovni váh (weights).

Aktuálně děláme takové projekty pro nové klienty.

S čím si tam hraješ? Zní to, že jsi tam dost hluboko. Co bys zvolil teď, kdybych ti řekl, že chci velký čistě textový jazykový model, ale nemůžu použít OpenAI z důvodu politiky, například dělám něco ve zbraních nebo jinak proti podmínkám použití?

Právě připravujeme hebrejský model, kde je hodně fine tuningu a práci s daty.

Language model je přetrénovaný nad open source modelem Neo L.

Proč zrovna Neo L a ne některý z dalších modelů, o kterých jsem četl, jako LLaMA atd.?

LLaMA není pro komerční užití, vychází z licence Facebooku, takže se nedá komerčně využít. Musíme sáhnout jinde.

Open source modelů je kupodivu dost, které jsou schopné.

Jsou tam Alpaca, LLaMA (momentálně jeden z nejlepších), Falcon – která je velmi zajímavá, a spektrum dalších.

Jak se rozhoduješ, který model vyzkoušet?

Nainstaluji si je a pustím si testovací úlohy? Díváš se na recenze typu KD Nuggets a podle toho zkoušíš?

Je to pro mě velmi zajímavé. Velké jazykové modely tu jsou už delší dobu, ale hype kolem nich trvá asi půl roku.

Vychází denně spousta informací, nemám čas to všechno testovat, takže mám svůj způsob.

Vždy se dívám, nad jakými daty byl model předtrénovaný, jaký jazykový set pokrývá – jestli jen angličtinu, nebo vícejazyčný.

Potom velikost modelu, což ovlivňuje provozní náklady.

Nemusí to být vždy největší model, aby vyhovoval klientovi.

Sleduji také nové výzkumy, například LoRa, které umožňují efektivnější trénování větších modelů.

Mezi těmito proměnnými pak manévruji.

A zatímco v oblasti velkých jazykových modelů se stále něco nového děje a je třeba to zkoumat, mám pocit, že zbytek stacku a infrastruktury se silně komoditizuje a stává se z toho zaměnitelná věc, což vám asi svědčí.

Jak to vidíš? Co v dnešní době je opravdu jednoduchá kostička, kterou stačí zapnout a není třeba žádné vlastní přizpůsobení?

A co naopak není kostička na zapojení?

To by bylo jednodušší.

Low-level výzkum není kompatibilní s filozofií low-code.

Filozofie low-code je hlavně v aplikované sféře, využívá a implementuje již hotové nástroje a modely.

Architekturu transformeru si někdo musel navrhnout a přijít s ní – například slavný paper „Attention is all you need“ z roku 2018 od Googlu.

Transformer architektura je zajímavá i proto, že má přesah do psychologie, do pojmu attention (pozornosti).

A právě pozornost je mé téma – ta nás drží, umožňuje identifikovat důležité informace a filtrovat balast.

Transformer v generative pre-trained transformeru vlastně tuto attention implementuje – obsahuje komponenty jako „head“ složený z query, key a value.

Tento mechanismus je nízkoúrovňovou implementací attention.

Takovýto výzkum vyžaduje vlastní vědeckou práci, není zatím součástí low-code.

Ale uživatelské využití a komoditizace těchto nástrojů low code umožňuje.

A co jsou moc malé use cases, které bys do platformy Botyxo ani nedával, protože jsou to single-purpose produkty, které nepotřebují integraci?

Například reklamní zobrazování v reklamní síti, které už funguje naprosto samostatně.

Naopak na co je Botyxo určeno? Botyxo je nástroj pro složité use cases – airport automation, ESG, autonomní boti pro právníky, kteří kombinují výsledky z internetu, databází apod.

A use case, který dnes nechceš implementovat, ale za dva roky jej už chceš standardně provozovat?

Určitě bych chtěl zabezpečit kombinaci webového a desktopového rozhraní.

Umožnit stažení kognitivních diagramů na desktop, protože mnoho klientů řeší on-premise záležitosti.

Z technického pohledu nám nic nebrání umístit řešení do infrastruktury klienta.

To je velké téma, kterému se budeme věnovat v následujících měsících a letech.

Přechod z cloudu na on-premise je v dnešní době cesta, která je možná.

Většina softwarových firem jde spíše opačným směrem, takže je to takový krok proti proudu.

My jsme cloud-first, nikdy jsme neměli ambici dělat desktop.

Ale trh si to žádá, zvlášť u jazykových modelů firmy chtějí on-premise řešení, aby informace neputovaly do Ameriky či OpenAI, což u korporátů častěji řešíme.

Mluvili jsme o velkých jazykových modelech v platformě vašim klientům.

Co to pro vás znamenalo? Pamatuješ si, když přišel Chat GPT, co sis říkal? „Teď jsme skončili,“ nebo „teď je to tady, na co jsme čekali?“

Prakticky to druhé.

Možnosti najednou zapadly do konceptu kognitivního diagramu, naše technologie si vzájemně pomáhají.

Takže rozhodně to druhé.

A co znamenalo z produktového hlediska to integrovat nebo přidat?

Byl to pár týdnů vývoje.

Zaintegrovali jsme to, hlavně fine tuning nad uživatelskými daty s OpenAI Chat GPT.

Fine tuning je klíčový.

Nešlo jen o protokolový ohřívač.

Bylo nutné dodělat fine tuning dat a výpočet embeddingů, potom klasický vector search nad kontextovými daty.

To bylo otázkou pár týdnů.

Takže kognitivní diagramy jsou snadno rozšiřitelné.

A jak vidíš tu vlnu jako celek?

Jsi v oboru dlouho, propojuješ neurovědy a software.

Mě dost překvapilo, když Sam Altman poprvé začal diskutovat, jestli GPT-4 je AGI.

Což pro mě bylo překvapení.

Jak vnímáš tuto dobu a jak ti to posunulo pohled na neurovědy lidského mozku a mechanický přístup k nám?

Nemyslím si, že je to AGI – to ještě není.

Co je ale zajímavé a často otvírá oči, je fakt, že když přišlo GPT-2, experti říkali, že to není cesta, protože odpovědi nejsou dokonalé.

Pak ale přišlo GPT-3 s větším modelem, více daty a kvalitativními zlepšeními.

Najednou lidé řekli, že je to v pořádku.

A teď je tu GPT-4, na kterém staví celé firmy, změnil svět.

Důvod je mechanistický – více dat, větší škála, stovky malých vylepšení.

Sam Altman řekl, že GPT-4 není jen nějaká jedna věc navíc, ale složenina stovek menších dílů do skládačky.

To potvrzuje mechanický popis.

Samotná inteligence a co to znamená, je stále věc odborných diskusí.

Pamatuji si rozhovory Lexa Fridmana, kdy dostával různé odpovědi od expertů.

To je velmi zajímavá otázka.

Ivane, blížíme se ke konci příjemného rozhovoru, ale musíme se ještě zeptat – kromě toho, co jsi zmínil, na co se těšíš?

A co budou další radostné věci v životě BotX? Těším se především na transformaci více z těch professional services spíše do regulárního SaaSu. Na to se těším. A potom určitě na vývoj, výzkum a všechny ty aktivity, které jsou spojeny s programováním a výzkumem. Takže asi tak.

Držíme moc palce, děkujeme, že jsi tady přišel. Ať se BotXu daří, doufáme, že to budeme vidět u mnoha klientů jako automatizační low-code platformu. A díky moc.

Abych možná jenom opravil, že Ivan nepřišel, ale přijel. Tak to děkujeme dvakrát. Je to tak.

A já moc děkuji za pozvání ještě jednou. Děkuji všem posluchačům. A super povídání.

Díky. Díky, Ivane. Díky.

A to je všechno. Díky, že jste doposlouchali další díl DataTalku. Díky také našim partnerům: Big Hubu, Vypnoutu, Mantě, Latině, Atakamě, GeneBeamu, Seznamu, CZ a Mews.

A chcete-li více informací ze světa datových technologií a československé datové scény, navštivte naše stránky datatalk.cz. Nechť vás provázejí data.

Podcast

Data Talk #43: Ivan Sivák (BotX)

Strojový přepis

Odebírejte Data Talk