Data Talk #130: Martin Schmid (EquiLibre Technologies)

Do dalšího dílu Data Talku přijal pozvání Martin Schmid, zakladatel a CEO EquiLibre Technologies, firmy, která staví prvního AI agenta pro algorithmic trading využívající reinforcement learning.

Martin sdílel s moderátorem Jirkou Vicherkem svou fascinující cestu, studium na Univerzitě Karlově a osudové setkání s Matějem Moravčikem, se kterým začali vyvíjet modely pro poker. Sázka na poker jim vyšla, dostala je do Kanady k Michaelovi Bowlingovi, a vyústila ve vznik DeepStacku, prvního modelu na hraní pokeru, který porážel i ty nejlepší světové hráče. Na základě tohoto úspěchu se stali součástí Google DeepMind, kde stáli za revolučním univerzálním modelem pro hraní her s neúplnými informacemi - Player of Games.

Tyto metody nyní Martin, Matěj a jejich tým používají na svět financí, budují vlastní startup EquiLibre, který má být „DeepMind for finance“. Jak dnes fungují algotrading strategie, co všechno je potřeba postavit, když chcete AI agentovi svěřit opravdové peníze, a proč obchodovalo MVP pro krypto? Dozvíte se v tomto díle Data Talku!

a rozhovorem vás provede Jiří Vicherek.

Strojový přepis

Dobrý den, moje jméno je Jirka Vešerek a vítám vás u dalšího dílu Data Talk podcastu. Mým dnešním hostem je Martin Schmidt, zakladatel Equilibre. Ahoj, Martine. Čau čau.

Martin je pro mě jednou z velkých osobností české scény, o které zatím nebylo tolik napsáno a která nedostala tolik prostoru, a proto jsem moc rád, že je dnes naším hostem. Budeme se bavit o jeho dosavadní zářivé kariéře a zároveň o jeho startupu, který založil před třemi lety – startupu Equilibre, což je market maker, který přináší do financí metody deep mind a reinforcement learning. To bude naše dnešní téma a já se na něj moc těším. Pojďme tedy k tvému příběhu, který mě hodně baví, je fascinující a myslím, že zaujme i naše posluchače. Jak vzniklo tvoje nadšení pro AI a jak jsi se dostal do těch všech skvělých firem?

Ještě jednou ahoj, rád celý svůj příběh povím, protože si myslím, že je v něčem zajímavý, v něčem legrační a relevantní k tomu, co teď v Equilibre děláme. Asi začnu už na bakaláři, někdy okolo roku 2009–2010, kdy jsem potkal Matěje. Seznámili jsme se v prváku na MatFizu, na kolejích 17. listopadu, což jsou poměrně ošklivé vysoké paneláky plné mladých matfizáků. Bydleli jsme hned vedle sebe, slovo dalo slovo a dostali jsme ten nevinný nápad, že začneme spolu tvořit nějaký pokrový program, kterým bychom mohli vydělat velké peníze v online pokeru.

V té době online poker hodně frčel, byla to zlatá éra, kdy mnoho lidí se tím živilo, hráli online a točili pěkné peníze. My jsme si říkali, že jsme dva šikovní matfizáci, takže proč si nevytvořit AI pro poker – že to přece zvládneme a bude to fungovat skvěle. Pustili jsme se do toho, začali jsme číst první jednoduché knihy z matematiky a protože jsme studovali computer science na MatFizu, řekli jsme si, že to zkusíme naprogramovat.

Prvním algoritmem, který jsme se pokusili implementovat, byl tzv. fictitious play (nebo fictitious self play). Samozřejmě jsme ho naprogramovali úplně špatně, přestože se jedná o nejjednodušší algoritmus – jako úplní začátečníci jsme ho dokázali zkomolit. Naštěstí jsme se tím poučili a po nějaké době jsme na přednáškách a během studia pochopili, jak správně číst odborné články, jak algoritmy správně chápat a implementovat, takže…

Opravený text:

Po nějakém, řekněme, dalším roce dřiny se nám podařilo dostat do stádia, že jsme ten první algoritmus zvládli naimplementovat správně. Už byl trochu fancy, mnohem lepší než jednodušší verze fictitious play. Řekli jsme si: „OK, pojďme to nasadit online.“ A samozřejmě jsme nechtěli hrát my jako lidé, ale udělat to plně autonomní – plně autonomní AI, která za nás ten poker fakt bude hrát. Dotáhli jsme to tak daleko, že to běželo přímo na našich počítačích na koleji. Spouštěli jsme nějaký virtual machine, kde uvnitř běžel pokerový klient. Přihlásili jsme se na své účty, hráli za své peníze, a celé to běželo v jistém výjimečném prostředí, nad kterým běžel náš program. Ten si automaticky dělal screenshoty, ze kterých se snažil pochopit, jaké máme karty, kolik máme peněz, co oponenti zahráli, jaký je stav hry atd. Tyto informace přetvářel do našeho algoritmu, který počítal dobrou strategii. Strategie něco jako "vyplyvala" a automaticky jsme klikali myší. My jsme se tomu jen koukali, popíjeli pivo a byli nadšení, že tento program dokáže hrát za nás.

To byly naše úplné začátky, které odstartovaly dlouhé roky práce na AI hrách, ke kterým se dostanu později, ale celé to začalo právě tady. Je to dobrá otázka, protože nám přišel ten problém hrozně zajímavý. V té době totiž platilo, že AI v pokeru byla výrazně horší než lidé, což je důležité i pro celý příběh. Přišla nám kombinace tohoto zajímavého challenge: vytvořit AI, která bude dobrá v pokeru. A zároveň šlo o super věc – parta mladých kluků na koleji si hrála poker a chtěla tím něco vydělat. Takto to všechno začalo.

Je to skvělá otázka, protože je relevantní pro celou tu story – v té době opravdu platilo, že i ty nejlepší programy na světě byly horší než lidé. Pokud se podíváme na historii AI v hrách, zjistíme, že například už roku 1996-1997 byla AI v šachu výrazně lepší než lidé. Tak proč tedy o 10-15 let později ještě nebyli počítače lepší v pokeru? To je hrozně zajímavé.

„Povedlo se vám nějak vydělat?“ To je na tom hodně legrační věc, kterou často vůbec nesdělujeme. Už je to za námi. Ano, přesně tak, to je podstatná věc zmínit. Jak jsme měli celý systém plně automatizovaný, jak jsem popsal, byli jsme až příliš greedy. Nechali jsme našeho agenta hrát třeba na 20 stolech najednou a 24 hodin denně. Netralo dlouho, než přišli na to, že to nemůže být člověk. Nakonec nám účty zabanovali a uzavřeli.

Tady příběh končí... (pokračování podle potřeby)

Opravený text:

Ještě lepší bylo, že potom, co nám ty účty zavřeli, nám poslali všechny ty peníze, co jsme vydělali, zpátky. Zavřeli nám účty a řekli, myslím, že asi podvádíte, nemůžete hrát, tady máte peníze zpátky. A to se stalo dva týdny před tím, než přišel Black Friday, což je něco, co si lidi můžou vygooglit – právě tehdy došlo k obrovskému výbuchu v online pokerovém světě a tato herna v podstatě zkrachovala. Takže dva týdny před tím, než ta herna zkrachovala, nám díky podezření z podvádění zavřeli účty a poslali všechny peníze zpátky. No, to zní jako hezký deus ex machina a dobrý exit z tvého prvního byznysu a prvních AI agentů. Co se pak vlastně dělo? Co bylo s tebou a Matějem? Jak dlouho jste na tom vlastně pracovali? Říkal jsi, že na tom rok šili, potom jste to nasadili, nějakou dobu to běželo v produkci, ale pak vás zavřeli, vykešovali jste a co se stalo potom?

Hele, ten čas byl takový, že když jsme tohle uzavírali, už jsme pomalu končili studium magistra, nebo jsme byli už skoro na konci. A co jsme si z toho odnesli, bylo to, že nás nejvíc bavila právě ta část dělání AI stránky – opravdu se snažit vymyslet, jak bychom mohli vytvořit algoritmy AI, které by lidi porazily. A sami jsme už tehdy byli dostatečně daleko v porozumění stavu výzkumu v této oblasti, že jsme věděli, proč počítače stále ještě nejsou lepší než lidi, a hrozně nás bavilo přemýšlet, jak ty algoritmy zlepšit. Takže to byl dobrý timing si říct: ok, vykašleme se na hraní online a vydělávání peněz a pojďme se plně soustředit čistě na tu AI algoritmickou stránku. V podstatě jsme se hned přihlásili na doktorát na MatFys s tím, že naše téma bylo jasné – říkali jsme si, že potřebujeme vedoucího, který bude v pohodě s tím, že budeme dělat doktorát na pokru a chceme být první na světě, kdo vážně udělá první AI, která porazí lidi. S tím jsme do toho doktorátu fakt šli a naštěstí se nám podařilo najít někoho, kdo do toho šel s námi. Bylo to v podstatě pokračování první fáze.

Co znamenal ten rok a co znamenalo v té době postavit algoritmus, který porazí lidi? Kde byly mezery? Co bylo tajemství? To je skvělá otázka a teď to udělám maličko techničtější, ale ne moc. Klidně i dost. Myslím si, že je důležité pochopit, proč ty počítače nebyly lepší než lidi v pokeru, i když byly už dávno lepší v šachu. Když si člověk zjistí, jak šachové programy fungovaly už hodně dlouho – vlastně už od 50. let, kdy lidé přemýšleli, jak vyrobit AI na šachy – je úplně přirozené, že když by ses nad tím zamyslel, jak bys dělal nějakou AI v šachu, téměř vždycky přijdeš s nápadem na hledání (search). Když jsi na tahu a přemýšlíš, co udělat, řekneš si: ok, co když udělám tohle a co na to zahraje soupeř, a sleduješ několik tahů dopředu...

Pokud chceš, můžu text doplnit i o pokračování, jen dej vědět.

Opravím text, aby byl gramaticky správný a lépe plynul:

Máš nějaký ten search, nějaké to prohledávání. A teď, co je hrozně zajímavé, je to, že tohle funguje v hrách s úplnou informací, například ve hrách jako šachy a go. Zatímco v hrách s neúplnou informací dlouho nikdo nevěděl, jak search vůbec dělat, protože není jasné, jak se mohu dívat do budoucnosti, když nevím, co drží opponent za karty. Jak to mám prohledávat, když netuším, co drží openet, a openet zase neví, co držím já? Jsou na to i dobré matematické důvody, proč se lidé dlouho domnívali, že search v takových hrách vlastně nejde.

A co je na tom pěkné, je to, že podobně jako šachy byly zajímavou výzvou už v 50. letech, trvalo až do 96. a 97., než počítače konečně porazily lidi. Algoritmicky to vlastně nebylo nic nereálného – člověk si klidně může najít články z 50. let, kde třeba Nash nebo dokonce Turing psali první články o tom, jak by asi dělali AI pro tyto hry. Je dokonce úžasné, že Turing měl první program na hraní šachu, který si napsal na papír ještě v době, kdy nebyly počítače, jež by to dokázaly spustit. Takže se snažil ručně na papíře "běhat" tím programem. Lidé tedy věděli, jak na to, ale trvalo dlouho, než se hardware a software dostaly na potřebnou úroveň.

Co se týče pokru, tam také platí, že v 50. letech to byl zajímavý problém. Lidé si říkali, že by bylo super, kdyby počítače byly lepší než lidé v pokru, ale tam byl vystavený podobný algoritmický a matematický problém – jak to vůbec dělat? Existují pěkné teoremy a je to docela vyspělá věda. Když je hra dostatečně malá, aby ji počítač mohl opravdu spočítat a vyřešit, existuje spousta algoritmů, které umí řešit i malé varianty pokru, třeba když hrajeme s pěti kartami a máme čtyři žetony. Takové situace jde vyřešit a dokonce ukázat, že musí existovat optimální strategie. Je to hrozně pěkná věda, matematika a jsou k tomu pěkné algoritmy.

Ale najednou, když je hra velká, tak typický přístup z šachu – prohledávat všechny možnosti – se ukazuje jako nemožný. Nikdo nevěděl, jestli je vůbec možné dělat search v pokru. A vy jste na to přišli? Nebo jak jste to zvládli?

Hele, my jsme to vyřešili právě tím, že jsme přišli na metodu, jak konečně v pokru dělat search. Samozřejmě to nebylo hned, když se ptáš, kdy to bylo – my jsme nastoupili na doktorát kolem roku 2013-14 s tím, že jsme si řekli: „Hele, pojďme dělat pokr a konečně vymyslet, jak to dělat lépe.“ Trvalo nám chvilku, než jsme na to přišli, a je zajímavé vidět, jak jsme se tam vůbec dostali. A to souvisí s naším příběhem, protože co jsme dělali kromě doktorátu, byl tehdy doktorát čistě ze stipendií relativně malý a nebylo jednoduché z toho žít. Navíc vám zavřeli ty pokrové stránky.

To je pravda, dobrá připomínka. Takže…

Pokud chceš, mohu pomoct s dalším upravením.

Tady je opravený text s lepší gramatikou, interpunkcí a stylistikou, aby byl srozumitelnější a plynulejší:

A najednou nám naše pokrová AI nevydělávala peníze, takže pro kontext — měli jsme zhruba stipendium osm a půl tisíce korun měsíčně, což na vyžití v Praze nebylo úplně jednoduché.

Proto jsme si s Matějem oba našli práci u doktora tady v IBM Research v Praze. To je relevantní z mnoha důvodů. První věc je, že jsme tam poprvé přičichli k neuronovým sítím, protože to, co jsme tam dělali, na první pohled vůbec nesouviselo s tím pokerem a AI, které jsme řešili v doktorátu. V IBM jsme ale pracovali na prvních jazykových modelech založených na neuronových sítích. Byla to doba, kdy vycházely první studie — například si pamatuju ty práce od Thomase Mikolova, které byly postavené ještě na LSTM. My jsme přesně tyto věci implementovali, publikovali jsme nějaké další následné články.

To nám umožnilo především dvě věci: Za prvé jsme přičichli k neuronovým sítím už na samém začátku, což bylo důležité, protože časem jsme měli „aha“ moment, kdy jsme si řekli, jak zkombinovat algoritmy, které fungovaly v pokru, s neuronovými sítími. Vznikl tak nápad na ultimátní vyhledávací algoritmus, o kterém se ještě zmíníme, jak vznikal, jak jsme se k němu dostali a proč to bylo super.

Za druhé jsme tam poznali spoustu šikovných lidí, kteří s námi pak dlouhé roky spolupracovali, ať už jsme je později přivedli do DeepMindu, nebo když jsme se nakonec vrátili do Prahy a ukradli ty nejlepší lidi pro BMK, aby s námi šli dál.

Bylo skvělé, že jsme měli tady v Praze takovou komunitu lidí od IBM, která vytvořila silné centrum excelence, a je fajn, že jsi dalším členem této party.

Celé řešení bylo tedy na jedné straně algoritmické a na druhé straně zahrnovalo zapojení neuronových sítí, které byly v té době úplně nové. Udělali jsme doktorát, vyřešili jsme, že máme nejlepší pokerovou AI na světě.

Bylo to ale trochu pomalejší — když si to představíš, byli jsme teprve v druhém roce doktorátu, zároveň jsme dělali práci na neuronových sítích, a přitom přišel ten nápad, kterému jsme opravdu věřili — že právě kombinace těchto technik konečně přinese průlom do pokerového vyhledávání. Věřili jsme, že to bude ten zlom, který způsobí obrovský posun vpřed.

Bylo důležité uvědomit si, že v té době i ty nejlepší programy výrazně prohrávaly proti silným lidským hráčům. Nešlo jen o malou optimalizaci, ale bylo potřeba udělat obrovský skok, něco úplně nového, zásadně odlišný přístup.

My jsme věřili, že ten přístup máme v hlavě a že to půjde. Teď jsme si říkali, jak se do toho pustit naplno.

A co bylo děsné, ale vlastně zároveň i dobrý — mezi tím jsme také publikovali v rámci doktorátu několik pěkných článků na téma AI a pokerových algoritmů, tedy různých „follow-up“ studií, ne nějakých průlomů...

Pokud chceš, mohu pomoci i s doladěním dalších částí textu.

Rough, ale spíš nějaké vylepšování těch existujících algoritmů. Publikovali jsme na velkých mezinárodních AI konferencích, a tam jsme se potkali s Majkem Bowlingem z Kanady, který v té době vedl asi nejsilnější AI laboratoř a který právě přispěl k rozvoji AI v Kanadě. Když viděl náš výzkum, velmi se mu líbil, zkamarádili jsme se a přišli jsme za ním s nápadem na revoluční algoritmus, slovo za slovem. Společně s Majkem jsme se rozhodli do toho jít opravdu naplno. Věřil našemu nápadu, ale všichni jsme také věděli, že to bude obrovské množství práce postavit něco tak revolučního od nuly, že to nebude jen part-time záležitost, kterou budeme s Matějem dělat vedle. Proto jsme se rozhodli odejít z IBM, na MatFyzu jsme to prakticky nikomu neřekli, a místo toho jsme si řekli, že pojedeme na rok do Kanady na stáž, kde budeme algoritmus implementovat právě s Majkem Bowlingem a jeho týmem, spolu s Matějem. Z IBM jsme odešli normálně, ale na MatFyzu to trvalo nějakou dobu, než si všichni všimli, že tam nejsme. Pak bylo potřeba nějak vyřešit papíry pro stáž a potvrdit, že škola nás na stáž pustí, když už jsme v Kanadě. Jasně, startupový přístup „ask for forgiveness“.

Přesně, to je dobrá analogie. Když říkám „po hlavě“, tak tím myslím, jak jsme do toho opravdu šli naplno. Když jsme začali s tím revolučním algoritmem s Matějem, fakt jsme na tom makali i šestnáct hodin denně, bez víkendů, takhle osm měsíců v kuse. Byli jsme zavření v Kanadě a od rána do večera jsme nedělali nic jiného než implementovali náš nápad. Věřili jsme, že to bude fungovat, bylo to fakt crazy období, ale zároveň takové, kdy člověk nechce dělat nic jiného, protože ho to hrozně baví a má pocit, že posouvá hranice možného. Viděli jsme před sebou možnost skutečně udělat průlom. Měli jsme ten pocit: „Udělal tohle a pak můžu klidně umřít.“

Byla ta práce v implementační fázi, nebo spíš v rozvíjení teoretického R&D modelu? Nebo kombinace?

Byla to, jak říkáš, kombinace. A to je věc, kterou dnes vidíme i u moderní AI – výzkum a engineering jsou úzce spjaté. Byla to nová matematika, ale samotný papír nestačí – je potřeba to dobře implementovat. V té době jsme implementovali úplně nové algoritmy na GPU, což v té době vůbec nebylo běžné. Museli jsme algoritmy vymýšlet, psát si matematiku na tabuli a pak to bez přestávky implementovat osm měsíců, sedm dní v týdnu, bez jediného víkendu, než jsme od nuly postavili ten průlomový algoritmus.

Itmus. Ale stálo to za to, protože ten leap, který byl fakt potřeba, byl opravdu neskutečný. Ten nový algoritmus, který přišel právě s kombinací vyhledávání a neuronových sítí, způsobil, že relativně dobrý pokerový hráč úplně přejel ty nejlepší programy na světě. Najednou náš program dokázal naopak strašlivě porazit i velmi silné profesionální hráče. Po osmi měsících jste vydali paper, nebo co se stalo? Co jste měli v ruce?

Ultimátně jsme vydali paper, ale z našeho pohledu to bylo trošku napínavější. Když jsme konečně vyrobili ten deepstack, říkali jsme si super, teď musíme hrát proti lidem. Chtěli jsme zorganizovat zápas, ale museli jsme se zároveň bát, abychom neprozradili, že máme tento průlomový algoritmus, a že budeme hrát proti profesionálům. My v týmu, zejména já a Matěj, jsme sice algoritmus neimplementovali, ale pomáhali jsme to přizpůsobit tak, aby zápas proti lidem byl co nejférovější, a abychom mohli s jistotou tvrdit, že jsme nepodváděli.

Samotný zápas proti lidem jsme mohli sledovat jen na dálku, vůbec jsme nevěděli, jak na tom jsme, a to až do konce zápasu. Matěj se mnou pak chodil v kolečkách a čekal na výsledek. Když výsledek přišel a byl opravdu skvělý, pak přišlo přesně to, co říkáš: Pojďme to rychle publikovat, je to velká věc. Paper jsme nakonec publikovali v časopise Science, což je pro každého doktora obrovský úspěch.

Co bylo ještě lepší, byl fakt, že jsme měli dokonce titulní stránku tohoto časopisu, a první obrázek jsme s Matějem vymýšleli a kreslili, jak by mohl vypadat. Legrační storka je, že když si člověk otevře ten magazín a podívá se na článek, na konci jsou připomenuty finanční zdroje a granty týmů. Kromě velkých kanadských grantů, které měl laboratoř Lappnan Compute a další, je tam i zmínka o našem malém doktorantském grantu z MatFizu.

Protože jste tam byli na stáži?
Přesně tak. Takže i ten malý grant, který nás podporoval, se objevil ve velkém časopise Science. To je pěkné, protože můj doktorandi dnes také žádají o podobné granty, a vidět tenhle malý grant v Science je pro ně motivací. Gratuluji vám!

Já moc gratuluji – Science a ještě titulní stránka, to si myslím, že nemá mezi Čechy v machine learningu nebo AI a v jiných oborech mnoho lidí. Než půjdeme dál a povíte, co se stalo s vámi a Matějem potom, chci ještě zůstat u pokru. Stál by váš tehdejší model ještě nyní? Jsou současné pokerové modely založené na té samé metodě, nebo už tam proběhl další průlom? Vím, že teď se v profesionálním pokeru dělá hodně simulací a učí se...

Intuice je taková, že Nešovo ekvilibrium je v podstatě založené na tom, že hráči mají totálně memorované situace a odpovídají na ně tak, aby byly co nejblíže optimu. Jak se tato metoda vyvinula? Sleduješ to ještě?

Sleduju to. Není to tak, že bych teď tam aktivně něco dělal, ale studenti publikují pořád pěkné články. Dnes by DeepStack proti současným programům byl slabší, ale metody zůstávají v podstatě stejné. DeepStack byl "kmotrem" současných metod. Dnešní state-of-the-art postupy pro AI v hrách s neúplnou informací, jako je poker, využívají stejné základní myšlenky — mají větší neuronové sítě, řadu dalších vylepšení, ale ten průlom, jak dělat AI v těchto hrách, DeepStack výrazně neovlivnilo.

O to víc si cením, že tě tady mám. Pojďme dál. V tvé kariéře totiž nastal další průlom — něco, co kromě coveru časopisu Science by mnozí naši posluchači chtěli mít v životopisu.

Ano, asi narážíš na naši práci v DeepMindu. Tam jsme se dostali hned po publikaci DeepStacku. Krátce poté celý tým, který na DeepStacku pracoval, včetně dalších lidí z kanadské univerzity, s dlouhou historií v AI, dělající zajímavé věci v reinforcement learningu a teorii her, se stal zajímavým zdrojem. Mnozí z nich tam studovali nebo měli stáže. Bylo to silné místo s historií AI.

Po vydání DeepStacku DeepMind řekl: "Skvělé, pojďme celý tým koupit a založit nový lab." V té době měl DeepMind laboratoře pouze v Londýně a v Edmontonu (na té univerzitě), a otevřeli první kancelář mimo Londýn — náš tým, který dělal na pokeru. Teď už mají kanceláře v Paříži, Montrealu či Kalifornii, ale ta naše byla první vlaštovka mimo Londýn.

Jaké bylo vaše zadání? Měli jste pokračovat v pokeru? Bylo to čisté R&D, nebo nějaká aplikace?

Tým byl větší a pracoval na různých projektech. Můj tým, když si vzpomenu na tehdejší směr DeepMindu, hodně fungoval AlphaGo a AlphaZero. Ty věci jim šly výborně a silně je tlačili. Když se objevil tým pracující na pokeru, logicky se snažili to nějak propojit.

Naše dlouhodobá práce spočívala v úzké spolupráci s AlphaZero týmem a v hledání způsobu, jak algoritmy DeepStacku blíže propojit s AlphaZero. Cílem bylo vyvinout skutečně generické metody, které se samy učí z dat a zkušeností, a není podstatné, jestli jde o šachy, poker, go nebo jakoukoli jinou hru.

Jasně, tady máš opravený text:

Akt posouvat hranici těch samoučících a reinforcement learning algoritmů. A zase, co tam byly ty metody? Tohle byly dvě věci, které vyrostly dost nezávisle, ne? Principy byly trochu jiné, takže to znamenalo dát nějaká pravidla, kdy použít tuto metodu a kdy tu druhou, anebo to byla spíš otázka vyvinout úplně novou metodu a breakthrough, který vezme to nejlepší z obou světů? To je taky hodně dobrý dotaz. Je to tak, že bylo právě hrozně zajímavé se zamyslet nad tím, jak tyhle metody a myšlenky spojit do nějaké unifikované generické myšlenky a metody.

My jsme museli začít v podstatě od základu, že jsme museli i unifikovat formální jazyky, které různé metody, algoritmy a komunity používaly. Protože algoritmy, které stály za téměř pokrovým AI, hodně vycházely z akademické linie lidí zaměřených na teorii her – což přesně souvisí s tím Nešovým kalibrem, co jsi zmiňoval. Naproti tomu akademická linie algoritmů, které stály za šachy, AlphaGo, AlphaZero, byla spíš založena na metodách reinforcement learningu. A i když se tyto dvě komunity soustředily na podobné problémy – například nějakou hru s agenty, přístupem a odměnami – tak jejich myšlenkové postupy budovaly vedle sebe a my jsme je museli nějak dát dohromady.

Co bylo výsledkem této práce? Ukážeme ti, jak to fungovalo v DeepMind. Nejprve ten výsledek – ten jsme na konci také publikovali, a to jako Player of Games nebo Student of Games. To mi připomnělo legrační příběh. Když jsme náš Player of Games algoritmus chtěli vydat – možná znáš název, protože je inspirovaný slavnou sci-fi knihou, a vím, že ty máš rád klasické sci-fi – tak ten název unifikovaného algoritmu byl Player of Games, protože umí hrát hromadu her. Když jsme to dávali ven a publikovali v Science Advances, tweetovali jsme o tom, že jde o kombinaci AlphaZero a DeepStacku.

Ve stejnou dobu Grimes, ex-přítelkyně Elona Muska, vydala song s názvem Player of Games. Z nějakého záhadného důvodu to spojila s důkazem, že žijeme v simulaci a že to není náhoda – synchronita, tak říkají. Začala to retweetovat a nakonec mě i začala followovat na Twitteru, což byla úplně náhodná věc, která nebyla záměrem spojovat to s její písní, ale stalo se to neoficiální písní našeho projektu. To si musím pustit.

A když jsi mluvil o pokeru, vybavila se mi Liv Bory, pokrová hráčka, která je taky součástí machine learning komunity a byla hostem u Lexe Friedmana a tak dále.

Takže jste vydali Player of Games – na jakých hrách to umělo hrát? Bylo to úplně univerzální? Na čem jste to učili? Jak moc to byly te...

Pokud chceš, můžu ti text i trochu přeformulovat, aby byl plynulejší a srozumitelnější.

Zde je opravený text s lepší srozumitelností a gramatikou:

Kdy online hry a hry? Pořád to byly spíš deskové hry, ale bylo fajn, že jsme tam ukázali kombinaci jak dvouher s úplnou informací, tak dvouher s neúplnou informací. Konkrétně to zahrnovalo hry jako šachy, go, samozřejmě poker, a potom poslední hru, kterou jsme chtěli mít jako pěknou ukázku toho, že to dokáže hrát hru, kde je přirozeně vidět ten search, ale zároveň je tam hra s neúplnou informací. Tou hrou je Scotland Yard, kterou asi nebude znát mnoho lidí, co tohle poslouchají. Je to starší, ale moc pěkná hra, kde na mapě Londýna utíká zloděj, jeho polohu neznáš, a snažíš se ho jakoby „corner chytit“. Přesně tak: jestli tu hru znáš, tak tě asi nemusím přesvědčovat, že je to hra, kde určitě musíš dělat nějaký search, kam půjdeš, kam ho budeš nahánět, a zároveň tam máš neúplnou informaci.

Super, a tohle se vám povedlo?

Ano, ve všech těchto hrách to dopadlo skvěle, dokonce určitě lépe než lidi. Trade-off byl v tom, že to byl generický algoritmus. Velmi často totiž člověk vidí trade-off mezi generičností a specializací. Zatímco to dokázalo hrát všechny tyto hry mnohem lépe než lidé, oproti AlphaZero, který je specializovaný jen na hry s úplnou informací, bylo to slabší např. v Go nebo v šachu. Ale to je trade-off, který za to stojí: nebýt specializovaný na určitý subset her, ale být skvělý ve všem najednou.

No a postupně se dostáváme do současnosti, k tvému návratu do Prahy a založení Equilibra. Než ale utečeme z Kanady, když se teď díváš zpětně na to, jak AI svět dost vyrostl v popularitě...

Co jsi v tomhle výzkumu za sebou zanechal? Kde všude tě najdeme? Spousta laiků netuší, ale odborníci vědí, jak velký „dent in the universe“ měl Tomáš Mikolov s Word2Vec. Kde jsou ty části výzkumu a vývoje, na kterých jsi se podílel, kde jsi byl autorem nebo spoluautorem?

To je zajímavý pohled. Když se vrátím úplně k tomu DeepStacku, ten mi je určitě blízký, protože zůstává jako taková vlaječka zapíchnutá v historii: bylo to poprvé, kdy počítače dokázaly porazit lidi v něčem specifickém. Takže to je věc, která navěky zůstane na Wikipedii, že se to povedlo, a mám na to velký citový vztah. Ale mělo to i další dopad.

Jedna věc je, že v podstatě všechny follow-up algoritmy jsou na tom nějak postavené. A co jsem se dozvěděl až o mnoho let později, když jsme se vrátili do Prahy, a co mi přišlo moc fajn, je, že profesionální pokrové hráče používají programy, které jim pomáhají hrát blízko Nashova rovnovážného řešení a Equilibria. Zdaleka nejoblíbenější program, který pokroví hráči používají, a který je vidět na mistrovstvích i díky reklamám, se jmenuje GTO Wizard. To je pro mě pěkné ve dvou směrech. Jednak...

Pokud chceš, můžu pokračovat nebo dále text upravit či rozvinout.

Jasně, tady je opravený a upravený text s lepší srozumitelností a plynulostí:

Ani jsem nevěděl, že je to v podstatě taky český startup s českýma kořenama, což je hrozně fajn. A druhá věc je, že metody, které interně používají, jsou založené právě na těch metodách, které jsme my vyvinuli a publikovali. Takže po tolika letech je to vlastně state-of-the-art program, který všichni používají, a má obrovský dopad.

Ještě než půjdeme do Prahy, co byly ty metody? Když bychom se podívali na ten paper, myslím, že to můžeš vysvětlit tak, ať tomu dobře rozumím.

Jasně, hlavní věc byla, že jsme dokázali dostat do hry efektivní vyhledávání (search) a nějaké detaily, které jsou pro to vyhledávání zajímavé. Kombinace toho vyhledávání a neuronových sítí. Když člověk dělá vyhledávání v šachu, tak se dívá pár tahů dopředu a na konci je nějaká pozice, třeba tady jsem vzal dámu — samozřejmě si nemůžu dovolit prohledávat všechny pozice až do konce hry, protože kombinatorika je příliš velká.

Přesně, ta kombinatorika totiž rychle exploduje, takže po pár tazích prohledávání je potřeba to zaříznout a na konci tu situaci nějak ohodnotit. A co je zajímavé, tak jak fungoval Deep Blue v roce 1996, když porazil Kasparova, tak tenhle konečný odhad pozice se počítal pomocí heuristik napsaných ručně. Lidi, kteří opravdu rozuměli šachu, tam psali pravidla typu: když střelec je na tyhle diagonály a mám zdvojenou věž, a tahle struktura pěšců vypadá takhle, pak je to lepší, než když je něco podobného.

Bylo to tedy hodně pravidlové a závislé na expertní doméně, což je hodně zajímavé. Když mluvím o Deep Blue, tak ještě k tomu ohodnocení té pozice — protože Deep Blue musel procházet obrovské množství pozic — tak ta evaluace pozice musela probíhat velmi rychle, aby zvládnul hrát v reálném čase. Kdyby to bylo pomalé, tak by mu došel čas. Dokonce to tehdy přímo implementovali do čipů, takže si udělali speciální hardware, který měl těmito heuristikami zabudované pravidla, aby ten systém běžel dostatečně rychle.

To považuji za opravdu zajímavé. A jak je to dneska, například u AlphaZero? Tam už nejsou žádné ručně psané heuristiky — hodnocení pozice dělá neuronová síť, která je učená tak, že program hraje sám proti sobě spoustu partií a pomocí reinforcement learningu tu neuronku zdokonaluje, aby dobře odhadovala pozice.

My jsme tu samou myšlenku použili i v DeepStacku, třebaže to je trochu složitější. Když se podíváš pár tahů dopředu, musíš zvážit, že neznáš úplně všechny informace, například jakou kartu má protihráč — neúplná informace. Takže tam je zajímavost v...

Pokud chceš, mohu pomoct s pokračováním nebo dalším opravováním textu.

Jasně, tady je opravená verze tvého textu:

Ve hrách jako šachy nebo go neuronová síť na vstupu dostane jednoduše jen pozici na herní desce, tedy kameny nebo figurky. Naše neuronové sítě však, pokud pracují s neúplnou informací, dostávají na vstupu také nějakou distribuci, tedy pravděpodobnostní rozdělení přes všechny možné stavy, v nichž se svět zrovna může nacházet. V pokeru, konkrétně v Texas Hold'em, máme na ruce vždy dvě karty, takže počet možných stavů světa je přibližně "52 choose 2", tedy zhruba tisíc. Takže ta distribuce je dostatečně malá na to, aby dnešní neuronové sítě obsloužily i několik tisíc vstupních hodnot a fungovaly správně.

To však znamená dvě věci. Za prvé, jak jsem popsal, distribuce přes všechny možné stavy světa je natolik generická, že algoritmy nejsou specifické jen pro poker. Kdyby to byla jakákoliv jiná hra, jedinou nutností je odehrát dost her a také zakódovat na vstupu neuronu distribuci přes možné stavy světa.

Zároveň to ale naznačuje omezení – co když je stavů světa, ve kterých se zrovna mohu nacházet, příliš mnoho? V takovém případě to systém neumožní efektivně řešit. DeepStack s tím neumí pracovat, ale neumí to ani žádný jiný program – je to stále otevřený problém, což je dobře, protože je to jeden z těch problémů, na kterých momentálně pracují moji doktorandi a posouvají tyto hranice dál.

Super, děkuji moc! Pojďme teď zpátky domů z Kanady a DeepMindu. V roce 2022 jsi se vrátil a založil jsi zde startup. Co tě k tomu vedlo a jaká byla geneze toho celého? Pověz nám ten příběh.

Tam se sešlo několik věcí dohromady, proč jsme do toho šli, a myslím, že zpětně to byl skvělý nápad. Geneze však nebyla vůbec přímá. V Kanadě se mi velmi líbilo, byly to v mnoha ohledech mé nejlepší roky, na které rád vzpomínám. A jeden z důvodů, proč se vrátit, byl právě ten, že jsme měli kolem sebe šikovné lidi – například v IBM, které jsme poznali, a poté i v DeepMindu.

Kromě Matěje tu byl i Ruda, jeden z našich spoluzakladatelů, který se potřeboval vrátit do Prahy, protože se mu tam chtěla vrátit jeho žena. Někdy je těžké přesvědčit svoji druhou polovinu, aby se přestěhovala, takže to byl jeden z faktorů, proč přišel pro nás dobrý timing. Nebylo to ale tak, že bychom se jen kvůli tomu rozhodli vrátit – nebylo to jen na Rudově ženě, bylo tam víc důvodů, které se sešly dohromady.

Takže tenhle důvod byl spíš otázkou načasování, kdy to bylo správné spustit. Dalších důvodů, proč jsme o tom už dříve přemýšleli a teď je zmíním, bylo víc. S Matějem a Rudou jsme dlouho přemýšleli, jaký by měl být náš další větší projekt, další velký cíl. Už za sebou máme...

Kdybys chtěl, můžu ti pomoci s pokračováním nebo dále rozvést text!

Jistě, tady je opravený text:

Li hromadu pěkných velkých věcí, ať už to byl DeepStack nebo DeepMind. Cítili jsme, že nás baví dělat velké věci. Mysleli jsme si, že máme na to tým a dost zkušeností na to fakt dělat špičkové světové výsledky. A byla to věc, kterou jsme nechtěli přestat dělat. Pořád jsme si říkali, že v sobě máme tu energii pořád dělat něco velkého. A to jediné, co bylo pro nás ještě větší než to, čeho jsme zatím dosáhli, bylo založit si něco vlastního spolu s partou kamarádů, se kterými jsme dlouho pracovali. Takže to byla ta hlavní myšlenková linie. Budeme founderi, jdeme do vlastního startupu a vracíme se do Prahy. Super. Tak proč market making, proč finance? Jedna věc je, že když jsme začínali v DeepMindu, zpočátku jsme se tomu hrozně smáli – to byl náš mýtus, říkali jsme si.

Nejsme tak hloupí, abychom začali tyto metody používat na trading, ale po těch několika letech, kdy jsme přemýšleli, do jaké domény se pustíme, se ukázalo, že to vlastně byl zdaleka nejlepší nápad. A důvody jsou v podstatě dva, a pořád si myslím, že jsou dobré, správné a zpětně se ukázalo, že bylo správné rozhodnutí tuhle doménu zvolit. Ten první je, že tato doména je jedna z mála, možná skoro jediná, kde to, jak je technologie dobrá, tvoří zdaleka největší díl skládanky. Rozhodně to není jediný díl skládanky, to určitě ne, ale když to člověk srovná s jakýmkoliv jiným startupem, lidé často podceňují, jak důležitá je obchodní stránka, nebo naopak přeceňují myšlenku „mám lepší technologii, tak to bude skvěle fungovat“. Jasně, build it and they will come. Přesně tak. A to často neplatí. Naopak je někdy až smutné, jak málo záleží ve startupových projektech na kvalitě technologie a jak hodně záleží na kontaktech, sales a schopnosti něco prodat. Děkuji, že to říkáš, myslím, že tohle potřebujeme slyšet. Takže ty ses nechtěl učit business, sales nebo stavět tu konkurenční výhodu jinak, ale viděl jsi, že děláte nejlepší AI na světě, na nové problémy, state of the art. Přesně tak, takže to byla vlastně ta jediná doména, kde jsme si mysleli, že 90 % úspěchu bude v technologii. Ne 100 %, ale spíš 80–90 %. A druhý díl skládanky byl, že jsme si mysleli – a pořád si to myslím –, že podle toho, co jsme o doméně věděli, jsou technologie, ve kterých jsme dobří, tedy samoučící reinforcement-learning AI algoritmy, vlastně výborně přizpůsobené pro tuto doménu. Super, takže víte přibližně, co chcete stavět, máte sektor, ale sám říkáš, že tu doménovou znalost jsi úplně neměl. Co se děje pak? A co se děje pak? Vracíte se do Prahy, tak tady jsme. První věc, která se stane, když někdo začne googlit, jak založit startup. A to nepřeháním, strávili jsme dlouhou dobu googlením toho, co je vlastně startup a co znamená VC, protože jsme také je...

Pokud chceš, můžu text ještě zkrátit nebo upravit styl.

Tady je opravený text s lepší plynulostí a srozumitelností:

Nějak jsme tušili, že něco takového existuje, googlili jsme a souhlubovali s nějakým equity stock option, ale věděli jsme o tom prakticky vůbec nic. No a pak jste to zjistili a nejspíš jste svůj research udělali správně, protože nedlouho po vašem návratu jste dostali největší investici v presitu, jakou kdy jakákoliv česká firma dostala. Jak se to stalo? To jsi dobře googlil. To ti určitě já řeknu, jak se to stalo.

Bylo to tak, že když jsme začínali, řekli jsme si, ok, pojďme do toho, a začali jsme googlit. Samozřejmě jsme ještě neodešli z DeepMindu, ale začali jsme si to předem zjišťovat, jak to asi udělat. Jednou, když jsem byl jako v Praze — protože často jsem lítal do Evropy — řekl jsem si, že se zeptám pár kamarádů, kteří tady mají startupy, jak bychom do toho mohli jít. Konkrétně jsem se sešel s Paskem z Rosumu, protože se známe ještě z MatFizu, a on je hrozně šikovný a má tady taky úspěšný startup. Zeptal jsem se ho: „Nevím o tom vůbec nic, poraď mi.“ A on mi řekl: „Hele, já tě propojím s Andrejem Kiskou, on je z VC světa, běžte si o tom pokecat, on ti poradí, jak se tyhle věci dělají.“

Takže jsem ještě ten samý týden řekl: „Ok, super, sejdu se s ním.“ Zašli jsme spolu ráno na kávu a velmi rychle jsem se díky Andrejovi vracel zpátky do Kanady s tím, že ne že už víme, jak tyhle věci fungují, ale že on mi vlastně dokáže zařídit tady v Praze pro náš tým, až se vrátíme, tu největší investici, jaká tady kdy byla.

Čím ho to přesvědčilo? Tou historií, tím, co jsi říkal teď? Nebo viděl potenciál, věděl už tehdy něco o trhu, nebo co to bylo? Byla to od začátku idea market makingu, nebo tehdy to byl čistý trading?

První věc, co ho přesvědčilo, byla myslím kombinace toho, co už jsme dokázali, jaký máme track record, a hlavně jaký máme tým. Nešlo o to, že tady budu sám něco dělat, ale za celou dobu jsme si vybudovali partu hrozně šikovných lidí, kteří s námi od day one do toho šli. Ten tým samozřejmě teď už je ještě větší — k tomu se možná dostaneme později — dokázali jsme přitáhnout opravdu špičkové lidi z celého světa do Prahy.

Už od prvního dne byl tým, který řekl: „Vracíme se do Prahy a začneme to budovat.“ Bylo nás skoro deset, většina lidí byla z Google, DeepMindu, Facebooku, měli doktoráty z Oxfordu — prostě velmi nabitý tým s dlouhou historií společných úspěchů.

Super, tak jste se tedy vrátili, dostali rekordní investici na nápad a na světový tým. Co jste začali stavět? Co znamenalo postavit Equilibé? Už máte peníze, tým lidí — jak vypadala roadmapa, co se pak dělo? První věc byla, že jsme o té doméně fakt ze začátku věděli...

Pokud chceš, mohu text dál upravit, případně rozdělit na odstavce.

Opravený text:

Naivně hrozně málo. Naštěstí se nám podařilo přitáhnout fakt špičkové lidi sem do Prahy, a relativně brzy i nějaké lidi ze zahraničí, kteří mají s touto doménou víc zkušeností, takže nám to pomohlo se nasměrovat. Ale ta hlavní důležitá první věc, možná lepší odpověď na tvou otázku je, když si představíš právě ten tým, který jsem teď popsal s naším backgroundem – přijede hromada šikovných researcherů do Prahy, a to z dobrých důvodů samozřejmě – bohužel to nefunguje tak, že si tady na místě postavíme nějakou neuronku přes reinforcement learning a pustíme ji rovnou na newyorskou burzu. Tak to bohužel nefunguje, jsou tam regulace.

Ano, takže otázka je, jak dokážeme, že tahle naše úplně revoluční technologie – zase musím říct, že náš přístup je fakt úplně jiný oproti tomu, co se tam děje – jak přesvědčit lidi, že tohle má smysl, abychom dostali přístup na newyorskou burzu. Přesně, o co jde v MVP. Ano, a teď se můžeš sám, nebo lidi, co třeba poslouchají, zamyslet, co by asi tak dělali na našem místě, a myslím si, že hodně lidí by dospělo ke stejnému závěru, jak postavit ten prototyp – a to je, že jej postavíme na kryptoburze. A to je samozřejmě proto, že tam to není regulované a je mnohem jednodušší si natrénovat nějaký model přes naše algoritmy a nasadit ho na kryptoburzu, a ukázat, že i ten prototyp opravdu něco dělá. Když je postavený přes podobné algoritmy, jako jsou DeepStack a Player of Games, tak tahle „crazy“ nová technologie vážně dokáže něco dělat.

Super, tak pojďme do té technologické vrstvy: jak vypadal ten prototyp, když se na to podíváme jako na stack, co to dělalo, co si bralo z metod DeepStacku a co jste naopak museli nově vyvinout nebo domyslet? Hele, co je na tom pěkné, je že metody, které používáme, jsou vážně hodně blízké těm, co fungují v těch hrách. Ať už je to AlphaGo, DeepStack, nebo podobné, jde o samoučící reinforcement learning a game theory algoritmy, které se učí z nějakých zkušeností.

Zatímco v šachu taháš figurky, tady nakupuješ a prodáváš, máš nějakou zkušenost a na konci dne dostaneš neuronku, která na vstupu vidí stav trhu a na výstupu ti místo pokynu „pohni králem nahoru“ řekne: „OK, teď by se měla poslat tato objednávka.“

Super, a na kryptu to začalo fungovat? Začalo to fungovat „out of the box“? Nebo co byly největší úpravy? Šlo čistě o implementaci a o to dostat tam data a vyčistit je?

Signal versus noise a nějak také, jak jsi mluvil o Deep Blue, dostat tam nějaká pravidla trhu, která jsou v tom „zapečená“ – nebo co to znamená? To je taky super k zamyšlení – jestli prostě stačí vzít ty publikované algoritmy a jen nakrmit jinými daty, místo...

Tady je opravený a upravený text:

Najednou to začne fungovat. A je to něco mezi tím, v tom smyslu, že člověk musí opravdu hluboce chápat tyto algoritmy, aby je dokázal upravit pro danou doménu, aby to tam fungovalo. Rozhodně to není tak, že by si člověk stáhnul nějakou knihovnu s algoritmy nebo si přečetl pár článků o implementaci a ono to na těch datech samo fungovalo. To rozhodně neplatí. Musí mít opravdu hluboké znalosti těch věcí, aby věděl, že tato doména je specifická nějakými vlastnostmi a co to tedy znamená pro matematiku a algoritmy, aby se to na těch datech také dokázalo učit.

A na co jste přišli? Jaká byla ta pravidla, co je jiné ve šachu, ga, hledání zloděje, pokeru a na burze?

Jedna strašně zásadní věc, která je sice jasná, ale je potřeba jí opravdu dobře rozumět, je poměr mezi šumem a signálem. Například ve šachu je to úplný extrém – žádný šum tam není. Šachy mají úplnou informaci a neobsahují žádnou náhodu. Umím si představit šachy, kde by se hodila kostka, jestli moje figurka sežere tu druhou – tam by byl šum a náhoda, což by zhoršilo učení, ale ve standardních šachách žádný šum či náhoda není. Když dostanu odměnu (reward), vím, že jsem něco udělal správně, není to jen štěstí.

V pokeru je situace horší, protože může nastat, že vyhraju partii díky štěstí. Musím tedy rozlišit, jestli je signál opravdový, nebo jestli jde o náhodu, abych získal dobrou strategii. Co se týče burzy a trhu obecně, tam je problém ještě větší, protože je tam velmi mnoho náhod a signál je naopak velmi slabý a tichý. Aby algoritmy dokázaly ten malý signál odhalit a pořád dokázaly natrénovat neuronovou síť, je to hodně náročné.

A jaký je trik? To je naše „secret sauce“, které nechceme prozradit konkurenci.

Mám pocit, že jste přešli z pokeru na krypto, že ano? Jak to vypadalo? Potřebovali jste investici, když to začalo fungovat?

Ta analogie s kolejemi je dobrá – je to podobný pocit, když vidíte naše neuronové sítě „naživo“. A co se týče investic, určitě jsme nějaké potřebovali. Zaprvé proto, že jsme potřebovali dostat do Prahy šikovný tým. A když říkám, že to fungovalo, tak spíš myslím, že jsme postavili prototyp, který ukázal, že tato technologie má budoucnost. Nešlo nám primárně o to na krypto vydělávat velké peníze. Na začátku jsme si představovali, že chceme vstoupit na velkou americkou burzu, jak se tam ale dostat? Naše cesta byla postavit nejdřív prototyp na kryptu, ukázat, že technologie je životaschopná.

Tak co jste dokázali? A co byl pro vás výsledek? Že to vydělávalo? Že to poráželo jiné algoritmy, krypto fondy, nebo jaký byl vlastně ten benchmark?

Jo, zjednodušeně řečeno, že fakt jsme...

(Text zřejmě pokračuje.)

Tady je opravená a upravená verze textu pro lepší srozumitelnost a plynulost:

Na konci dne jsme dokázali mít neurónku, která byla nasazená na burze a čára skutečně šla nahoru. Fakt jako průběžně ty neurónky fungovaly. To nám stačilo k tomu, abychom mohli říct: OK, super, máme tady proof of technology, že z tohohle může být breakthrough. Líbí se mi, že máš pořád tu cílevědomost a smysl pro věc, že jsi to nenechal jen běžet na počítači a že nejsi jen rentiér, ale dál řešíš ty problémy.

Tohle se vám povedlo. A co se dělo pak? Dneska vidím veliký leap — vnímám vás nejenom jako obchodníky, ale přímo jako market makery, což je zase creme de la creme tradingu, protože vlastně…

Bílý držíš obě pozice a nemůžeš si zas tak úplně vybírat — můžeš si něco vybírat, ale ne moc, riziko máš vždycky na sobě. Chápu to správně? Asi jo. Dalším důležitým krokem od prototypu na kryptu je zamyslet se, jak se konečně přesunout na dospělou hru — na Wall Street a americkou burzu.

Jak se na Wall Street a americkou burzu dostanete z kryptoprototypu? Přesně tak — ta cesta je taková, že s tím prototypem se pokusíte najít nějakého partnera, který už na té burze je nebo dokáže zařídit věci za vás.

Ideálně, abychom se my mohli stále soustředit na vývoj technologie a neřešili regulace a to, zda vůbec můžeme nasadit svoji neurónku na Newyorskou burzu.

A s tím prototypem v ruce to jde samozřejmě mnohem lépe, než když přijde někdo a řekne: My jsme nikdy netradovali, máme tu nějaký pokus, můžeme prosím nasadit neurónku? Pro lidi, kteří už v tradingu jsou — tedy pro velké firmy — byl náš prototyp natolik zajímavý, že naštěstí nebylo úplně těžké najít partnera.

Když jsme s tím přišli, několikrát se v dobrém slova smyslu u nás přetahovaly některé z největších tradingových firem na světě. Přicházeli do Prahy přesvědčit nás, abychom šli s nimi a přesunuli technologii s nimi a uzavřeli partnerství.

Bylo to samozřejmě fajn, ale nejtěžší bylo si nakonec vybrat správného partnera. Myslím si, že jsme si vybrali velmi dobře.

Stalo se to na konci minulého roku. Teď máme únor 2025, takže to bylo někdy kolem ledna minulého roku — zhruba rok zpátky jsme uzavřeli to partnerství, že máme prototyp na kryptoměny, což je sice fajn, ale pořád dětský prototyp, a teď chceme začít přesouvat ten projekt na velkou technologii. V té samé době jsme uzavřeli také nějaké další dohody…

Pokud chceš, můžu pomoci i s pokračováním textu.

Jistě, tady je opravený a stylisticky upravený text:

Zahájili jsme další investiční kolo, abychom mohli podpořit přesun technologie. Od té doby ji intenzivně převádíme na americkou burzu, abychom překonali fázi, kdy jsme měli pouze malý prototyp běžící na kryptoměnách. Chceme se dostat do fáze, kdy náš systém poběží na největších amerických burzách. Právě na tom tvrdě pracujeme, a myslím, že se nám to skvěle daří. Zároveň rozšiřujeme tým, aby se nám to podařilo přesunout a co nejrychleji rozběhnout. Pojďme se teď podívat na náš tým a na to, co celý proces vlastně znamená.

Z tvého pohledu to zní skoro jednoduše – něco, co jste s Matějem v Kanadě vydřeli osm měsíců po 18 hodin denně, teď jen aplikujete na jiném místě. Protože ten systém znáte do hloubky, na úrovni jednotlivých vah a detailů, tak dokážete odhadnout, co je důležité, co ne, a jak vyřešit překážky na cestě. Co to ale znamená z inženýrského hlediska, tedy jak udělat z výzkumu, metody a modelu skutečný software a produkt – to je jiný příběh. Když se člověk podívá třeba na GitHub, co tam máme uložené, co postupně vyvíjíme a jak probíhá transformace kryptoprotoypu na reálný tradingový systém na Wall Street, je to opravdu zajímavé.

Jedna zásadní věc oproti tomu, jak jsme to dělali těch osm měsíců dřív, je, že teď na tom nepracujeme jen ve dvou. Máme relativně velký tým plný šikovných lidí z celého světa. Kolik nás je? Je nás kolem dvaceti až dvaceti pěti, a jde o skutečně pestrý mix lidí. Někteří z nás jsou tady lokálně, další se kvůli projektu vrátili do Prahy, a dokonce máme i lidi, kteří se sem přistěhovali z Kalifornie, Londýna a dalších míst. Jako český občan vám za to všem děkuji!

Co vlastně tým dělá, když se vrátíme k technologii? Rád bych zdůraznil, že ten tým není jen velký, ale také opravdu silný. Je rozdělený na výzkumníky (researchers) a inženýry (engineers). Přesto je mezi nimi velmi úzká spolupráce – přesně jak to dnes dělají velké firmy jako DeepMind, OpenAI, Facebook nebo Google při vývoji moderní umělé inteligence. Spojení výzkumu a inženýringu je neoddělitelné. Už totiž dávno neplatí model, kdy matematik sedí u tabule a kreslí vzorečky, které pak předá inženýrům k implementaci. To je naivní představa.

Dnešní vývoj je velmi integrovaný – jak se podaří postavit velký systém, který se na datech učí a správně distribuuje algoritmy napříč infrastrukturou, je základem úspěchu. Celý projekt je krásný hybrid mezi výzkumem a inženýrstvím.

Pokud chceš, mohu text ještě dále upravit, zkrátit nebo přeformulovat.

Jasně, tady je opravený text s plynulejším a správnějším českým jazykem:

Engineeringem. A když mi to přiblížíš pohledem jako stacku – co kde běží, na čem je to postavené, jako kdyby jsi mě provedl nějakou základní architekturou, jestli to taky není nějaké vaše tajné IP? Ne, určitě, pojďme si potom o tom popovídat hrubě. Tak jak jsem to popisoval, tak je to o tréninku těch modelů. Potřebujeme několik věcí. Jednak potřebujeme nějaký hardware, na kterém budeme ukládat data, ta data nám musí proudit na trénink sítí a ty sítě zase potřebujeme trénovat na nějakém hardware, dneska typicky na GPU. Tak první věc je, že musíme mít dobře distribuovaný systém, abychom dokázali fakt efektivně používat stovky až tisíce grafických karet, abychom dokázali ukládat spoustu dat, na kterých se to učí, a abychom zase dokázali posílat ta data na grafické karty, kde se neuronky trénují. To je zase strašně podobné tomu, když si člověk představí, že to zní hrozně jednoduše – AlphaZero hraje šachy, trénuje neuronku, odehraje několik partií, ale lidé často zapomínají, že těch pár partií bylo odehráno na pár tisících GPU. Takže postavit ten systém, aby to těch partií odehrálo, stejně tak u nás, kde se hraje nějaká partie, což je v podstatě trénink, není vůbec jednoduché. A ten stack je postavený tak, že my moc žijeme na Google Cloudu, jednak protože jsme původně z Google, z DeepMind, tak to znáte. Přesně tak, a taky protože nám to umožňuje flexibilitu – jeden den analyzujeme experimenty, a běží nám pár počítačů, a druhý den zase běžíme nějaký velký výpočet a najednou těch počítačů běží třeba 20 tisíc. Takže to je hodně nahoru a dolů a cloud je na to ideální. Dále je zajímavé, že stack je pěkná kombinace C++, aby jsme dokázali ty partie odehrávat velmi rychle a aby jsme dokázali rychle zpracovávat data. To je zase věc, kterou si lidi třeba neuvědomují – že velká práce v AlphaGo a AlphaZero byla i v tom, že důležité části, aby se partie odehrávaly rychle, byly napsané v C++, ale neuronkové věci byly zase napsané v něčem jiném, třeba JAX nebo TensorFlow. Pro nás je zase v C++ napsaná část, která rychle odehrává partie, a trénink modelů máme postavený na nějakém klasickém frameworku jako například PyTorch. Super. Takže vy vlastně, abyste získali rychlost a optimalizaci a mohli si hýbat rychleji, jdete hlouběji do kódu, nebo o vrstvu níž, tedy použít méně frameworků a víc řešit technologii přímo, a až potom na to nasazovat abstrakce? To je asi dobrý způsob, jak se učit. Když člověk často trénuje nějakou jednoduchou "vanilla" věc, tak si vystačí jenom s Pythonem. My potřebujeme, aby ten Python ještě komunikoval s C++ a aby to fakt běželo rychle. A to všechno pořád mluvíme jen o tréninku. A tam je opravdu hodně zajímavých engineeringových výzev. Že tyhle věci dělat v tak velké škále a zároveň...

Pokud chceš, můžu text ještě více upravit nebo rozdělit na odstavce pro lepší čitelnost.

Samozřejmě, tady je opravený text s lepší gramatikou a plynulostí:

Abychom rozuměli těm algoritmům, musíme mít fakt hrozně moc šikovné inženýry, kteří tohle všechno staví. No a potom, když člověk má tu síť, tak samozřejmě může být zajímavou výzvou, jak tu síť používat opravdu rychle.

Když člověk dělá trading nebo market making, jak jsi říkal, tak nemůže čekat pár sekund, než se mu neuronka spočítá, co by asi tak ten agent udělal, protože pak už je všechno pryč. A to mi připomíná podcast, co jsme tady měli s Qminers, kde jsem začal chápat, proč si šel do tohohle trhu.

Docela mě překvapilo, jak málo machine learningu vlastně v market makingu je. Tím, že se optimalizuje na rychlost, je to mnohem víc pravidlové, co nejvíc základní, co nejčistší, nejjednodušší matika a nejrychlejší výpočet. Hra se hraje čistě v rychlosti, ne v nějaké velké chytrosti.

Vaše propozice je používat state-of-the-art reinforcement learning a jiné AI metody, což mi přijde jako trochu opačný princip. Tak co to znamená? Proč to nikdo nedělá?

To je skvělý dotaz a můžeme se o tom pobavit víc, protože je to kombinace několika důvodů. Můžeme začít tím, co vlastně znamená, když řekneme, že to nikdo nedělá. Jaký je ten současný stav věcí, co ostatní firmy dělají?

Existují dnes extrémně úspěšné firmy, naopak bych skoro řekl, že všechny ty nejúspěšnější světové tradingové a market making firmy už dnes skutečně hodně používají deep learning. To, čím jsme jiní my, je to, že to posouváme ještě o krok dál: nepoužíváme jen klasické deep learningové metody, ale aplikujeme reinforcement learning k tréninku agentů.

Trošku víc technicky – jak si to představit, můžeme si to spolu projít, abychom to chápali stejně.

Když mluvím o tom, že velké úspěšné firmy používají learning nebo deep learning, tak si to lze představit tak, že mají modely, které se učí na historických datech, aby predikovaly, kam se cena nejspíš pohně. Pak mají další modul, který podle predikce rozhodne, co dělat – třeba podle pravidel, která kombinují, kolik chtějí vydělat, jak moc chtějí být bezpeční a jak mají portfolio. Ten modul pak třeba řekne: „Ok, chci teď koupit.“

Toto je podobné jako v jiných oblastech, třeba ve hrách, kde se dávno používá reinforcement learning, ale v tradingu to dosud nebylo plně využito. Reinforcement learning zde umožňuje, aby se celý systém učil jako jeden velký agent – neurčitě ne odděleně predikci a potom pravidla, ale celou strategii najednou – a z vlastní zkušenosti se učí, co bylo dobrý nebo špatný nákup, a podle toho přizpůsobuje své chování.

Takže to je základní přehled současného stavu v learningu v tradingu a market makingu a pak se můžeme vrátit k tomu, v čem je náš přístup jiný.

Pokud chcete, mohu text ještě více upravit, zkrátit nebo naopak rozšířit.

Jasně, tady je opravený text s lepší gramatikou a interpunkcí:

Jež ty analytické metody. Povídej. Tak to je možná filozoficky zajímavé – jak se na to koukat. Teďka se na to můžeme dívat úplně přes ten přístup first principles. Když si řekneš, někdo ti dá úlohu, jak ji půjdeš řešit? Prostě ti někdo řekne: „Hele, tady mi vyřeš nějakou hádanku.“ Ty se nad tím zamyslíš a nějak ji vyřešíš. Nebo ti někdo řekne: „Tady máš čtverec, spočítej jeho objem.“ Tak zase přemýšlíš, jak to vyřešit, a k něčemu dojdeš.

Teď různé problémy lidé v historii řešili různě. Typický příklad, kde se používají nějaké analytické metody nebo rovnice, abychom popsali svět, a potom vyřešili, co tam vlastně udělat, je třeba ve fyzice. Když ti řeknu: „Hele, hodíš těžký míč tímhle úhlem, jak daleko dopadne?“ – je přirozené si říct: „OK, použiju tenhle vzoreček, tuhle rovnici.“ A to je přesně ono.

Protože model odpovídá stavu světa? Přesně tak. Jak jsi řekl úplně správně, analytický model, rovnice, kterou si napíšu na papír, skvěle popisuje tu situaci, která se děje. A tohle platí v mnoha oblastech fyziky, kde jsou lidé zvyklí používat tyhle analytické modely a rovnice, aby popsali svět a vyřešili, jak to vychází.

No a z historických důvodů v tradingu to je hodně podobné, i když tam je to trošku legrační, proč tam primárně přišli fyzici. Ti byli zvyklí popisovat realitu přes analytiku, a protože byli často matematici, tak jsou zase zvyklí popisovat všechno rovnicemi. Najednou, když se dostali k tradingu, co jiného by dělali, než že začali popisovat chování trhu pomocí analytických rovnic?

Takže tohle je pěkné vysvětlení, jak to vzniklo a proč se lidé na první pohled snaží modelovat trhy analiticky, podobně jako jiné jednoduché věci, u kterých se dá jasně předpokládat chování. Ale tady není jediný důvod, proč by se trhy měly chovat podle mého analytického modelu.

A pak se to člověk může samozřejmě snažit komplikovat, ale na konci dne je to jako kdybych ti řekl: „Napiš tady analytickou rovnici pro self-driving.“ Vidím v tom určitý jazyk. Na trzích mě baví, jak jsou důležité, jak popisují stav světa, ale zároveň je na nich hodně aktérů, jsou chaotické, mají šum i nevysvětlitelné jevy. Takže chápu ten rozdíl oproti fyzice, a to je super.

Vidím tam podobný jazyk i u NLP, kde pravidlový model jazyka se tady vyvíjel dlouho, pořád se zlepšoval, dosáhl dobré úrovně, ale pak přišly výpočetní možnosti a výkon a rozsekali to na tokeny a najednou to funguje lépe než kdy dřív. To mi přijde jako dobrá analogie – místo manuálního popisu to nahradíš učením.

A přesně o tom jsem mluvil, že v dnešním světě velkých úspěšných systémů hlavně takhle postupují. Místo aby si to snažili ručně popsat...

Pokud chceš, můžu pokračovat, případně text zkrátit, či upravit styl. Stačí říct.

Tady je opravený a upravený text pro lepší srozumitelnost a plynulost:

Touhle analytikou zároveň trénují nějaké modely na historických datech. Super. Co se týče burzy, je to velký trh, stejně jako u Qminers, které jsme tu měli – vybírali si problémy, protože je tam spousta možností různých přístupů a řezů, kterými si můžeš data připravit. Není to jenom o jedné jednotce, kterou si vyberete vy, tedy jak jste si zvolili vyhledávací pole nebo instrumenty. Naopak, budujete takzvaný šelmastroj, podobně jako ten v DeepMindu, který by uměl hrát jakoukoliv hru – tenhle šelmastroj pak bude umět trénovat na libovolných instrumentech.

Myslím, že jsi to popsal úplně stejně, jako já to vysvětluju kohokoliv. Je to opravdu tak, že se snažíme spíš postavit “šelmastroj” – algoritmus, který nakrmíme daty z konkrétního instrumentu. Podobně jako když nakrmíš algoritmus daty z partií šachů nebo go, dostaneš ten samý algoritmus, ale hraje úplně jinou hru, protože má jiné vstupní data. To je přesně to, co se snažíme vybudovat my.

Není to “nestartupové” v tom smyslu, že by se nekonečně prodlužovala “runway” – že bys zase a zase musel od začátku vyvíjet MVP pro nové oblasti, jako jsme to třeba udělali pro krypto. Na druhou stranu existují určité trade-offy mezi univerzalitou a specializací, o kterých jsi mluvil dřív.

Možná začnu – je zajímavé, že někteří by tvrdili, že to je “nestartupové”, ale naopak je to hodně startupové v tom, že je to dost “crazy” projekt. Když to jednou začne fungovat, škáluje to opravdu rychle. To ale neznamená, že to zpočátku vůbec nefunguje a najednou zasáhne 100 000 produktů naráz. Je to tak, že my tu technologii stavíme genericky, ale pragmaticky musíme začít s prvními produkty, na kterých to začne skutečně fungovat na americké burze. A postupně přijdou další – druhý, čtvrtý, osmý produkt a tak dále, a to se bude škálovat.

Přesně to jsme dělali i u prototypu pro krypto – chtěli jsme ukázat, že jde o generickou technologii, která umí obchodovat víc produktů najednou, pokud jí do systému nakrmíme více různých dat. Ale museli jsme si vybrat pár vhodných, se kterými je dobré začít.

Super. Ještě jedna otázka, která mě napadla zejména kvůli Qminers před pár měsíci – co rychlost? Market makeři a trading obecně vybírají jednodušší metody kvůli optimalizaci rychlosti, protože trh se hýbe extrémně rychle. Když rozhodnutí neuděláš dostatečně rychle, uteče ti příležitost a vždycky jsi o krok pozadu. Musíš být co nejblíž tomu “teď a tady”, protože ten pohyb trhu je tak rychlý.

Jak se vy díváte na tento problém? Jsou vaše modely zaměřené spíš na větší, dlouhodobější trendy, které nejsou tak volatilní? Nebo spíš věříte, že když technologie doběhne, tak to lze škálovat a rychleji vypočítat? Nebo řešíte i tyto inženýrské a optimalizační problémy?

Určitě je řešíme, ale je to o trade-offu... (pokračování by záleželo na dalším textu)

Pokud chceš, mohu ti text i rozdělit do více odstavců nebo jakkoliv dále upravit.

Jasně, tady je opravený text:

Vysvětlit, v čem je to trade-off. K Jumaru si myslím, že jsou určitě rychlejší než my, ale možná, že vždycky i rychlejší budou tím, co oni z principu dělají. Samozřejmě mají hrozně šikovný tým, který jim to dobře optimalizuje, a určitě z těch tradingových firem, které dělají tenhle klasický přístup market makingu, si myslím, že jsou nejšikovnější tady v Praze, za mě určitě.

A ten trade-off, který jsem zmínil, je mezi rychlostí a kvalitou rozhodování. Když si to představíš jednoduše, tak se buď můžeš rozhodnout hrozně rychle: něco se stalo, ty si teď řekneš „OK, co to asi znamená?“. A můžeš reagovat velmi rychle, ale to také znamená, že tvoje rozhodování nemůže být nějak zásadně složité. Nebo na druhou stranu na tom můžeš dlouho přemýšlet, dlouho dumat, takže vymyslíš něco lepšího, ale zase ti to nutně trvá déle, než tu akci uděláš.

A to je přesně propojené s tím, kolik výpočtů (flopů) uděláš. Buď máš na konci dne jednoduchá, rychlá pravidla, která se ti spustí na burze hrozně rychle, anebo čas trávíš tím, že spočítáš svou neurónovou síť. Ta bude samozřejmě pomalejší, ale třeba tam uvidí něco zajímavějšího. A my jdeme spíš s tou šelmastrem budovat tady boha burzy. Chceme spíš tu neurónku, která se na chvilku zadumá, co se asi stalo.

A aby to nevyznělo, že nám rychlost nezáleží, to rozhodně není pravda. Spíš jde o to, že nikdy nebudeme úplně super rychlí mezi tím nejrychlejším hráčem na trhu, ale pro nás je velmi důležité, jak rychle dokážeme spočítat naši neurónku. A jsou to hrozně zajímavé inženýrské výzvy, jak spočítat feedforward pass těch neurónek.

Kdybych neslyšel tvou předchozí cestu a cover science, Player of Games a tak dál, znělo by mi to skoro jako „too good to be true“, ale i když jsem o Equilibrae věděl a věděl jsem, že tady děláte něco úžasného, jsem dost nadšený a hrdý, že to vzniká tady v Praze.

Co tebe a váš tým čeká letos? Co jsou hlavní výzvy? Říkáš, že to testujete na americké burze, tak předpokládám, že tohle bude pokračovat. Kdy to začne běžet, kupovat a prodávat?

To je určitě naše největší exciting challenge letos, protože jedna věc je, že jsme měli prototyp na kryptu, což je fajn, a myslíme si, že to bylo poprvé v historii, kdy někdo nasadil reinforcement learning na trading neurónku, která fungovala pěkně na kryptu, což je další významná vlaječka.

Teď chceme zapíchnout tu největší vlaječku – dokazat rozjet tyhle algoritmy na americké burze. Myslíme si, že jsme zatím na dobré cestě, ten pokrok, co máme, simulace a všechny výsledky vypadají velmi dobře.

Ale je to hromada těžké práce. Výzva je v tom, že letos potřebujeme co nejdřív zvětšit náš tým, hlavně na inženýrské straně.

Dej vědět, pokud chceš text ještě víc zjednodušit nebo upravit!

Tady je opravený text s úpravami pro lepší srozumitelnost a plynulost:

Protože stavět tu infrastrukturu a trénovat tyhle modely je hrozně náročné, málokdo to dokáže. A je tam i spousta dalších věcí, s kterými určitě potřebujeme pomoct, ať už je to opravdu kvalitní software engineering, nebo nějaká low-level optimalizace. Je tam strašně moc výzev a myslím si, že nikde jinde v Praze není příležitost se do toho takhle přičichnout. Když chce člověk ty samé věci zkusit, musí jít do DeepMind nebo OpenAI. A jestli to chce dělat tady v Praze, tak si myslím, že jiná možnost není. Takže ta výzva je pro nás to postavit, nasadit a na tom intenzivně makat, makat rychle. Tohle nám určitě pomůže.

A potom je dobré říct, že jsme čím dál víc konvenční, že opravdu stojíme před něčím, co je minimálně stejně průlomové co do dopadu, možná i víc revoluční, jako všechny naše předchozí úspěchy. V tom smyslu, že pokud opravdu budeme první na světě, kdo prozkoumá tyhle moderní AI metody pro trading, tak ten potenciál škálování těchto metod je obrovský. Když si člověk představí analogii k tomu, jaký progres tyto metody zaznamenaly třeba v oblasti LLM nebo hraní her, ten pokrok po prvotním průlomu a následném škálování a zlepšování algoritmů byl naprosto neuvěřitelný. Je to tak rychlé, že tomu člověk ani nevěří. Já si myslím, že my se do toho samého stavu můžeme během příštího roku dostat i v tradingu na americké burze.

To zní neuvěřitelně, držím moc palce a děkuju, že jsi tady povyprávěl svůj příběh. Díky a věřím, že tady rozhodně nejsi ty nebo někdo z vašeho týmu naposled. Moc rád se podívám zase pod kapotu nebo na nějakou konkrétní doménu z těch mnoha, co řešíte. Já díky moc za pozvání.

Děkujeme, že jste doposlouchali až sem. A díky taky našim partnerům a členům Data Talk klubu, kterými jsou Impex, Saska, Bystreet, Colors of Data, Revolt BI, GoodData, Keboola, Emark, Carldata Company, Data Mind, Notino a Flo.

A pokud chcete zůstat v obraze ohledně české datové scény a globálních datových technologií, nezapomeňte se registrovat k odběru našeho týdenního newsletteru na datatalk.cz.

Nechť vás provází data.

Pokud chceš, můžu text ještě více upravit do formálnější podoby nebo naopak uvolněnějšího stylu.

Podcast

Data Talk #130: Martin Schmid (EquiLibre Technologies)

Strojový přepis

Odebírejte Data Talk