Data Talk #85: Jan Cuřín a Josef Vopička (The MAMA AI)

Tento díl podcastu Data Talk je o Mámě. Právě tak totiž láskyplně nazývají svoji firmu dva ze zakladatelů MAMA AI, Honza Cuřín a Pepa Vopička. Na začátku uděláme výlet do minulosti, do 90. let, kdy vznikla v Praze pobočka IBM, která se posléze stala vývojovým centrem produktu Watson. Právě na základě zkušeností a dlouholetého přátelství z IBM se rozhodla šestice zakladatelů MAMA AI společně s dalšími 19 klíčovými lidmi založit vlastní firmu zaměřenou na AI produkty, zejména v oblasti řečových technologií. Moderátoři Hynek Walner s Jirkou Vicherkem zpovídají Honzu a Pepu a vy se dozvíte, jak se jim povedlo opustit IBM v dobrém i kde vzali první zakázky k uživení 25 členného týmu. Taky zjistíte, jak se řídí firma v 6 zakladatelích, proč má dnes MAMA AI již několik dceřinných firem a jak se dá propojit konzultační činnost s vývojem vlastních produktů. Hlouběji se podíváte i na technologie, konkrétně to, jak vypadá vývoj syntetický hlasů, jak doménu text-to-speech proměnily velké jazykové modely i na use casy jednotlivých produktů jako je Telma AI nebo projektů jako jsou syntetičtí moderátoři rádia Express. Zároveň se podíváme hlouběji do toho, jak se vlastně tvoří syntetické hlasy nebo proč je pro MAMA AI důležité držet produkt end-to-end včetně vlastní cloudové infrastruktury. Užijte si nový díl Data Talk podcastu!

Strojový přepis

Dobrý den, moje jméno je Jirka Vyšarek.

Jako student po ukončení studia jsem začal chodit na brigády, protože jsem už jako inženýrský absolvent specializovaný na téma rozpoznávání řeči. Bylo tedy přirozené, že mě tehdejší šéf Hanza Šedivý pozval jako studenta a já jsem tak mohl začít pracovat s technologiemi v rámci IBM.

Možná ještě mohu něco dodat k Fredriku Jelinkovi. Vlastně to byl člověk, který začal používat statistický přístup ke zpracování jazyka, zejména v oblasti rozpoznávání řeči. V té době se rozdělovalo rozpoznávání řeči na akustický model – tedy model pracující s vlnovým signálem, který je pro člověka základní, a na jazykový model, jenž dnes kolem sebe vyvolává mnoho pozornosti. Už tehdy se jazykový model začínal vyvíjet.

Bylo zajímavé, že Fredrik Jelínek poprvé použil takový přechod z jedné technologie nebo oblasti na druhou – z rozpoznávání řeči přešel ke strojovému překladu. Model strojového překladu tehdy fungoval tak, že byl vlastně „zašuměný“. Například ve francouzštině měla být vyjádřena myšlenka, která se poté uhlazovala jazykovým modelem, aby výsledná věta měla správnou formu v cílovém jazyce, v tomto případě angličtině. Takže použil technologii z rozpoznávání řeči na strojový překlad.

Možná známý je také citát Jelínka: „Když vyhodím lingvistu, tak se mi úspěšnost rozpoznávače zvýší.“ To byla jeho známá hláška, která byla mezi linguisty velmi populární. Nicméně ji trochu později upravil. Například při některém výročí ACL (Association for Computational Linguistics) říkal něco jako „někteří z mých přátel jsou lingvisté“, čímž se snažil dřívější výrok mírně napravit.

Z té doby máme také například Luboše Ureše, který byl na začátku vlastně prvním zaměstnancem českého IBM, který se vrátil z Ameriky a pak s námi spolupracoval. Je spoluautorem jednoho ze základních článků o strojovém překladu, tzv. systému Candide. To je také zajímavé.

Pojďme možná trochu více do technikálií. Jak vypadala práce v IBM v oblasti umělé inteligence koncem 90. let? Věřím, že nejen pro mě, jehož hlavní vzpomínky na 90. léta jsou právě spojeny s čtením odborných textů (například od Kačera a dalších), bude toto téma docela zajímavé.

Mohu říct něco o rozpoznávání řeči. Když jsem přišel jako student, trénovaly se tehdy modely pro telefony, pro serverová řešení. Šlo o velké modely, které běžely na velkých serverech. Poté jsme se začali specializovat na embedded svět. To znamená, že jsme vyvíjeli malý engine napsaný v C či C++, schopný běžet na tehdejších handheld zařízeních, například na nějakých zařízeních se systémem ARM. Tento engine byl implementován a dodáván například do Hondy, kde umožňoval ovládání klimatizace, navigace a dalších funkcí.

Následovalo několik generací těchto enginů, které se později vrátily zpět na servery a vznikal tak konvergentní engine. Tyto enginy se tedy mnohokrát přepracovávaly a zlepšovaly.

Jak vypadalo R&D v Praze? Z Ameriky se sem vraceli lidé s rodinami a někteří „brainy“ jsme dostali zpět sem. Když tam přicházel, kolik tam bylo lidí a jak to vypadalo? V době, o které mluvíme, nás tam bylo zhruba osm až dvanáct lidí, později se skupina rozrostla až na přibližně padesát, možná i o něco více. To bylo v pražském IBM centru.

Honzo, ty říkáš, že jsi tam byl od roku 2004? Ano, objevil jsem se v tom kanceláři.

Možná ještě zmíním třeba Martina Čmerka, který je také „borda“, jak my říkáme. Z naší šestice máme i předchozí historii z Matematicko-fyzikální fakulty, ze studia formální a aplikované lingvistiky. Tehdy jsme se společně věnovali statickému strojovému překladu, který souvisel i s Jelínkovou prací, protože jsme používali metody z článku Luboše Ureše. Snažili jsme se to reimplementovat pro češtinu, pro překlad mezi češtinou a angličtinou.

Trošku to bylo spojeno s IBM, protože jsem pracoval pro firmu Intax, která tehdy (v roce 1996) překládat operační systémy pro IBM. V rámci své diplomové práce jsem extrahoval slovníky z paralelních textů, což byly přeložené operační systémy nebo manuály. Snažil jsem se z nich vytvořit slovník, který by zajistil konzistenci lidských překladatelů, protože jich bylo více, aby věděli, jak už jejich předchůdci překládali podobné texty.

V této době jsme také sbírali data pro trénink. Například jsme chodili do časopisu Reader's Digest a shromažďovali překlady spíše lehkých žánrů, ze kterých jsme vytvořili paralelní korpus. Ten je dnes součástí Pražského závislostního treebanku a na jeho tvorbě se podílel i Jura Hvelka, který dnes pracuje ve firmě Hinke. Zdravíme kolegu Juru. Takže v této době vznikaly první paralelní korpusy mezi češtinou a angličtinou.

A jak jsi se rozhodoval dál pokračovat ve studiu? S Martinem jsme měli podobné zájmy a šli jsme do startupu, kde nás přemluvil Matthew Gertner. Šli jsme do firmy Praxis, která se pak přejmenovala na Schematics, kde jsme nejdříve pracovali na strojovém překladu a vytvářeli slovníky pro firmu Trados, která tehdy vyvíjela translation memories – nástroje pomáhající překladatelům práci.

Později jsme se věnovali XML technologiím. I když Matthew dnes pokračuje dál se svou firmou Salsa Software, my jsme se s Martinem vrátili zpět na fakultu, na Ústav formální a aplikované lingvistiky, udělali PhD a v roce 2004 nastoupili do IBM, kam nás tehdy přemluvil Honza Kleindienst, další z našich spolupracovníků („boardista“). Nastoupili jsme na pobočku na Chodově, která tehdy právě přecházela z Urnovanské.

Tehdy už byla IBM skupina věnovaná umělé inteligenci větší, kolem třiceti lidí. Já jsem se postupně částečně odpojil od strojového překladu a začal jsem dělat dialogové systémy, které se tehdy označovaly jako human-computer interaction, tedy nějaké rozhraní pro komunikaci s počítačem. Dnes tyto technologie známe například jako četovací rozhraní.

Měl jsi šťastnou ruku s přechodem z překladu na dialogové systémy? Ano, ze současného pohledu mám takový pocit, že to bylo dobré rozhodnutí.

Kdy v IBM přišel projekt Watson? Máme pocit, že v Praze bylo Centrum excelence a IBM Watson má silnou českou stopu. Kdy se to stalo? V roce 2011 byl tzv. Jeopardy challenge, kdy počítač porazil lidi ve hře Jeopardy v Americe. Ve finále proti sobě hrála trojice lidí a počítačový systém Watson od IBM. Watson byl systém založený na různých technologiích umožňujících odpovídat na otázky v soutěžním stylu, podobně jako v pořadu „Chcete být milionářem“ nebo „Riskuj“.

Watson tehdy vyhrál, což vyvolalo velký marketingový ohlas a byla založena speciální divize Watson. My jsme se k této divizi připojili v roce 2014 a byli jsme její součástí od jejího založení. Dnes se v rámci IBM AI (umělá inteligence) označuje právě tato oblast a cloudové služby, které v té době nabízely například strojový překlad, dialogové systémy a rozpoznávání a generování řeči (STT – speech to text, TTS – text to speech).

Zajímavé bylo, že technologie byly plánované jako cloudové služby, tedy běžely jako software as a service (SaaS), což je dnes běžný model i u mnoha dalších řešení.

Co jsi dělal konkrétně v roce 2014 v týmu Watson?

Měl jsem štěstí, že v roce 2011 jsem odjel do IBM v Americe, kde jsem pracoval tři roky na různých projektech. Trénovali jsme akustické modely, ale také jsme vyvíjeli audiovizuální modely – kombinující zvuk a vizuální vstup (například pohyby rtů), které zlepšovaly rozpoznávání řeči.

Pracovali jsme také na projektu robotické ruky, která dokázala najít lék v skladu a podat jej pacientovi, přičemž bylo potřeba hlasové ovládání této robotické ruky.

Na konci roku 2013 jsem se vrátil do Prahy a pokračoval jsem v týmu, který vyvíjel základní jádro pro rozpoznávání řeči. Můj „stack“ byla tedy práce na engine pro rozpoznávání Řeči a vývoj nových základních technologií pro rozpoznávání řeči.

Původně jsme dělali embeddované aplikace, ale s rozšiřováním SaaS a cloudových řešení jsme přešli na serverová řešení pro rozpoznávání řeči.

Byl tu jeden velký krok, který nám byl zpočátku podezřelý a někteří jsme mu moc nevěřili – přechod z programování v C či C++ na Python. Vždycky jsme se snažili o bezpečný, rychlý a uzavřený kód s co nejmenší latencí a maximální přesností. S rozvojem SaaS však přišel tlak na rychlejší nasazení modelů, proto jsme byli donuceni přejít na Python jako programovací jazyk pro serverové služby. Dnes je to již standard.

Ano, v roce 2014 Python vypadal trošku jinak a běžel trochu jinak. Začali jsme s verzí Python 2.x.

Rád bych také zmínil, že v rámci IBM nebylo jednoduché prosadit češtinu. Čeština však byla 12. jazykem, který jsme přidali do těchto služeb a byla tak začleněna do pracovní sady cloudových služeb, jako byl například asistent Watson, který řídil dialog v češtině, rozpoznávač řeči a strojový překlad. Český TTS vlastně IBM neměl, ale překlad ano. Čeština se tak dostala mezi špičkové podporované jazyky.

Vývoj pokračoval, Poláci také intenzivně přispívali, ale my jsme měli výhodu být přímo tady v Praze, a tak jsme měli silnou stopu v projektech.

Nyní jsme se posunuli na časovou osu k roku 2021, kdy vznikla společnost Mama AI. Přestože bylo mezi roky 2014 až 2021 ještě sedm let v IBM, zajímá mě, jaké byly hlavní milníky této doby a zda se v té době už rodila myšlenka založit vlastní firmu.

Myslím, že myšlenka na vlastní firmu se postupně rodila, ale v té době jsme měli už klíčové technologie běžící na cloudových službách: rozpoznávače řeči, generování řeči, dialogové systémy (řízení dialogu, Watson Assistant) a překlad (Watson Translation).

Byli jsme součástí IBM cloudu, máme i dnes kolegy, kteří byli u jeho vzniku. IBM Cloudové řešení bylo čistě cloudové, běželo na veřejném cloudu, ale vyvíjel se i model „cloud back for data“, což znamenalo, že zákazník si mohl pořídit cloud on-premises, tedy provozovat technologie vlastním způsobem.

Dnes už je toto běžné u mnoha firem, ale my jsme měli lidi, kteří uměli od základu postavit cloudové řešení – build a run včetně Kubernetes.

Máte tedy silnou a globální expertízu.

Kdy jste přesně založili firmu Mama AI? V roce 2021?

Ano, v roce 2021. Byla to doba covidová, takže jsme měli víc času se zamyslet, jak vše správně nastavit.

Rozhodnutí jít do vlastní firmy vzniklo trošku dříve. Dlouho jsme byli v korporátu, přemýšleli jsme, co bude dál, jaké jsou možnosti do budoucna, jak řešit stárnutí a budoucnost kariéry. Přišlo nám, že korporát nás trochu brzdí v tom, co bychom chtěli dělat, protože v korporátu je vždy složité prosadit věci.

Řekli jsme si, že nastal správný čas vystoupit z „hnízda“ a postavit se na vlastní nohy. Ukázalo se, že s námi byly většinou dobré vztahy, lidé nás podporovali a vytvořili jsme novou společnost Mama AI. Začali jsme přibližně na 25 lidech, kteří byli dřívějšími kolegy z IBM.

To je moment, který mě fascinuje. Z IBM Praha, Centra Excelence, na konci roku 2020 odešlo 25 lidí, včetně šesti velmi seniorních.

Jak jste si představovali, jak to bude fungovat? Bylo jasné, že těch šest seniorních bude zakladatelů?

Ano, přesně tak, šesti zakladateli.

Tak to v takové sestavě rozhodně není běžné. Jak jste vybírali zbytek týmu? Jak probíhalo odchází?

Nejprve vám vymenuji těch šest zakladatelů, protože jsme to asi nezmínili. Jsme to my: Pepík Vopička, já (Jirka Vyšarek), Honza Cvrín, Honza Kleindienst, Kuba Krchák, Honza Macek a Martin Šmejrek. To je šest lidí.

Nevím přesně, jak to vzniklo. Poprvé jsme se prostě sešli, vše domluvili a pak jsme si vybrali zbytek lidí, kteří se k nám připojili a kryli nás. Mama AI je akciová společnost a…

(text končí ve středě věty)

Jsou zde zakládající ceny, takže to není tak, že bychom to byli jen my šest, ale i ostatní jsou s námi, jsou součástí té vlastnické skupiny z tohoto pohledu. A možná k Mama AI – vlastně si říkáme Mama AI, ale oficiální název té společnosti je Mama AI, což znamená „matka“, která může mít případně další spin-offy. Je to takzvaná Societas Europaea v latině, což je evropská akciová společnost.

Hlavní výhodou by mělo být, že se může po Evropě celkem jednoduše přesouvat bez právních komplikací. Zatím jsme se však nepřestěhovali, stále jsme v Praze, ale cítíme zde revoluční atmosféru. A co se stalo dál? Změnili jste kanceláře a potkali jste se tam na stejném obědě? Přechod byl čistě lokalizační, první klient byl IBM, takže jste si pořídili vlastní hardware, otevřeli ten samý repozitář a pokračovali v práci, jako by se nic nestalo?

Samozřejmě, dostali jsme repozitář, i když jsme si ho nemohli vzít s sebou, a poté jsme přemýšleli, co dál, jaké budou další technologie, kterým směrem se budeme vyvíjet a jak se trochu odprostit od těch našich předchozích projektů. Samozřejmě je to tak, že tím, že jsme to dělali léta, nás to stále táhne, a občas možná i některé technologie, třeba…

My nejsme úplně hvězdní nebo nejlepší, ale protože je máme rádi, tak je prostě děláme. Snažili jsme se vymyslet, kterým směrem jít. Svým způsobem nás to uvolnilo, protože najednou můžeme dělat úplně cokoliv. Ten prostor je obrovský, co všeho se dá vyzkoušet, a proto zkoušíme.

Jaký byl váš rozhodovací proces v tomto období? Byla to historická expertíza, kterou máte, a řekli jste si „pojďme dělat tohle“ a pak začneme dělat další věci, nebo jste měli touhu vyzkoušet něco úplně jiného? Jak vypadal první půlrok? Chodili jste po trhu a oslovovali potenciální klienty s dotazem, zda by nechtěli tým z Vocna?

Možná trošku ano, protože jsme měli nějaké zákazníky, které jsme historicky znali, ale spíše jsme se snažili zjistit, co ještě zákazníci chtějí, a hledali jsme přesah do trochu jiných oblastí. Z hlediska byznysu je to asi tak, že začínáme konzultačně – napřed zjišťujeme, co zákazník chce. Například na jednom případu odladíme nějaký POC (proof of concept) nebo projekt, jak by to mohlo vypadat. A pokud se nám zdá, že je to replikovatelné nebo že to někdo další chce, snažíme se to produktizovat a přivést do produktové fáze.

Prvních šest měsíců znamenalo podporu od IBM, rozcházení se v dobrém a dokončování produktů, předávání řešení kolegům v Americe. Současně existovala velká skupina, která se zabývala Vocno asistentem, což je IBM dialogový systém. Lidé i firmy za námi přicházeli s potřebou pomoci s tímto asistentem, řešit podobné problémy a vymýšlet, jak asistent má fungovat. To byly takové začátky.

Co mě na tom fascinuje nejvíce, je to, že IBM mohla snadno přijmout nějaké lidské rozhodnutí, které by bylo motivované případným rozhořčením, ale vyšlo to dobře. Jsem opravdu rád, že jsme se rozcházeli v dobrém a že to funguje. Z toho, co slyším, myslím, že to byla situace win-win, že vy jste měli největší znalosti, vy jste na tom pracovali a bylo logické s vámi pokračovat ve spolupráci.

Takže jste začali konzultovat a chodit po trhu, měli první klienty, což je super. Když zakládáte firmu s dvaceti pěti lidmi, tyto příjmy se opravdu hodí. Co jste začali produktivizovat? Stavěli jste od začátku úplně to samé, co jste měli u IBM, tedy produkty, které jste pak dělali znovu, lépe a podle sebe? Postavili jste si vlastní „kasíno“?

Trochu ano. Jeden produkt, kterému říkáme M-Search, je semantické vyhledávání. To jsme v IBM vlastně ani nedělali, takže jsme začali od nuly. Jedná se o technologii používající embeddingy na úrovni slov, vět nebo celých dokumentů k porovnávání a vyhledávání v dokumentech. To byl takový první odlišný produkt od naší historické činnosti.

To začalo tím, že jsme měli zákazníka, který měl zájem něco takového řešit. Vyvinuli jsme technologii, která pomáhala v ticketovacím systému. Oni měli nasazený například ServiceNow a my jsme tam přidali něco, co hledalo podobné tikety v minulosti vyřešené, což urychlilo řešení. Při testování se ukázalo, že v 87 % případů našli klienti na prvním místě to, co hledali. Úspěch tohoto projektu byl pěkný.

Tento projekt se později přetransformoval v produkt, který dnes nazýváme M-Search, a k němu patří i další návazné dokumenty. Asi zmíním i M-Voice, ten zase tvoříme pod značkou „M“, stejně jako další produkty.

V době covidu jsme pracovali na covid reportu, což souvisí s E-Search. E-Search je technologie, která pomáhá uživatelům nacházet dokumenty, a v kombinaci s velkými jazykovými modely pomáhá orientovat se v jejich datech – ať už strukturovaných nebo nestrukturovaných.

Pepík říkal, že jsme automaticky generovali covid reporty pro 6288 obcí v České republice. Pro každou obec jsme připravili personalizovaný report založený na datech z ÚZISu (Ústav zdravotnických informací a statistiky). Bylo to krátké shrnutí vývoje za posledních 14 a 30 dní, zhruba jako krátký příběh pro každou obec.

Projekt běžel asi rok a půl až dva roky, během kterých jsme vygenerovali asi 2,5 milionu reportů pro všechny obce. Probíhalo to ve spolupráci s Mobilním rozhlasem, který měl webové stránky i mobilní aplikaci. Mobilní rozhlas se nyní jmenuje Nipolis.

Tento systém jsme tedy nasadili a byl to dobrý test, protože bylo třeba zajistit silný přístup k datům z celé republiky a schopnost generovat individualizované reporty pro jednotlivé obce a doručovat je lidem na telefony a weby.

Nyní jsi zmínil, že máte svůj vlastní cloud, což je pro mě poměrně netypické. Často se firmy spoléhají na běžné poskytovatele cloudových služeb. Proč máte vlastní cloud? Vyplatí se to, máte díky tomu jistoty? Kdo dnes staví vlastní cloud, Honzo? Proč to děláte?

Líbí se nám, že umíme servisovat celý proces od začátku do konce. Je důležité ovládat celý ten takzvaný full stack vývoj. Máme experty, kteří historicky pracovali v IBM na této platformě a dnes u nás vyvíjejí technologie běžící na Kubernetes. Vše je nasazeno jako software as a service.

Výhodou postavenou od nuly je, že známe všechny detaily a když někdo přijde a řekne, že chce on-premise řešení, ale nemá Kubernetes a chce pouze virtuální počítače, víme, jak to nasadit. Jsme schopni to provozovat téměř kdekoliv.

Expertíza vlastního cloudu je tedy důležitá a máme zákazníky, kteří se obávají mít služby na veřejných cloudových platformách. Tím, že jsme tady v České republice, nabízíme i lokální hosting služeb.

A všechny vaše produkty běží na vašem cloudu? Týká se to například Telmy a globálních produktů? Sáhají si tyto produkty do serverovny v Praze?

Ano, o Telmě jsme zatím příliš nemluvili, ale byla to naše první centrální společnost. Telma znamená „telefonní máma“ a vznikla ve spolupráci se skupinou Tenos, která měla svoji telefonní ústřednu. Ta je u nich a my přes ni nabízíme technologie založené na umělé inteligenci.

Je zajímavé, že se tu kombinuje velké množství technologií, zejména neuronových sítí zapojených za sebou, což může být i nevýhodou – chyby se kumulují. Když někdo zavolá, musí se správně připojit audio, to se musí přepsat na text, ten se analyzuje, zjistí se, co chce volající, co jsou klíčová slova, potom to jde přes řízení dialogu v kombinaci s velkými jazykovými modely, které vygenerují odpověď, a nakonec je tu hlasová technologie, která co nejvíce přirozeně předá informaci zpět.

Zpátky k systému – tedy k této kaskádě neuronových sítí. Možná v budoucnu to bude jedna velká neuronová síť, ale zatím se to dělí na jednotlivé části.

Navážu na motivaci, proč jste začali investovat do syntézy řeči. V počátcích dialogových systémů v Telmě jsme používali hlasy třetích stran, většinou z velkých korporací, které jsou limitované a známé, a už jsou poslouchané. Proto jsme měli důvod investovat do vlastního hlasu, který bude atypický a specifický pro naše produkty. To byla hlavní motivace.

Co obnáší investice do syntézy řeči? V podstatě jde o studium nejnovějších technologií a sběr dat. Na úplném začátku nám kolega a jeho manželka věnovali několik hodin svého hlasu, které jsme nahrávali ve studiu jednoho kolegy na Strahově. Tak vznikly první hlasy, které se dnes používají.

Co technologicky následuje potom? Když máme nahrané audio, co se s tím dále děje?

Nahrávky musí být čisté a k nim jsou potřeba přesné přepisy. To znamená, že text se musí přesně shodovat s hlasovým záznamem. Data se pečlivě kontrolují a čistí. Je to podobné efektu motýlího křídla – když v datech zůstane pár chyb, možná to nebude na první pohled znát, ale kvalita hlasu se zhorší a objeví se chyby.

Po důkladné kontrole se data pustí do trénování neuronových sítí. Existuje několik sítí – jedna z nich z textu vytvoří spektrum, další síť přetvoří spektrum a predikuje délku hlásek, výšku tónu a jejich energii v čase. Poté vznikne spektrální obrázek. Následná síť, vytrénovaná na těchto spektrálních obrázcích a výsledném zvukovém signálu, na výstupu generuje zvukovou vlnu.

Kombinací těchto sítí vzniká model schopný převést text na hlas.

Co je na tom nejtěžší? Pro laika, který umělý hlas pouze poslouchá, je největší problém kvalita dat a kontrola přesnosti mezi textem a zvukem, nebo třeba konzistence výšky tónu? Co je tedy největší výzvou?

Největší výzvou je precizní vyčištění dat a volba nejvhodnější technologie. Pohybujeme se opravdu na hranici výzkumu, zkoušíme nové modely, různé embeddingy (znamenající způsoby práce s prozodií – délka, výška tónu a délka hlásek). Je to komplexní systém – když se něco pokazí, je to slyšet velmi rychle.

Je to také jiné pro různé jazyky? Má každý jazyk svůj specifický model, případně i svou neuronovou síť kvůli jazykovým odlišnostem?

Ano, existují i přístupy takzvaných end-to-end modelů, kde se trénuje přímo z psaného textu na audio, ale my si ponecháváme kontrolu v několika úrovních: nejprve text normalizujeme, tedy převedeme slova na způsob výslovnosti (například číslovky, zkratky), pak fonetizujeme – převedeme do hlásek podle mezinárodní fonetické abecedy. Tyto hlásky vstupují do první neuronové sítě, která odhaduje prozodii a vytváří spektrum.

Díky více krokům je ten proces přesnější a máme větší kontrolu.

Ještě k vícejazyčnosti: první kroky jako normalizace a fonetizace jsou jazykově závislé, ale samotné neuronové sítě, které generují zvuk, mohou být generické. Dokonce umíme i takové kouzlo, kdy stejným českým hlasem umíme číst anglický text, pokud je správně označen jazykovým tagem (například „EN“). S krásným českým přízvukem.

Chinglish. Chinglish chceme. Lokalizace.

Ještě jedna otázka: když už vytváříte syntetický hlas od začátku „na zelené louce“, co je specifického na hlasech značky M (MIM), co je jiného oproti tomu, že bychom vzali existující hlas a pouze modifikovali parametry jako hloubku, výšku tónu nebo rychlost, abychom ze základního hlasu vytvořili desítky různých variant?

Samozřejmě existují dva přístupy. Podporujeme SSML – jazyk pro řízení syntézy řeči, který umožňuje ovlivňovat prozodii, například rychlost řeči, hlasitost, výšku tónu. Dokonce umíme i efekty, například „helíový“ zvuk hlasu. Toto morfování hlasu je možné.

Ale pokud chcete zrekonstruovat hlas, který zní jako konkrétní osoba, pomocí parametrizace to není možné. To je rozdíl mezi tvorbou vlastního originálního hlasu a pouhou modulací existujícího.

Tímto jsem přepsal celý text do spisovné češtiny, zachovávajíc veškerý obsah, bez vynechání nebo zkrácení.

Také jsou velmi důležité například pauzy, nebo nádechy – takové ty věci, které člověk dělá vlastně mimochodem. Avšak právě tyto maličkosti člověka charakterizují, respektive jeho řeč. Na tyto systémy je potom potřeba mít opravdu kvalitní data, nedá se to oklamat tím, že jen vezmeme nějakou obecnou obálku a přeneseme ji na jinou osobu. Pokud chceme mít kvalitu, tak podle mého názoru je tento přístup nezbytný.

Důležitá je pro mě také barva hlasu. Ta je pro každého člověka unikátní a nedá se jednoduše vyjádřit parametry. Samozřejmě dnes existují firmy, a my to také umíme, které dokážou zachytit barvu hlasu z několika desítek sekund či minut nahrávky nového člověka, a podle toho poznáte, že jde o konkrétního člověka. Poznáte v něm danou barvu hlasu. Nepoznáte však, nebo neumíte tak dobře napodobit způsob mluvy, tj. styl, jakým člověk mluví, jak tvoří věty. My to neděláme, protože si myslíme, že existuje určitá etická bariéra vzhledem k možnosti zneužití těchto hlasových technologií.

Prodali byste své hlasy? Nabízíme tuto možnost. Můžeme si u vás koupit například hlasy Pepy na ústředně? Kdybych uměl mluvit, hlas bych daroval, ale řeč mi příliš nejde.

Jak produktyzujete své hlasové know-how? Jaké produkty nabízíte klientům? Máme například zákazníky, kteří přímo využívají hlasovou technologii. Možná se vrátím ještě k projektu Telma, která využívá hlas. Stavíme si systém od začátku s plnou kontrolou a umíme například kontrolovat, jak rychle člověk mluví. Takové charakteristiky jsou důležité i při komunikaci mezi člověkem a počítačem. Když člověk mluví pomalu, je lepší, když i systém na něj mluví pomalu. Detekce kadence řeči může ovlivnit, jakým způsobem mluví TTS (text-to-speech), tedy umělý hlas vrácený člověku, což přináší vzájemný rapor.

Měli jsme zajímavý projekt, kdy jsme starším lidem vytvořili systém, který kontroluje, zda užívají léky. Říká se tomu adherence, tedy míra dodržování léčby. Měli i lékové boxy, tedy hardware, kde měli léky uspořádané. Projekt byl ve spolupráci s firmou Direct People, která dodávala tuto technologii lékovek, tedy hardwarovou část. My jsme dodávali software pro navolávání, který kontroloval, zda lidé berou léky, a zároveň vedl denníček aktivit a nálad. Kontroloval, zda léky vzali a zda si jsou tím jistí. Pokud řekli, že nevědí nebo léky nevzali, byli jsme schopni kontaktovat rodinného příslušníka, který zjistil skutečnou situaci, buď osobně, nebo telefonem.

Pro tento projekt jsem připravil konkrétní ukázku, kterou si nyní pustím:

„Dobrý den, je váš digitální pečovatel Tomáš. Jaký jste dnes měla den?

Hodně hořký, ale šlo to.
Dobře, to jsou pro mě důležité informace. Trápilo vás dnes něco na vašem zdraví?
Špatně se mi dýchalo.
Děkuji, že mi takové věci říkáte, moc si toho vážím. Už jste dnes užila léky, které berete každý den?
Ano, užila.
Výborně, to je dobře. Zavolám vám zase zítra, abych se ujistil, že se vám vede dobře.
Děkuji, přeji hezký den.
Taky tak, Tomáško.“

Z této ukázky je patrné, že lidé jsou schopni si vytvořit vztah i k virtuální osobě, která jim každý den volá. Bylo zajímavé a hezké sledovat, že tento vztah vznikl.

Pro úplnost dodávám, že babička věděla, jak systém funguje, což bylo důležité a projektem jsme vždy informovali. Dokonce i poté, co jsme projekt ukončili, někteří lidé říkali, ať to necháme dále běžet, protože si na to zvykli. Jeden takový projekt zřejmě i nadále pokračuje.

Já osobně si také systém testuji na sobě, abych měl kontrolu, že funguje správně. Důležitá je pravidelnost sledování, kdy systém sbírá informace o denním dění člověka a funguje tak jako denníček událostí. Na základě těchto dat je možné sledovat například vývoj mentálního stavu v čase a podobně. Tento projekt nás velmi baví a doufáme, že v něm budeme nadále úspěšně pokračovat.

Osobně bych takovéto řešení rád outsourcoval do terapie, protože otázky bývají hodně podobné a líbí se mi, jak jsou na to navázány i emoční odpovědi. Když někteří lidé říkají, že stroje nemají empatii a nenahradí lékaře, vzpomenu si na některé své bývalé lékaře, jejich úroveň empatie a komunikační schopnosti, kdy mě třeba nepozdravili nebo mi nepoděkovali. Myslím, že v některých oborech dokáže umělá inteligence empatii překonat.

Jaké jsou další aplikace? Už jste zmínili Telmu a myslím, že i z této ukázky je vidět, že pokud jde o jazyk, řeč a vše mezi tím, máte komplexní expertízu end-to-end. Co se s tím dál dělo?

Na technologii, která možná trochu změnila celý svět, jsou velké jazykové modely, především GPT, které přišly v listopadu 2022. V naší oblasti výrazně pomáhají. Například v terapeutickém přístupu GPT umožňuje reagovat na odpovědi lidí, povídat si s nimi, detekovat jejich emoce a podpořit je. GPT dokáže velmi dobře pochválit, což je důležitá dovednost.

Samozřejmě je třeba být opatrný, aby systém neradil nevhodně, proto je nutná zpětná kontrola výstupů, zda odpovídají zásadám systému. To jsou další technologie, které k tomu využíváme. Naše výhoda je, že máme zkušenosti z dřívějších technologií a umíme GPT modely „řídit“, aby nedělaly chyby.

Byla to pro vás pozitivní změna, když svět najednou explodoval s GPT? Nebylo to spíš tak, že jste si říkali „teď to dělají všichni, můžeme to zahodit“?

Myslím, že to bylo spíš naopak. Začali jsme pracovat na vyhledávání informací již před tímto hype kolem GPT. Dnes se tomu říká RAG – Retrieval Augmented Generation, což znamená, že nad dokumenty jsme schopni vyhledat relevantní úseky a ty pak předáme modelu, který na základě těchto dat a otázky dokáže správně odpovědět. Například v právnické oblasti, kde máme celý český zákoník, umíme „vykousat“ paragrafy, které odpovídají na otázku týkající se pracovního práva, třeba výpovědi z pracovního poměru, a vrátit přesnou odpověď. Běžné GPT by odpovídalo spíš podle amerického práva nebo obecně podle internetových zdrojů, které mohou být nepřesné nebo falešné.

Tato technologie nám velmi pomohla. Navíc lidé se o ní začali více zajímat, protože o ní více slyšeli a četli, což přináší pozitivní efekt. Nevýhodou je, že mají někdy příliš velká očekávání, protože vidí pouze vrchol ledovce a krásné ukázky, a myslí si, že vše najednou bude fungovat perfektně, což není pravda. Co může být tak drahé? Hotové věci samozřejmě nejsou drahé, ale práce na datech, která je třeba správně rozdělit a naindexovat, stojí mnoho úsilí.

Jak vám tedy technologie GPT změnily podvozek, tedy jádro systémů, a také nabídku? Co bylo najednou možné, kam vás to posunulo?

V oblasti konverzační technologie je skvělé, že umíme generovat přirozenější odezvy. Ideální je to například v chatovacích doménách, kdy má člověk na stránce nebo v aplikaci chatovací okénko, kde může komunikovat. Lidé jsou zvyklí, že jim systém chvíli odpovídá, takže tam je čas na generování odpovědi. Pokud máme správně zadaná data na vstupu – což bývá nejtěžší část – můžeme docílit velmi dobrých výsledků. Často však firmy chtějí za hodinu mít hotový chatbot, ale pokud mají nepořádek v datech, chybí správné rozdělení do kategorií, nikdy nebude výsledek tak dobrý, jak si představují. Proto je stále potřeba data správně uspořádat, rozdělit do vhodných jednotek, například odstavců nebo v právech paragrafů. U nestrukturovaných dat je to o to složitější, musíme si správně definovat kolekce či jednotky, na kterých stavíme další technologie.

Zůstalo to tedy stejné – práce s daty je klíčová. Co se změnilo? Dnes má v projektech obvykle nějakou z těch komponent LLM (large language model), protože odemykají nové možnosti. Jsou ale projekty, kde použití jazykového modelu nedává smysl?

V syntéze hlasu jsou modely podobné architektuře jako velké jazykové modely – generativní neuronové sítě – ale trénují se na jiných datech a používají se v menším měřítku, ne s cílem pokrýt celý svět. Na straně rozpoznávání řeči vznikají obdoby velkých jazykových modelů, kde vstup je audio a výstup text. My například používáme velké modely od OpenAI pro určité účely. Nevýhoda je, že při složitých nebo nekvalitních zvukových záznamech modely ztrácejí kontrolu a vymýšlejí si nesmyslná slova, která nedávají smysl. U starších metod rozpoznávání řeči, které pracovaly se slovníkem a silným jazykovým modelem, takové chyby nevznikaly. Má to své výhody i nevýhody.

Stavíte systémy tak, že necháte některé části vygenrovat a poté na ně pustíte tradičnější metody pro monitoring, kontrolu kvality (QA)?

Toto zatím experimentujeme, nemáme to dosti vyřešené. Klasicky se používá tzv. ansámbl přístup, kdy se zpracovává stejný vstup ve dvou různých systémech a výsledky se porovnávají. To je oblíbený způsob, jak řešit nejasné situace a rozhodovat se, který systém dává lepší výsledek.

Další přínos LLM je v nové části, kterou nazýváme MDataChat – technologie pro lepší komunikaci člověka s daty. Tento přístup využívá velké jazykové modely i pro práci se strukturovanými daty, například tabulkami. Uživatel může klást otázky nad tabulkou a model vytvoří jakýsi SQL dotaz a následně odpověď v přirozeném jazyce. Podobně jako ve vašich Stories, kde se mluví o datech, zde je možné s daty komunikovat, doplňovat a ptát se na další informace. Systém si pamatuje kontext a umí odpovídat i na komplexní dotazy.

Samozřejmě je potřeba kontrola, zda jsou odpovědi správné. Máme pěkné demo, říkáme mu Titanic – používáme veřejná data o lidech na Titaniku, věku, zda přežili atd. Je možné ptát se například, kdo byl nejstarší, kolik lidí přežilo, jestli přežila Rose nebo Jack a systém správně odpoví. Dokáže agregovat důležitá data z tabulek a správně odpovídat. V našem produktu umíme kombinovat strukturovaná i nestrukturovaná data a na základě toho rozhodovat, zda odpověď bude spíše zvolena z nestrukturovaných dat formou delšího textu, nebo ze strukturovaných dat formou číselné hodnoty. Například: „Tolik a tolik zákazníků prodalo v roce 2024 tento produkt“. Jde tedy o „povídání si s vašimi daty“.

Vrátím se nyní k syntéze hlasu. Máte další známé a úspěšné projekty, které jsou veřejně dostupné, například On Air Express FM. O co tam jde? Prosím, popište to pro nás.

V zásadě nás oslovila firma Seznam, která má vizi virtuálních nebo syntetických moderátorů a chtěla jejich hlasy dostat do vysílání. Prvním motivem bylo, že u regionálního vysílání, které se většinou stanoví pro Prahu a střední Čechy, redaktoři tvoří obsah, který pak namlouvají moderátoři. Ale obsahu pro regiony chybí a místo něho tam hraje pouze hudba. Takže byla myšlenka přinést právě obsah specializovaný pro regiony i během těchto časových slotů.

Objednali si u nás první hlasy – hlas Báry, hlas Hačíko, který namlouvá zprávy či moderuje na rádiu Express FM. Později budou tyto hlasy moderovat i více pořadů a sez…

Nam si dále objednal a již existují a používají se čtyři další hlasy, dvě mužské a dvě ženské, které můžete slyšet na podcastech, na Seznam Zprávách a v dalších rádiích z portfolia Seznamu jako moderátoři, kteří vysílají zprávy nebo čtou články.

Pěkný příběh z praxe vyprávěl kolega ze Seznamu, který říkal, že jedna z těch moderátorek velmi ocenila, že měla dítě a zůstala doma, ale stejně si ten článek vytvořila a ten se odvysílal, takže moderování z home office je možné.

Trochu se bojím, jak moc je toto nadšení krátkozraké na jednu stranu. Na druhou stranu, co by mě na tom zajímalo – přeci jen v nějakém POC (proof of concept), volat seniorům, jestli užili léky, je jedna doména, kategorie.

Samozřejmě tam je ten dialog, ta konverzace, což je možná v něčem jiném, jiné, ale dělat celostátní rádio, které poslouchají tisíce, ne, už miliony lidí, to je řádově jiná kategorie. Musí to mít asi jinou kvalitu, jinou produkční kvalitu a tak dále.

Když se podíváme na nějaké příklady, co všechno jste museli udělat jinak, lépe, bytelněji proto, aby mohla moderátorka moderovat z home office?

Jak jsem zmínil na začátku, důležitá je kvalita – kvalita dat a kvalita přepisu. To znamená nahrání v profesionálním studiu, kde nejsou žádné reverby, žádné odrazy a žádné hluky, ruchy.

Potom se ty modely mohou nastavit – je tam množství parametrů, které se trénují. Velikostí těch neuronových sítí můžeme ovlivnit kvalitu toho, jak to zní, jak moc to dělá chyby nebo naopak, jak málo.

To je tedy další věc. A když budeš konkrétnější, omlouvám se, jaké parametry jsou „good enough“ a minimalistická neurónka, aby to bylo dost dobré, a jak to vypadá, když to musí být téměř dokonalé?

Množství parametrů si teď z hlavy nepamatuji, ale řídíme se tím, jak rychle model vyrobí dané audio. Naše modely mají rozměry nastavené tak, aby byly rychlejší, než je reálná řeč, to znamená, že jedna vteřina řeči bude vyrobena za kratší dobu než skutečná vteřina.

Dnes máme u velmi dobrých hlasů poměr zhruba 1 ku 10 nebo 1 ku 15, tedy deset vteřin hotových za jednu vteřinu. Modely musí být takové a produkce probíhá na normálním CPU, není potřeba GPU pro syntézu. Trénování modelu probíhá na grafických kartách, ale syntéza samotná už je možná na běžném PC.

Ještě se vrátím k tomu, že existují různé polohy, pro různé věci se hodí různé hlasy. Máme některé hlasy, které jsme vyráběli pro Seznam, a mají dva nebo i více stylů. Jeden je moderátorský styl, druhý je člankářský, novinářský, například pro čtení zpráv, a další styl může být určený pro podcasty.

Tyto modely vznikají tak, že se připravují speciální data a nahrávají se ve stylu, který se k danému stylu hodí.

A teď bychom si mohli pustit ukázku, abychom slyšeli, jak to vypadá v praxi. Pusťme si to.

Ahoj, tady je Pavel. A tady Sylvie. Jsme nové syntetické hlasy, které Seznam používá pro načítání článků a na různých servisních službách, jako je například naše call centrum.

Na pomoc jsme si ale přizvali další kolegy, naši Magdu.

Ahoj, mě znáte z vysílání zpráv na Radiu Express FM a také z Klasiku Praha, vypomáhám s články.

A ještě máme hlas Jaroslava.

Ahoj, budu také číst zprávy na obou rádiích společně s Magdou a zaslechnout mě můžete i na Seznam Zprávách nebo Garáži.

A na ukázku tu máme zprávy s Magdou.

Experti na AI představují novinky na Express FM. Zemědělci přijeli s traktory do centra Prahy. Dnes se představí v Evropské lize obě pražská S. Bude oblačno, kolem 9 stupňů.

Seznam dnes představí vlastní AI technologie, které využije pro regionální zpravodajství na rádiu Express FM. Používá je i k výrobě až 40 audiočlánků denně, publikovaných na Seznam Zprávách.

K syntetické moderátorce Hačiko, které propůjčila hlas moderátorka ranního klubu rádia Express FM Bára Hačik, přibyly další čtyři hlasy: Pavel, Sylvie, Jarda a ten můj.

Paráda, mám velkou radost, že v rádiu už nebudu sama. Vítám své nové kolegy!

No, ale je to všechno těmi umělými hlasy. Ptali se nás, které hlasy jsou umělé.

Musím říct, že po chvíli se v tom člověk zorientuje, minimálně ta zpravodajská část, když začne, tak tam bych ráno asi rozpoznal, kdybych to nevěděl.

Prošla obrovským vývojem.

A když jsme poslouchali některé starší ukázky a teď ty současné ze Seznamu, je tam vidět znatelný rozdíl nebo jde jen o lepší rozpočet a větší rychlost, nebo kam se to posouvá?

Už to bude vyřešené a bude to jako služba (as a service), jako je tomu ve syntéze hlasů, nebo bude time to market stejný, protože jde o zdrojový hlas a čištění a v tom se toho moc neposunulo?

Technologie se neustále posouvá, pořád hledáme způsoby, jak ji vylepšit, protože bohatost prozodie může být ještě lepší a přirozenější. Dokážeme si dokonce představit, že si dva moderátoři budou povídat mezi sebou a navazovat jeden na druhého.

Technologický vývoj tedy pokračuje a hledají se techniky na zdokonalení modelu.

Co se týče nového hlasu a jeho nasazení, snažíme se, aby technologie byla schopná naučit se z co nejmenšího množství dat.

V současnosti tyto hlasy vznikají z 5–6 hodin audionahrávek čisté řeči. Snažíme se přístup upravit tak, aby stačilo mnohem méně dat. Už to umíme, ale kvalita zatím není dostatečná.

Směřujeme tedy k co nejmenší potřebě dat a zároveň co nejlepší kvalitě a prozodii.

Zároveň experimentujeme s tím, že hlasy mícháme. Vzniká hlas složený z několika hlasů, který už nebude mít svoji jedinou hlasovou předlohu a nebude svázaný s licencemi nebo poplatky. Možná bude volně dostupný.

Zajímavý projekt máme s gamerskou společností, kde jde o takzvané NPC postavy (nezávislé herní postavy).

Tam je potřeba mnoho hlasů, aby v tom hráči hned nepoznali opakující se vzory. Tam právě využíváme tuto kombinaci.

Dají se vyrobit modely, které v sobě obsahují více hlasů.

Pro experiment s gamerskou firmou jsme vyrobili takzvaný multispeaker model, který obsahuje asi 250 anglických hlasů volně dostupných na internetu.

Jsou tam různé množství dat, u některých hlasů jsme měli jen minutu nahrávky, přesto bylo možné poznat, jak ten hlas zní.

Když prodáváte hlas, co to vlastně je? Kupujete model, který běží u vás na cloudu a ke kterému máte přístup?

Ano, kupujete hlas. Existují dvě možnosti, jak si ho pořídit. Buď zainvestujete do hlasu a bude pouze váš.

Nebo se můžete podílet na hlasu společně s námi, a pak ho používá více uživatelů, přičemž vy nám umožníte ho používat v rámci našeho portfolia.

Model vytvoříme my a poskytujeme servis, který běží na našem cloudu a kde je model dostupný.

Tento systém – Kubernetes, Docker, image – dokážeme nasadit i on-premise a například syntéza hlasu již běží v České televizi, která má nasazenou on-premise infrastrukturu.

Pokud bych se podíval do České televize, tak se tam systém volá přes API a získává audio soubory?

Ano, Česká televize použije hlas v rámci dalšího produktu, tzv. Envoy Studio.

Envoy Studio je nástroj pro tvorbu audiodeskripcí, tedy speciální zvukové stopy v televizním vysílání, která obsahuje popis scén pro zrakově postižené.

Díky tomu se zrakově postižení dozví, co se děje na scéně, aniž by ji viděli.

Musím se vrátit do své minulosti. Pamatuji si, jak jsme kdysi filmy nestahovali legálně, ale pro studijní účely. Pamatuji si film „Horem pádem“ nebo „Jedna ruka netleská“, který byl špatně ripnutý a obsahoval špatný dabing.

Bylo to hrozné – věty jako „Honza vstupuje do místnosti a zdraví svoji babičku, potom začal mluvit Honza“ byly použity místo přirozeného dabingu. Připadalo mi to velmi umělecké.

Ano, audiodeskripce je pro zrakově postižené.

Pro ně je důležité, aby audiodeskripční hlas byl jiný než hlas herců na scéně, aby se odlišoval.

Tento hlas může být monotónnější, může se zrychlovat nebo zpomalovat podle potřeby a vkládá se do míst, kde ostatní herci nemluví.

Envoy Studio lze použít obecně i k namlouvání videí.

Pokud má firma pobočky po celém světě a má instruktážní video, lze k němu přiložit titulky v běžném formátu SRT, které pak lze automaticky převést do příslušné řeči a vložit jako audio stopu.

Tuto audio stopu lze načíst do studia a vygenerovat audio popisek k videu.

Co je pro vás produkt?

Mluvili jsme tu o několika produktech, mám pocit, že Envoy je spíš vaše proprietární technologie, zatímco Envoy Studio je softwarový produkt, do kterého si sám uživatel nahrává data a s ním pracuje.

Jak máte myšlenkově rozdělené technologie a produkty? Kdy už začínáte něco nazývat produktem a kdy za to vybíráte licenční poplatky?

Když si koupím u vás hlas a použiji ho na serverech u vás, platím pak nějakou licenci?

Kdy nad těmito produkty stavíte například frontend?

Obecně je to tak, že pokud se něco osvědčí, tak to umístíme na náš cloud, kde vysíláme API eventy.

Člověk se tam může přihlásit se svými přihlašovacími údaji.

Většina produktů má nějaké uživatelské rozhraní, jak říkáš.

Například MVoice Studio je vizuální nástroj, kde uživatel vidí video, může ho přehrávat, sleduje, kdy začíná řeč v souvislosti s videem.

Podobný produkt máme PowerPoint to Video, kde uživatel nahraje PowerPoint s slidami, do „speakersnoutu“ napíše, co má video říci.

Produkt pak dokáže z těch slidů vygenerovat video, což je pohodlné pro odhad časového rozsahu například tří minut.

Lze to použít na univerzitách, kde mají takto vytvořené přednášky a pokud je někdo nemocný, může vygenerovat přednášku ve formě videa a pustit ji či sdílet.

Ještě zmíním, že M-Voice sám o sobě je produkt.

Není to jen hlas kdesi uložený, ale má minimalistické grafické uživatelské rozhraní a normální REST API nebo WebSocket API, přes které si…

…zákazník nebo jiná firma může servis připojit přes přihlašovací údaje a API.

Například Telma je také váš zákazník a využívá tento servis.

Děkuji. Když jste začínali před třemi lety, bylo vás 25. Kolik vás je dnes?

Dnes nás je 50, pokud počítáme i externí spolupracovníky a studenty.

Snažíme se udržet jádro týmu a dělat co nejvíce věcí interně.

Kam tím směřujete?

Mluvíte tu o hodně produktech.

Všude je patrná přepoužitelnost.

Hledáte nové domény, kde využít to, co už umíte, nebo to nějak rozšiřujete.

Jak moc jste produktová a jak moc konzultantská firma?

Honza na začátku říkal, že vždy začínáte v nějaké doméně jako konzultanti a pokud tam objevíte potenciál, produktivizujete to.

Je to tak?

Ano, to je super.

Vize Mammal AI je mít portfolio produktů a minimálně prodávaných hodin profesionálních služeb.

Tím směrem tedy jdeme.

Určitě, ten produktový přístup je silnější, protože služby se špatně škálují.

Buď byste museli drasticky nabírat nové lidi, což je proces obtížný, protože je těžké najít vhodné zaměstnance, kteří zapadnou do týmu.

Je lepší škálovat prostřednictvím produktů než tím, že budete najímat stále nové lidi.

Takže tímto směrem se vydáváme.

Snažíme se směřovat i úplně jinam než do naší současné domény, třeba do chemie.

Tam používáme podobné technologie jako u jazyka, ale tentokrát hledáme molekuly, které mají podobné vlastnosti jako daná vzorová molekula.

Na to se díváme technicky, ale spolupracujeme i s opravdovými chemiky, kteří jsou z toho nadšení, protože rychle nachází nové možnosti, které je dříve nenapadly.

V chemii je to nákladné, protože člověk si musí vyzkoušet, co k čemu pasuje, musí to skutečně vytvořit, oni tomu říkají „uvařit“ v laboratoři, a ověřit si to.

My naopak vaříme „in silico“, tedy virtuálně, takže dokážeme připravit náhražky molekul předem.

Využití je obrovské hlavně v farmaceutickém průmyslu pro výrobu léků a v chemickém průmyslu obecně.

Pomáhá to vyřadit slepé cesty.

Když má chemik hypotézu, může předem ověřit, jestli dává smysl, jestli molekuly projdou, nebo ne.

Výrazně se tím snižuje počet nutných experimentů.

Tento přístup je globální produkt.

V jazycích je to často svázané s lokalitou, ale chemie je celosvětová oblast.

Je to tedy další horizont Mammal AI.

Propojovat vzdáleně nepasující se domény.

Protože mě vždy fascinovalo, že úloha chatbota na e-shopu je stále nevyřešená, ale všichni ji dělají a jen ji vylepšují.

Ale říct si o biologický, sociologický nebo chemický problém a aplikovat na něj poznatky z AI, to je zajímavé.

Je to váš směr?

Určitě ano.

To je věc, která nás baví – hledat nové příležitosti, jak proniknout do dalších oblastí, kde naše historické znalosti přinášejí ovoce.

A zůstanu u chemie.

Jak moc je to AI know-how, tedy neurónové sítě a AI systémy, a jak moc je to…

Prostě s tím know-how.

Můžeme se například na chemii dívat jako na jazyk.

Je v tom trochu obojí, řekl bych.

V principu jsou to podobné principy – word embeddingy a chemické embeddingy.

Umět to správně zakódovat.

Podobnost tam existuje.

Co je na našem produktu podle mě dobré, je rychlost.

Historicky chemické společnosti možná také zkoušely podobné přístupy, ale nefungovalo to dostatečně rychle na praktické použití.

Protože prostor možných molekul je obrovský.

Je to prostě, já nevím, jen takové ty… celý vesmír. Celý vesmír, no právě. Jen taková databáze těch, kteří někdo navíží, že umí vyrobit, je asi 700 milionů, myslím. Jako jen těch. No ale ten prostor je jako nekonečný, že jo. To, jak se mohou na sebe ty atomy naskládat.

Takže vlastně je to něco, co tam je, ta síla v tom, že to umí šíleně prohledávat.

Ještě mě napadá jedna věc, kterou jsme zkoušeli a dělali, honzo. A to je emulace fyzikálního modelu.

Jo, to je pravda. To jsme taky dělali. Přesně. Nezastavíme se u chemie, jdeme do fyziky. Tohle pomáhá simulovat v podstatě v případě nehody fyzikální pohyby figuríny, které se modelují nějakými fyzikálními modely. A tady se na základě nějakých dat, která byla už předpočítaná – drahé výpočty trvaly roky – se to naučilo sítí. A už nevím přesně jaká, která byla schopná tohle přepredikovat velice přesně a s dostatečnou kvalitou.

Toto bylo třeba se západní Českou univerzitou, ale obecně se snažíme vlastně pořád spolupracovat s těmi univerzitami. Máme i takovou historii, vlastně v IBM to bylo tak, že přicházeli studenti a ty jsme si postupně vychovávali, tak teď také v MÁMĚ se snažíme to udělat tak, aby si nacházeli nové talenty, přitáhli je k nám a vlastně s námi vyrostli. A nejde o to, že za 20 let založí vlastní CRM a jejich první klient bude jejich máma.

Když se na to podíváme, jak funguje ten tým uvnitř – vás je padesát, nápadů na produkty a nové domény, kde to uplatnit, je dost. Chcete být co nejvíce v budoucnu produktovou firmou, ale na druhou stranu vás stále nějakým způsobem živí consulting. Jak tedy vypadá ta organizace práce, prioritizace projektů a podobně uvnitř? Existuje nějaký základní princip? Je to rozdělené tak, že já tady dělám na M Voice studiu a nic jiného mě nezajímá? Hlavně mě neotravujte s chemií? Jak se to řídí?

No, je to asi trošku výzva, ale myslím, že se nám to daří. Jelikož se známe už dlouho, víme o sobě, co od koho čekat. Minimálně v naší skupině Bordovský se scházíme několikrát. Denně máme takový mini board scrum a pak máme v pondělky večerní, noční a vnitřní zpoly. Takže zabere to samozřejmě i dost plánovacího času, rozdělování a prioritizace, což je důležité.

Pak záleží, jak si kdo z toho vybojuje, ale samozřejmě je to tak, že Pepík je trošku víc na ty hlasové technologie, já jsem zase v telefonii, Honza Macek je zase v chemii, Martin Šmejrek zase v datovém chatu, Honza Klejncí také vlastně na LLM modelech, Kuba je zase v Telmě, takže máme to rozdělené. Je tam takový rozdělení, ale…

– Jsou tam velké přesahy, že?
– Jsou tam přesahy.
– Z hlediska těch neuronových sítí, z hlediska diskusí nad nimi a vzájemné podpory na základě zájmu. Není tam ostrá hranice.
– Jste taková jedna rodina, říkal Honza.

Máme tady v podcastu oblíbenou otázku na věštění z křišťálové koule a snahu připojit budoucnost, ale myslím si, že u vás to může dopadnout na úrodnou půdu. Říkali jste na začátku podcastu, že nejste šuplíkoví studenti, což nemyslím ve zlém, ale máte desítky let zkušeností s vývojem. Tak co pro MAMA AI nebo obecně AI svět je další velká věc? Na co se těšíte? Kam podle vás směřuje budoucnost?

– No, to je těžká otázka, jak bude budoucnost. Ale myslíme si, že se to prostě bude pořád nějak vylepšovat a že budeme schopní držet krok samozřejmě s technologií. A tím, že mladí lidé budou umět technologicky ty nové technologie používat, tak tohohle se nebojím.

No, vizionářské nápady nevím. My dva jsme asi z našeho bordu nejméně vizionářští, že jo. Měli jsme si pozvat někoho jiného, kdo je víc vizionář. Nějakého dalšího bordistu, tak příště.

Budoucnost…

No, my vám moc děkujeme, že jste s námi sdíleli svou minulost, současnost MÁMY a jak to u vás vypadá a co všechno díky umělé inteligenci pomáháte řešit. Těšíme se zase někdy příště. Myslím, že jsme dnes otevřeli spoustu témat a že ta množina je podobně široká jako množina chemických prvků.

No, moc vám děkujeme. Budeme se těšit do roka a do dne na čtvrté výročí, na novinky z MÁMY a z vašich projektů.

Perfektní.

No, tak my taky děkujeme za pozvání a asi si nás lidi najdou na normálních stránkách dmamai. Jinak máme na LinkedInu naše newslettery. Jirka Vrble vytváří perfektní obsah, takže ho lze sledovat úplně přímo. Má i svůj avatar, vy jste taková jeho asistentka, která jednak má i vizuální podobu a jednak mu pomáhá s psaním těch příspěvků. Takže určitě si nás tam najděte.

Tak super, díky moc.

Díky moc.

A to je všechno. Děkujeme, že jste doposlouchali až sem. Díky také našim partnerům. Pokud vás zajímá víc, navštivte naše stránky datatalk.cz a přihlaste se k odběru našeho newsletteru.

Podcast

Data Talk #85: Jan Cuřín a Josef Vopička (The MAMA AI)

Strojový přepis

Odebírejte Data Talk