Data Talk #170: Julius Rusnak (Semantic Visions)

V nové epizodě jsme přivítali Juliuse Rusnaka, COO Semantic Visions, který přiblížil, jak česká firma z Prahy analyzuje 1,9 milionu článků denně z více než 220 000 zdrojů ve 12 jazycích. Vysvětlil, proč je pro úspěšné predikce rizik klíčové odlišit šum od signálu a jak tuto výzvu řeší jejich proprietární NLP technologie. Jiří Vicherek se s ním bavil i o tom, jak se z interního nástroje stal produkt. Rozebrali spolu etické limity práce s daty i reálné využití platformy v byznysu a státní správě.

Strojový přepis

Partnerem tohoto podcastu DataTalk je společnost Kato Networks. Kato Networks je globální technologická firma, založená v Izraeli, s pobočkou v Praze. Její zakladatel a generální ředitel, Shlomo Kramer, je legendou v oblasti kybernetické bezpečnosti. Založil firmu Check Point, byl prvním investorem společnosti Palo Alto Networks a nyní disruptuje trh síťové bezpečnosti právě prostřednictvím Kato.

Kato Networks nabízí Networking Security Platformu postavenou na cloudu a umělé inteligenci. Firma je lídrem v nově definované kategorii SAS podle Gartnera, což znamená Security Access Service Edge. Díky tomu i při současném ocenění v řádu miliard dolarů stále roste desítky procent ročně. Vy máte možnost se na tomto úspěchu podílet. Pražská pobočka totiž raketově roste a nabírá IT profesionály různých specializací. Samozřejmě jim nabízí zaměstnanecké akcie, tzv. ESOP.

Pokud tedy hledáte novou výzvu, baví vás řešit složité IT infrastrukturní problémy a chcete udělat svět o trochu bezpečnější, podívejte se na volné pozice v Kato Networks. A nyní přejdeme k samotné epizodě.

Dobrý den, jmenuji se Jirka Vicherek a vítám vás u dalšího dílu podcastu DataTalk. Mým dnešním hostem je Julius Rusnák, výkonný ředitel (COO) společnosti Semantic Visions. Ahoj, Julo.

Ahoj, dobrý den všem.

Dnes se společně s Julem podíváme do historie Semantic Visions a do velké transformace, kterou tato firma prodělala v posledních třech letech. Dozvíte se něco o tom, jak funguje OSINT, jak se změnilo zpracování velkých datových zdrojů, crawlování a NLP (zpracování přirozeného jazyka). Také se podíváme na to, jak se Julo vlastně dostal k Semantic Visions, protože jeho cesta byla velmi zajímavá a potkal na ní legendární osobnosti české technologické scény.

Tak začněme od začátku. Ty jsi se narodil a vyrostl v Dolním Kubíně. Jak tě to tam dostalo do Semantic Visions, do světa technologií a všeho kolem?

Je to tak. Velký podíl na mé cestě má můj táta, který byl vizionář. Ještě v roce 1990 řekl, že potřebujeme pořádný počítač, a všechno začalo právě s ním. Takového tátu by v roce 1990 chtěl mít každý.

Časem jsem si pak vydělával na brigádách v létě, bylo to super, začal jsem se učit programovat, dokonce jsem programoval v assembleru, bylo to velmi zajímavé. Nakonec jsem se však rozhodl, že po gymnáziu nepůjdu na technickou školu, ale na Vysokou školu ekonomickou, respektive Ekonomickou univerzitu na Slovensku, kde jsem studoval služby a už tenkrát jsem se zaměřoval na to, jak firmy využívají internet.

V jakém roce jsi absolvoval?

Univerzitu jsem ukončil v roce 1999.

Takže to tehdy bylo opravdu hodně cutting-edge, co se týče internetu ve službách, že?

Ano, byl to velmi cutting-edge přístup. Dělal jsem průzkum po firmách a dostával odpovědi typu: „K čemu by nám to bylo?“ Takže to bylo docela dávno. Asi bych jim zavolal znovu.

Co následovalo po absolvování? Je zajímavá epizoda týkající se vojenské služby. Lidé si jistě pamatují, že kluci tehdy museli na vojnu.

Já jsem díky rodinnému příslušníkovi dostal tip, že vojna může být i dobrá zkušenost. Přihlásil jsem se na Ministerstvu obrany do sekce zahraničních vztahů, zda bych tam vojnu mohl absolvovat. Bylo mi řečeno, že ano – pokud si uplatním odvod v daný termín, tak mě tam povolají rozkazem. Tak se také stalo.

Měl jsem jednu z nejlepších vojenských služeb, jaké si lze představit, protože jsem pracoval se zahraničními lidmi na sekci zahraničních vztahů, cestoval jsem po světě a byla to fakt super zkušenost.

Moje pozice na Ministerstvu obrany, na sekci zahraničních věcí, nakonec vedla i k prvnímu skutečnému zaměstnání, protože v té době Slovensko ještě nebylo členem NATO, zatímco Česká republika ano. Slovensko se však účastnilo programu Partnership for Peace (PFP) a využívalo zdroje z USA na konzultace a na transformaci tehdejší armády na plnohodnotné ozbrojené síly.

V rámci toho fungovala konzultační firma Cubic Applications, později Cubic Defense Applications, se kterou jsem se potkal právě kvůli vojně. Dostala se ke mně nabídka, že budu po jedné akci, kdy jsme spolu byli na ochutnávce vína, pro ně pracovat. Zůstal jsem tedy v sektoru obrany a pomáhal Slovensku stát se členem NATO, což se nakonec povedlo.

Gratulujeme a děkujeme. Snad Slovensko i NATO vydrží co nejdéle, zvláště na začátku roku 2026. Bohužel ale stoprocentní jistota to není.

Pracoval jsi tedy pro americkou konzultační firmu. Byly to opravdu zajímavé záležitosti na nejvyšší státní úrovni?

Ano, jednali jsme na ministerstvech, dokonce i s prezidentem, a snažili se změnit procesy a organizaci armády tak, aby mohla fungovat v prostředí západního světa. To se nám skutečně povedlo a Slovensko bylo nejen přijato do NATO, ale i do EU v roce 2004.

Poté jsem se rozhodl, že potřebuji odejít z Bratislavy. Spolu s tehdejší manželkou jsme hledali práci mimo Slovensko. Ona našla práci v Německu a já dostal nabídku práce v Praze, takže jsem několik let pendloval mezi Německem a Prahou.

V Praze jsem začal pracovat pro firmu zabývající se open source intelligence (OSINT), zpracováním přirozeného jazyka a crawlováním dat. Bylo to kolem roku 2006, pokud si správně pamatuji. Postavili jsme první crawler a službu, která na základě TFIDF algoritmu spojovala podobné dokumenty, vytvořili jsme repozitář a začali jsme se zabývat analýzou dat.

Podnětem ke crawlování byla myšlenka OSINT – poskytovat informace na základě dat z otevřených zdrojů. K tomu bylo potřeba data sehnat, proto začalo crawlování. Tehdy za šest až sedm let bylo otevřených rejstříků docela málo, tak jsme se zaměřovali na zprávy, tisková vyjádření a podobně.

Za tímto nápadem stál František Vrabel, který ho posouval z byznysové stránky jako inovátor, a já jsem pomáhal na technologické úrovni. Postupně vznikal tým, který skutečně vybudoval crawlování a hodnocení dat na základě role-based systému, tzv. taxonomie.

Co se dále dělo s tím projektem? Byl to projekt před Semantic Visions?

Ano, to bylo právě před Semantic Visions. Tento projekt měl před sebou skvělou budoucnost. V roce 2008 jsme těsně před podpisem investice od významné americké firmy, ale tehdy spadla banka Lehman Brothers, praskla bublina a investice, zejména do středoevropských firem, byly zastaveny.

Cesta do Kalifornie se tedy nekonala. Chvíli jsme to ještě zkoušeli, ale komerční úspěch se nedostavil. Technologie však koupila firma JBho, Jana Bárty, a v roce 2011 vznikla Semantic Vision.

Jaký byl produkt či zaměření?

Měli jsme technologii a táhli ji dál. Vize Semantic Vision při jejím znovuzaložení v roce 2011 s podporou Jana Bárty byla vytvořit celou řadu portálů, které by inteligentní klasifikační systém dokázal dodat datové odborníkům ve firmách nebo jednotlivcům jako B2B i B2C.

Tyto portály měly zachytit aktuální dění nebo historii určitých témat velmi úzce a přesně, aby například právník získal informace relevantní pro svůj obor a lékař zase pro ten svůj.

Co bylo zajímavé a možná i bizarní, je to, že tyto portály nefungovaly úplně podle plánu – nejvíce lidí totiž klikalo na „Černou kroniku“, tedy negativní zprávy, katastrofy a problémy. Měli jsme vytvořeno kolem sedmi set portálů s daty a statisticky lze potvrdit, že lidé byli ochotní sledovat a platit právě za negativní zprávy.

To potvrzuje poznatek ze sociálních sítí, že negativní informace se šíří rychleji a působí na naši biologickou pozornost výrazněji.

Co se dělo dále?

Mám pocit, že pak Semantic Visions dosáhla vrcholu a byla jednou z firem, o kterých se hodně mluvilo. Byli jste jednou z prvních společností, kde se mluvilo o umělé inteligenci – o strojovém zpracování dat –, ale taky jste byli AI firmou, a to v době kolem roku 2016, kdy umělá inteligence nebyla ještě tak „cool“. Vy jste byli v oblasti NLP a patřili jste k nejpokročilejším.

Co se tehdy dělo?

Franček Vrabel tlačil firmu ve dvou směrech – byznysově a technologicky. Byznysově jsme získali významný kontrakt jako OEM partner pro dodávání dat do SAP, respektive později do Ariba, protože SAP tuto firmu akvíroval.

To byl náš komerční úspěch. Začali jsme pracovat na řešení managementu rizik třetích stran (Third Party Risk Management, TPM), konkrétně z oblasti supplier risk, tedy rizika dodavatelů v rámci dodavatelských řetězců.

Toto zaměření bylo mnohem užší a už ne pro jednotlivce, ale pro sledování událostí relevantních pro firmy v jejich dodavatelských vztazích. V tomto jsme byli velmi dobře úspěšní a není to příliš známé, ale bylo to naše základní zaměření.

V rámci České republiky jsme pak byli známí především díky práci s dezinformacemi. Díky schopnosti zpracovávat data jsme byli schopni rozpoznávat dezinformace.

Nicméně z byznysového hlediska dezinformace nikdy nebyly naše hlavní zaměření. V Česku to byla zajímavá oblast a docela jsme se v ní prosadili, ale peníze tu nebyly. Ti, kdo bojovali s dezinformacemi, za to většinou neplatili.

Za mě to bylo v té době zklamání, protože i když jsme dělali dobrou práci, nevydělali jsme na tom. Hlavním cílem firmy však bylo komerční vydělávání, a proto bylo jediné smysluplné soustředění na oblast supplier risk.

Kolem konce roku 2017, respektive začátku roku 2018, jsme díky kontaktům v SAP začali spolupracovat se společností Deloitte, která hledala možnosti, jak third party risk management integrovat do svých řešení.

Podařilo se nám ověřit funkčnost a Deloitte se rozhodlo Semantic Visions odkoupit.

Můžete si představit, že taková akvizice trvá dlouho, a právě to mě osobně zaměstnalo prakticky na 100 % několik měsíců.

Nakonec však akvizice neproběhla a Semantic Visions zůstala samostatnou firmou.

Byl jste hodně zaměřený na to, že budete součástí Deloitte…

Ano, hodně jsem se na to těšil, protože Deloitte je velká firma s možností měnit technologie a pokračovat v dalším vývoji. Upřímně, toto mé naladění bylo jedním z důvodů, proč jsem nakonec do Deloitte šel individuálně jako konzultant a působil jsem tam jako CTO v oblasti Data & AI přes dva a půl roku.

Bylo to velmi zajímavé období, hodně jsem si odnesl, přitom už předtím jsem s Deloitte spolupracoval intenzivně při due diligence.

Mezitím v Semantic Visions pokračovaly další věci – firma se hodně zaměřila na dezinformace a na B2G (business to government).

S tím jsem však nebyl úplně srozuměný, protože jsem neviděl v tom peníze.

Ty jsi se však potom do Semantic Visions vrátil. To je zajímavé, jsi long-time founding member. Můžeš vysvětlit, proč jsi odešel do Deloitte a co tě táhlo zpět?

V Deloitte jsem pracoval s Honzou Baladkou, který obdržel nabídku od Bellfireu, zda nepřijdeme do Semantic Visions zavést velkou změnu.

Cílem bylo, aby se firma soustředila na business to business, snížila zaměření na business to government a dezinformace, které – jak jsem zmiňoval – nebyly výnosné.

Dále bylo potřeba uzavřít technologický dluh a transformovat firmu na velmi moderní, de facto AI-based společnost.

V září 2022 jsem se vrátil zpět a od té doby si myslím, že jsme těch cílů dosáhli.

Proběhlo několik zásadních změn.

První byla strategická změna – zaměření firmy se posunulo na business to business a stali jsme se data vendorem, tedy dodavatelem vysoce kvalitních dat, která lze integrovat do systémů pro vyhodnocování rizik, třetích stran, obchodování s akciemi či komoditami.

Další velkou změnou byla technologická transformace – přechod od on-premise infrastruktury na cloud.

Ta infrastruktura nebyla malá – měli jsme přes tisíc instancí a stovky fyzických serverů, blízko k tisícovce, což pro malou firmu znamenalo obrovskou transformaci.

Kde tyto servery byly umístěny? Byl to váš vlastní prostor?

Fyzické servery jsme měli v datovém centru v Německu, kam jsme ale fyzicky nechodili.

Vzpomínám si, že ještě před Semantic Visions jsme měli servery i u nás v Železného datového skladu, což je jiná historka. Zažili jsme například záplavu, kdy byly servery ve vodě.

Ale zpět k tématu – velká mise, tedy stáhnout se zpátky a začít transformovat Semantic Visions.

Já jsem si řekl, že nejsem tak starý, abych se nebál zajímavého rizika a změny, protože změna je život.

S Honzou Baladkou jsme tedy v roce 2022 začali realizovat změnu.

Ta zahrnovala změnu zaměření firmy na datového vendora a postupnou transformaci až k inteligentní platformě.

Dále technologický přesun z on-premise do cloudu, konkrétně na Google Cloud Platformu (GCP), kde se nyní cítíme dobře.

Dále jsme přešli z velmi intenzivní orientace na rule-based systémy k používání machine learningu a později velkých jazykových modelů (LLM).

Změnily se procesy, firemní kultura a v podstatě celý tým.

Semantic Visions nyní zaměstnává asi 60 lidí a přestože máme stále startupový feeling, věci se zde dělají agilně a rychle, už máme zavedenou řadu pravidel a procesů, které jsou nezbytné při počtu lidí, jaký máme.

Také jsme od Deloitte převzali zkušenosti s řízením a konzultační metody, protože stavět startup a řídit firmu s vystudovanými poznatky z management consultingu jsou dvě odlišné disciplíny.

Než se ale podíváme pod kapotu technologie a na současné byznysové zaměření, pojďme si připomenout, že jsi se v roce 2022 po dvou letech v Deloitte vrátil do Semantic Visions s cílem provést všechny tyto transformace – změnu byznysového zaměření, cloudovou migraci a kompletní přepsání interního jádra enginu, který byl do té doby rule-based a postupně vznikal řádek po řádku.

Jak jsi přistupoval k prioritizaci? Vzal jsi celou sestavu úkolů, škrtnul z ní a stavěl na zelené louce, nebo jste postupovali postupně podle nějakých kritérií, třeba začít s menším, nejdůležitějším modulem?

Pokud máte zájem, mohu přepis pokračovat dále.

Vyzkoušíme ji, anebo touto začneme, protože je nejdůležitější. No a toto rozhodování – zní to jako pohádka před a po, zázračná pilulka. Tady zachránci Honza a Julo z Deloitu přišli nás vyvést z pouště do království izraelského, ale nemohlo to být tak růžové. To rozhodování, ty trade-offy, tak jak v tu chvíli, když zase máme tady lidi, kteří nás poslouchají, kteří jsou rozhodně zapeklité v legacy systémech, a i když vědí, co s tím mají dělat, tak realita je neúprosná.

Jak jsi nad tím přemýšlel, co byly první věci, co bys zpětně udělal jinak?

Co bych udělal jinak? Možná ani nic. Myslím si, že jsem spokojený s tím, co jsme změnili. Abych odpověděl na ten dotaz, pustili jsme se do toho tak, že chceme růst. Cílem bylo stanovit oblasti, které chceme změnit. Ano, to byly třeba procesy a způsob fungování ve firmě, které jsme změnili na velmi otevřené a lehce komunikující, kde všichni spolupracují.

Největší změny však byly v byznysovém zaměření a v komunikaci toho, kdo jako firma jsme. Tím pádem i v tom, čeho chceme dosáhnout, protože právě tak, jak se firma definuje a co o sobě říká, tím směrem se vydává – to chce prodávat, to chce dělat. To je podle mě velmi důležité.

Takže přes data vendora jsme se dostali až na intelligence platformu, respektive vendora intelligence platformy. Velkou část tvoří technologie, kterou můžeme rozdělit do několika částí: infrastruktura a potom technologie, která vykonává ten samostatný stroj, tedy jednak shromažďuje data, jednak je vyhodnocuje a nějak je třídí.

U části, která shromažďuje data, jsme přidali velké množství typů zdrojů. Předtím jsme se zaměřovali zejména na zprávy, nyní dokážeme integrovat celou řadu dalších informací z importu a exportu v globálním měřítku, sankcí a z jednotlivých stránek konkrétních firem, které o sobě uvádějí, čím se zabývají.

V části, která zpracovává data, jsme se pustili do spousty zajímavých projektů. Jeden z nejzajímavějších je, že začínáme hledat vztahy mezi firmami a dokážeme rozpoznat takzvané value chains, tedy tier 2, 3, 4, takzvané up-tier suppliers. Funguje to oběma směry – když znáte suppliers, znáte i customers.

Vytváříme tedy grafovou databázi, která vidí, kdo komu co prodává, kde jsou například rizika koncentrace. Na úrovni nejbližších dodavatelů máte několik alternativ, ale všichni berou z jednoho konkrétního zdroje z Číny, takže tam vzniká concentration risk. Lze tam taky nacházet alternativy – koho byste mohli oslovit, kdo vám může něco jiného dodávat.

Nejde jen o odhalení value chain, aby byl znázorněn graf propojení firem, ale jedná se o byznys – kde jsou příležitosti a kde rizika v rámci celého tohoto firemního landscape.

Když to trochu přeskočím, protože mi to přijde velmi hezké, tak „krolujete“ internet a děláte chytristiku, ale nejsilnější use case je supply chain. Například je požár a píší o požáru v Ugandě, což znamená, že dojde kaučuk. Tato prognóza, tento signál, se pak dá předat dál.

Ano, to je dobrý příklad. Může jít třeba o protesty kvůli změně legislativy, lidé nepřijdou do práce, nevyrobí se čipy a ty čipy pak o několik úrovní později v jiné firmě chybí, takže nemůže vyrábět svůj produkt. To se skutečně stalo.

Může se stát, že firma vlastněná evropskou mateřskou společností, která dodává zajímavé plastické komponenty velkému americkému producentovi letadel, změní svůj management a legislativu, a pak jí koupí čínská firma. Pro amerického producenta to představuje geografické riziko, protože náhle důležité komponenty nedodává evropská firma, ale čínská. Tyto věci nemusí být hned patrné, když se koukáte pouze na úroveň dodavatelského řetězce první úrovně. Tenhle příklad, který uvádím, byl až na úrovni druhé nebo třetí.

Když znáte tyto vztahy a můžete je odhalit a víte, co se s těmi firmami děje, lze takové riziko identifikovat a upozornit na něj zákazníka.

Skvělé. Když zůstaneme u té „poslední míle“ zákaznické, zmínil jsi i burzu, že tam dodáváte i komodity a podobné věci?

Ano, jedno z našich řešení se zaměřuje na finanční sektor, na wealth management firmy či hedge fundy, kde dodáváme data, která lze použít k trénování jejich modelů. Ty potom podávají lepší výkon v obchodování a dosahují lepších alfa, tedy lepší návratnost investic při obchodování s různými finančními deriváty a nástroji.

Tento případ je trochu jiný. V oblasti wealth management a hedge fondů je velmi důležitá konzistentnost, kvalita a governance dat. Výhodou je, že máme velký archiv, který je takzvaně point-in-time, konzistentní, na němž mohou trénovat své modely. Dodáváme de facto zdarma deset let historie dat.

Přidaná hodnota je, že pokud vidíte, že z těch deseti let lze dokázat zpětně, že to fungovalo, pak zaplatíte za data od současnosti do budoucna a za jejich aktualizace, abyste je mohli používat ve svých modelech.

To je nějaký market signal anebo opět data vendor pro hedge fundy a wealth management. Je tu ještě něco?

Jak říkáš, těch use case má být spousta. Je potřeba najít správný produkt, správného klienta, není vůbec triviální, protože data mají univerzální hodnotu, ale najít toho, kdo za která data v jaké kvalitě zaplatí, je složité.

U hedge fondů se to dělí na dvě hlavní linie. Jedna je takzvaná quantitative – tito klienti se dívají na data jako na signály a věnují se integraci datového streamu a jeho aktualizacím. Druhá se jmenuje fundamental analysis – tam lidé potřebují porozumět, co se děje, a pomocí decision making systémů dělají fundamentální analýzu.

Součástí naší intelligence platformy je i možnost interakce – můžete s ní „mluvit“ a vytahovat složité odpovědi na analýzy z dlouhodobých dat, která pomáhají činit správná rozhodnutí.

A tady mám skvělý můstek na další use case – složité analýzy například pro účely identifikace inovací nebo příležitostí pro mergers and acquisitions. Všechny ty byznysové události mají dopad na to, jak kvalitní daná firma je. Vidíme historii a firmu popisujeme ne podle toho, jaký má dnes management nebo peníze, ale podle toho, co se s ní dlouhodobě dělo, v čem byla zahrnutá a jak ji viděl svět.

Odkud tedy berete data?

Data bereme skrz „krolovací“ farmu, kterou jsme vlastníci a postavili ji. Každý den nám přibude relativně hodně dat. Není to sice jako u Googlu, ale například přes 2 miliony jednotlivých článků, datapointů, blogů, informací z webových stránek a sankcí.

To jsou nestrukturovaná data, která musíme nějak analyzovat. Dále jsme propojeni a využíváme i strukturovaná data z třetích stran, například data o exportu a importu, případně data z obchodních rejstříků, pokud je to potřeba. Jelikož intelligence platforma integruje všechny druhy dat, lze položit otázky a získat odpovědi v celkovém kontextu.

Co pak děláte s těmi daty, kde je máte? Mluvíš o velkém rozsahu, asi to v cloudu stojí hodně?

Pořád máme část infrastruktury on-prem a část na cloudu. Ti, kdo cloud používají, vědí, že je důležité neposílat zbytečně data ven. Máme uspořádání takové, že začínáme na on-prem platformě a když data přesuneme do cloudu, už z něj ven neputují. Jinak by to bylo zbytečně drahé.

Technologicky využíváme tři hlavní úložiště: s výhodou pracujeme s BigQuery, který používáme jako malé úložiště a transakční engine. Na ukládání a vyhledávání dat pak používáme Elasticsearch a na ukládání vztahů a jako grafovou databázi Arango.

Jak probíhá zpracování dat?

Data se stáhnou a zpracují. Máme tzv. pipeline, která běží neustále, protože sledujeme a prodáváme mnoho use case. Velké množství dat se zpracovává skrze různé procesní kroky.

Používáme klasifikátory, které data zařazují do předefinovaných kategorií. Využíváme rozpoznávání entit, tzv. NER, které identifikují, o čem se mluví – firmy, organizace, logistická důležitá místa jako letiště, přístavy či datová centra.

Dále rozpoznáváme, jaké události se tam dějí a jak spolu souvisejí. Také se rozpoznává dlouhodobý náhled – podíváme se na firmu z pohledu let a víme, jaké důležité události se staly a jak ji svět vnímal. Dokážeme to shrnout a dát tak jeden pěkný komplexní pohled na firmu z různých hledisek.

Po zpracování data jdou dále – jak jsi zmínil, může to být prostřednictvím datavendorů, přes API do SAPu, nebo do velkokapacitních datových úložišť, což některé firmy stále preferují, protože je to jednoduchá integrace.

Máme i API, přes která dodáváme data, a také self-service data a intelligence platformu, kterou nazýváme SVI. Tam se uživatel přihlásí a může provádět širokou škálu činností – vyhledávat události související s firmami nebo komoditami, dělat shrnutí, detailní vyhledávání konkrétních článků či základních datových prvků, které si lze vyexportovat a pracovat s nimi ve vlastních nástrojích.

Platforma také obsahuje integrovanou část pracující na bázi LLM, která umožňuje komunikaci nad daty Semantic Visions. Znamená to, že uživatelé nejsou zaplaveni nekontrolovaným obsahem z generického internetu, ale pracují s prověřenými a kategorizovanými daty – velmi čistým internetem.

Umožňuje klást dotazy, které mají byznysový dopad: co se dané firmě stalo, s kým měla spor, s kým obchodovala apod. Velmi zajímavé je také řešení vztahů ve supply chainu a hodnotových řetězcích.

Když se podívám na zpracování dat, chápu, že některé věci nemohou být příliš konkrétní. Říkal jsi, že přišli jste s misí transformace firmy – byznysové, organizační i technologické.

Základ semantic visions, ten NLP a všechny ty škatulky, klasifikátory, byly pravidlové – rules-based. Představuju si, jak to roste, jak se přidávají edge cases a kód se mění na „legacy špagety“. Nechci vám sahat do svědomí, ale u takových věcí nebývá moc dobrá dokumentace.

Nikdy však není plně automatické, že by přišel LLM nebo model a nahradil staré pravidla. Říkal jsi, že s Honzou jste se vrhli na větší využití machine learningu a dokonce LLM. Kdybychom se podívali za tři roky, která část bude první – kde hodíš první neuronovou síť? Kolik toho starého rules-based systému zůstane?

Já bych řekl, že prakticky všechno je nové. Rules-based systém pořád běží, ale kompletně jsme předělali engine, který ty pravidla spouští a zpracovává. To byla velká práce a jsme rádi, že ho máme, protože je moderní, lze ho kontenerizovat a spustit kdykoli, ať už on-premise nebo v cloudu.

Další věc: dřív se entity rozpoznávaly přes string matching, dnes se to dělá pomocí modelů. Ty nemusí být nutně LLM, velmi krásně performují i starší modely, o kterých už se moc nemluví, například BERT nebo Spacy.

Nedávno, na konci minulého roku, vyšel MM BERT, který je úžasný, multilinkvální a funguje skvěle. Navíc jej nemusíte trénovat ručně – lze ho natrénovat pomocí LLM, třeba Gemini 3, která mu zadá instrukce. Samozřejmě se vždycky uplatní lidská kontrola, protože nespoléháme jen na počítače.

Tato kombinace je úplně úžasná. Lidé, kteří v minulosti trávili spoustu času anotacemi (například pomocí služby Mechanical Turk, kterou provozuje Amazon a která umožňovala anotovat data prostřednictvím microtasků), dnes už toto díky LLM nepotřebují.

Vývoj je obrovský: věci, které dříve trvaly měsíce s rozmíchanými týmy, zvládne dnes jeden šikovný jednotlivec za den, a hned může zkoušet různé přístupy. To je výrazné zvýšení produktivity práce díky LLM.

Co se tam ještě změnilo? Vytvořili jsme tedy grafovou databázi všech firem, které se zmiňují všude možně. Čítá to skutečně už desítky milionů a k těm firmám dlouhodobě sbíráme data. To je tedy v tom Marangu, jak jsem zmiňoval, a detailní data se potom tahají z Elastic Search.

Samozřejmě nemohu opomenout LLM jako taková, takže máme i případy použití, které přímo běží skrz LLM a poskytují krásné výstupy, které dokáže člověk přečíst a porozumět jim, případně se jich dotazovat.

Jeden z těch problémů, co se řeší, je ten objem, to znamená množství informací, protože pořád je to tak, že nechcete kompletně každou jednu věc poslat přes LLM, protože byste se zatím nedoplatil. Zkušenosti ukazují, že jak ty modely, které využíváte jako služby, zrají a jak se vylepšují, tak vlastně ty firmy, Microsoft, OpenAI, Google nebo i další, mění svoji strategii dle svých potřeb. Dokážou model přestat podporovat a začít podporovat model nový, který je potom dražší nebo levnější, tak jak oni chtějí. Tedy vás mají relativně hodně pod kontrolou, pokud ten model neprovozujete sami.

Jeden z problémů, který řešíme a úspěšně ho řešíme, je tedy prioritizace toho, co jde přes LLM, tak abychom to dělali velmi efektivně.

Co jste tedy prioritizovali? Mluvil jsi o frontendu, vlastně jako Ask Your Data nebo AI v BI, takže je to možnost i pro netechnického člověka, tedy chatbotí rozhraní nebo rozhraní rozumějící lidskému jazyku. Je to nějaký logický automatizační nástroj na klasifikaci uvnitř?

Ano, je to Semantic Vision Report Service, který ve třech krocích dokáže udělat práci několika analytiků.

Krok číslo jedna: člověk si vybere, z jakých dat by to chtěl poskládat. Zatím je to z našich dat, nad kterými se tvoří nějaká query, a tato data se vyberou tak, aby se omezilo, na co se chce člověk zaměřit, to znamená z hlediska témat nebo z hlediska firem, o kterých se chce bavit, nebo z hlediska času. Tento první krok tedy vybírá data.

Krok číslo dvě je velmi podobný nějakému citování, tam se promptuje, co ten člověk chce. Není to syrový model, ale je to připravené tak, aby to bylo efektivní a rychlé. Můžete tedy požádat o report typu "vrátí mi nějaká doporučení" a report může vrátit konkrétní doporučení, nebo generičtější report, který jen zhodnotí existující situaci či vývoj situace.

Druhý krok tedy specifikuje, co chcete, a finální krok je, že to vygeneruje výstup. Ten výstup je v kvalitní formě, asi řeknu PDF – lidé ví, co to je – prostě dokument, který potom odpovídá na otázky, co se s danou oblastí děje, a dá se použít jako finální výstup pro zákazníka nebo pro sebe, když si chcete něco zanalyzovat.

Jaké byly výzvy při implementaci tohoto systému? Je to čistý RAG (Retrieval-Augmented Generation), bylo složité to udělat pro tu doménu, šlo tam o stoprocentní jistotu toho, že RAG řekne i zdroj. Pro někoho, kdo dělá fundamentální analýzu nějaké firmy z koopiny nebo ne, asi nechce halucinace.

Zkusím zmínit některé – v žádném případě si nevzpomenu na všechno –, ale jedna věc je nastavit systém tak, aby si nevymýšlel, když ta data nemá. Myslím si, že se nám to povedlo velice dobře a používáme tedy předzpracovaná data, která jsou připravená pro tento účel, a zůstáváme v rámci kontextu toho, co se děje s danou entitou, firmou, datovým centrem nebo přístavem, který hodnotíme. Takže to je výzva číslo jedna: nehalucinovat, nevymýšlet si a zůstat u tématu, být v rámci toho kontextu.

Další výzvou je samozřejmě finanční aspekt – například vymyslet to tak, abychom zpracovali LLM co nejvíce dokumentů a přitom to nestálo nekonečno. Existuje celá řada přístupů, které to iterativně zpracovávají – můžete si to předvybrat, předpřipravit, dělat skupiny dokumentů, které jsou nějak podobné, vybírat nějakým algoritmem dokumenty, které budete zpracovávat jako vzorek, a pak se k nim ještě vrátit, když vám to nebude vyhovovat. Prostě existuje celá řada přístupů, které vám to umožňují udělat.

Další problém je rozhodnutí, zda chcete využívat službu, nebo provozovat nějaký model sami pro sebe. Musíme se tedy rozhodnout, kterým směrem půjdeme, a potom počítat s tím, jak se situace změní, když se model pod rukama změní. To je také další výzva.

Potom možná úsměvná, ale důležitá je výzva najít dobré lidi, kteří s tím umí pracovat, což si myslím, že se nám povedlo. Tým musím pochválit – daří se jim to dobře.

Když se vrátím k původní otázce – jsou tyto LLM přítomny i uvnitř Shellmostroje, nebo je to funkce primárně pro uživatele? Pomáhají vám LLM s kategorizací, čištěním dat, automatizací uvnitř, nebo je to spíše odemknutí přirozeného jazyka pro uživatele?

Máme LLM asi ve třech oblastech, když to tak shrnu.

LLM pro koncové uživatele, kteří s nimi mohou chatovat a komunikovat.
LLM jako vlastní support, kde dokážeme dělat proof of concepty, pomáhá nám to v každodenní práci i například v Quality Assurance, tedy LLM v provozu.
LLM uvnitř Shellmostroje. Není úplně jednoduché vzít něco, co existuje a dělá spoustu práce už mnoho let, a náhle to přetvořit na LLM. Tak jednoduché to není, ale velká část už na LLM dokáže běžet a dokonce i běží.

Budoucnost tedy vidím tak, že lidí sice nebude méně, ale budou dělat práci více, rychleji a lépe, protože jim LLM pomáhají. Všechny tyto tři místa LLM u nás využíváme.

Jak jsme se bavili o databázích, teď o Shellmostroji – jak je celá platforma napsaná, kdybychom se na to dívali jako na softwarový produkt?

Využíváme všechny prostředky cloudu, což znamená Dataflow, MLflow a další služby. Máme věci připravené v kontejnerech, využíváme Terraform, samozřejmě pomáháme si Pythonem, a protože využíváme BigQuery, tak velká část žije i v určitém typu SQL.

Historicky, když jste začali psát v roce 2012, jaké bylo první jádro Semantic Visions?

Kdysi dávno jsme využívali Javu a jako databázi Postgres a indexovalo se přes Lucene. Lucene a Postgres už nejsou použity. Java stále existuje, ale je jí mnohem méně než dřív.

Změnila se tedy fakt spousta věcí, řekl bych, že prakticky všechno.

Jsou tyto změny konstantní?

Myslím, že se nám povedlo velmi hezky posunout úroveň dokumentace. Sirko zmínil, že s dokumentací je problém. Já chci pochválit Semantic Visions, že dokumentace o využívání nástrojů pro ticketování, intranet a psaní poznámek podle mě funguje hezky.

Gratuluji, protože nevím, jak to je uvnitř, nemohu soudit a hodnotit. Když si ale řekneme, že zde firma funguje 15 let, buduje rule-based řešení, které „sežere celý internet“ a využívá ho pro několik use case – tak si dokážu představit, jak obrovský systém tam uvnitř musí být.

Čím je systém obrovštější a komplexnější, tím obvykle častěji dokumentace chybí, protože není dost času vše hezky popsat. Není to tedy hodnocení, spíše uznání a klobouk dolů, že se vám povedlo dokumentaci vyčistit a jít tímto směrem.

Co znamená teď pro vás, když jste byli víc ve „střevech“ systému, vytváříte frontend, vracíte se v hodnotovém řetězci výše – co to znamená jako firma? Jaké jsou výzvy?

Je to jak výzva, tak výhoda, protože jsme blíže ke zákazníkovi. Musíme s ním mluvit, slyšet, co říká, a pomáhat mu, aby věci uměl dělat, a naslouchat, co máme změnit. A to je i výhoda, protože máme možnost slyšet a na to reagovat.

Je skvělé mít konkrétní uživatele platformy a rozumět tomu, jak ji používají, na co klikají, co chtějí vidět a co by si přáli zobrazit.

Říkala jsi, že vás je 60, když se podíváme na klienty – jsou to spíše globální klienti, nebo jste především v Česku?

Nějakou malou část businessu stále děláme i pro vládu, ale to je drobná část. Největší část obchodujeme přes integrátory. Jsou to technické integrátory, například jsme OEM partnerem SAP, a dále řešení integrátorů, například partner Deloitte UK, partner Atlas Systems z New Jersey, USA. Tyto integrace představují největší počet klientů a jsou pro nás největším zaměřením.

Dále máme klienty, kteří odebírají data přímo, například velmi zajímavé oblasti hedge fondů. Tam data dodáváme přímo jednotlivým hedge fondům. Tito klienti se zajímají, kdo další ta data má, zda jsou data upravena na míru podle jejich požadavků, nebo jestli všichni dostávají to samé. Musíme zachovávat vysokou konzistenci a kvalitu dat za dlouhý časový horizont, takže jsou to velmi zajímaví klienti.

Když se podívám na těch 60 lidí, jaké jsou jejich role? Kolik z nich jsou softwaroví inženýři, kolik se věnuje data science či AI, kolik musí být sales a marketing, když máte vlastní platformu? Jaké je rozdělení týmu?

Tým je rozdělený na několik „departments“ (oddělení), zachovám terminologii.

Máme oddělení, které se zabývá porozuměním textu a quality assurance.

Máme oddělení hardcore software engineering, tedy vývojáře.

Máme oddělení DevOps, které provozuje systém a zároveň vyvíjí spoustu věcí, protože se dnes obě funkce kombinují.

Máme čistě ML (machine learning), respektive AI tým.

Máme delivery tým, který zajišťuje finální data pro klienta nebo pracuje na důkazech koncepce (proof of concept).

Máme marketing a komunikaci, který si myslím, že funguje velmi dobře.

A máme sales tým.

Nahoře máme někoho, kdo řídí finance, a někoho, kdo řídí celou firmu.

Většina z nás je v Česku, ale máme i lidi zejména ve Spojených státech, protože to je naše důležité zaměření.

Co vás čeká letos? Mluvil jsi o velké transformaci, která samozřejmě není dokončená, je to nikdy nekončící proces. Zmiňoval jsi, že část věcí máte pořád na on-premise, dává vám to smysl. Některé věci chcete více měnit a automatizovat, bude to velká výzva pro vlastní frontend a být blízko zákazníkům, nebýt jen anonymní datový zdroj, ale být v kontaktu s klientem minimálně skrze frontend. Co je mise na tento rok?

S radostí musím říct, že už se nejedná o smazání akutního technologického dluhu, naopak – jsme o krok dál, nebo o řadu kroků dál. Čekají nás zajímavé inovace, které chceme postupně implementovat do naší platformy. To jsou skutečné inovace.

Biznisově řečeno: pracovat na rozvoji Semantic Visions jako inteligentní platformy, tedy ne firmy, která „jen“ dodá data a děláte si s nimi, co chcete, ale firmy, která vám dává odpovědi na složité otázky a pomáhá vám v byznysu a rozhodování.

Jsme velmi zajímavý tým, my máme snad 13 až 15 národností. Je mezi námi mnoho šikovných a inteligentních lidí. Stále hledáme nové kolegy.

Koho chcete nabrat do roku 2026?

Budeme se zaměřovat zejména na AI, development a DevOps. Kromě těchto hardcore funkcí hledáme často lidi, se kterými si „klikneme“, se kterými si rozumíme a kteří nám pomohou firmu řídit z hlediska správy produktů (product ownership) a projektového managementu.

To podle toho, co jste říkal, je potřeba, která u vás velmi roste.

Děkuji, že jsi tady s námi takto sdílel 15 let Semantic Visions a co mu předcházelo. Jsem velmi rád, že jsme mohli mluvit, protože Semantic Visions je pro mě jedna z legendárních firem na českém technologickém trhu. Jsem moc rád, že jste to nezabalili a že teď začínáte druhou vlnu. Držím palce a těším se, kam tento příběh, jak tvůj, tak Semantic Visions, bude směřovat dál.

Jirko, děkuji za pozvání. Data Talks je super a všem přeji zdraví a aby měli kolem sebe hodné a dobré lidi.

Děkujeme, že jste poslouchali až sem, a díky také našim stálým partnerům a členům Data Talk klubu, kterým jsou SASka, TV Nova, Direct Technologies, Good Data, Myton, Colors of Data, Bistreet, Flow, Carl Data Company a Intex.

Díky moc za podporu a nechť vás provází data!

Podcast

Data Talk #170: Julius Rusnak (Semantic Visions)

Strojový přepis

Odebírejte Data Talk