Data Talk #81: Petr Nemeth (Dataddo)

Do dalšího dílu přijal pozvání Petr Nemeth, zakladatele a CEO startupu Dataddo. Petr je prvním hostem, kterého máme v Data Talk podcastu podruhé! S Jirkou Vicherkem probírají, co se za více než rok jejich posledního rozhovoru na mikrofon stalo. Dataddo totiž značně vyrostlo a rozšířilo svoji působnost. Uslyšíte, jak Gen AI změnila trh s datovými řešeními, jak jej drivuje mj. evropská legislativa a proč je pro Dataddo tématem číslo jedna security a compliance.

Strojový přepis

Dobrý den, moje jméno je Jirka Pecherekt a vítám vás u dalšího dílu Datatolku. Tento díl je speciální, protože mám tady vzácného hosta Petra Neméta, zakladatele a CEO rychle rostoucí technologické firmy Datadu.

Ahoj, Petře.
Ahoj, Jirko, děkuji za pozvání.

Speciální je tento díl proto, že Petr je náš jubilant. Je to první host, který se u nás objevil sám o sobě, a to hned dvakrát. Před rokem a měsícem, tedy v únoru 2023, jsme s Petrem natáčeli epizodu o tom, čím se Datadu zabývá, jak jejich trh vypadá a jaké problémy řeší. Za ten rok se na trhu s datovou analytikou, daty a jejich zpracováním změnilo několik věcí, a proto jsme si řekli, že by bylo skvělé se na to podívat právě skrze Datadu a zjistit, co se změnilo u této společnosti a jak Petr vnímá tyto zásadní změny. Těším se na to.

Petře, než přejdeme k rekapitulaci posledních 12–13 měsíců, mnoho našich posluchačů možná neslyšelo tu původní epizodu, někteří možná dosud nenarazili na Datadu, nebo tomu nevěnovali tolik času, aby si vás správně zařadili. Dokonce i mně chvíli trvalo, než jsem se v tom zorientoval, protože trh moderního datového stacku zahrnuje mnoho subjektů. Můžeš tedy začít svým obchodním pitchem a popsat, co je Datadu a kam si vás máme zařadit?

Určitě. Mockrát děkuji za pozvání a za představení. Samozřejmě doufám, že na konci tohoto podcastu dostanu nějakou hezkou plaketu jako jubilant, abych si ji mohl dát do kanceláře. Datadu je datová integrační platforma, označujeme ji jako „Business User First, Developer Friendly“. Vycházíme z premisy, že datové workloady ve firmách jsou primárně řízeny obchodními lidmi, tedy business uživateli. Naší dlouhodobou vizí je zpřístupnit těmto uživatelům bezpečný a jednoduchý způsob, jak přenášet a propojovat data mezi různými systémy, aby si mohli vytvořit přesně to, co potřebují – ať už jde o data analytics, nebo třeba aplikace založené na umělé inteligenci, na které dnes určitě také přijde řeč.

Co se týká našeho fungování, zaměřujeme se na takzvané integrace typu Any-to-Any. Historicky jsme začínali jako klasická ETL firma, nebo lépe ETLT. To znamená, že v procesu nahrávání dat provádíme drobné transformace, kterými data zjednodušujeme tak, aby uživatel, když je obdrží ve finální destinaci – typicky v datovém skladu, datovém jezeře nebo dashboardové aplikaci – měl s jejich další transformací co nejmenší práci a nebyla příliš složitá.

Velkým tématem, kterému se věnujeme i v minulém roce, je Reverse ETL – tedy opačný směr integrace. Význam tohoto procesu spočívá v tom, že data máte uložená v datovém skladu a potřebujete je posílat zpátky do různých aplikací. Pro tento případ jsou dva hlavní use-casy. Prvním je například CRM data enrichment, což znamená, že nejprve stáhnete data o zákaznících z CRM systému, třeba Salesforce do datového skladu. Každá firma má jiný způsob tvorby scoringových mechanismů zákazníků či prospektů, které nechcete vystavovat přímo uživatelům, ale chcete je zpřístupnit v jejich vlastním systému – například marketingovým či obchodním pracovníkům, kteří s daty pracují přes vlastní CRM nebo jiné nástroje. Reverse ETL právě umožňuje, aby tyto informace viděli přímo v daném systému a ne jenom v datovém skladu.

Naší dlouhodobou vizí je být infrastrukturní platformou, která zabezpečuje přenos dat jakýmkoliv směrem a mezi různými systémy, a současně zůstává přívětivá a jednoduchá pro širokou škálu uživatelů.

Jsem rád, že zmiňuješ označení ETL, protože většina nástrojů, které vznikly jako ETL, se tomuto označení brání. Pro mě je to ale přesné vyjádření, kam v infrastruktuře a v datovém stacku patří vaše řešení. Líbí se mi, jak přiznáváš, že nechcete být platformou na všechno nebo poslední aplikací, kde se data konzumují. Pro mě je to férový přístup, protože spousta firem má ambice být vším všudy, ale vy se z mého pohledu řadíte do role datových „trubek“ s přidanou hodnotou. To se mi velmi líbí.

Vidím, že dataset pipeline a tradiční ETL už prostě nestačí a je potřeba řešit mnohem víc věcí. Když se podívám na vaši firmu, jste český startup, zafinancovaný. Kolik vás teď vlastně je a jak to máte byznysově?

Říkáme o sobě, že jsme česko-americká firma. Jeden z našich spoluzakladatelů je Američan a náš první kancelářský prostor byl v Mountain View v Silicon Valley. V Česku máme většinu týmu – vývoj, velkou část podpory a další klíčové pozice. Jsme tedy firma s pevnými českými kořeny. Naše zákaznická báze je z přibližně 98 % mimo Českou republiku, 60 % tvoří zákazníci v USA, zbytek jsou zákazníci ze západní Evropy, Afriky, Asie či Latinské Ameriky.

Momentálně nás je kolem padesáti. Jsme zafinancováni českým manažerským kapitálovým fondem Impulse Ventures, který vede Ondřej Tomek. Jako každá technologická firma máme ambiciózní cíle. Na trhu, který je silně konkurenční a rychle rostoucí, je tento přístup nezbytný. Minulý rok jsme například dokázali zdvojnásobit obrat a tento cíl máme i pro letošní rok. Naším dlouhodobým plánem je několik let škálovat růst dvojciferným tempem.

Co se týče našeho přístupu v byznysu, začínali jsme jako čistě PLG firma – tedy Product Led Growth. Tento pojem znamená, že investujeme hlavně do marketingu – organického, placeného, sociálních sítí – abychom přilákali návštěvníky na různé touchpointy, například web nebo blog. Ti mohou vyzkoušet náš produkt v trialu, a z kvalifikovaných trialistů pak vznikají zákazníci. Tento kanál pro nás stále velmi dobře funguje, ale jak firma roste a míří do různých tržních segmentů, postupně přidáváme další kanály.

Kromě toho se vyvíjí i samotný trh, zejména s nástupem hyperscalerů jako Google Cloud Platform, Azure, AWS. Jelikož patříme do moderního datového stacku (ač mám k tomuto pojmu i určité výhrady, protože si myslím, že modern data stack možná míří dál, než by měl), je pro nás důležité být dobře začleněni do celého ekosystému.

Jsem rád, že zmiňuješ PLG, protože to dobře ilustruje rozdíl. Na začátku jsem například nerozlišoval vás a Kebulu. Celkově v Česku slyším tyto pojmy velmi často. Váš prostor v datovém stacku mi vypadá velmi podobně. Vysvětlil jsi mi ale, že vaše zaměření je právě na byznysové uživatele – například marketingové nebo obchodní týmy, které nechtějí čekat na IT oddělení, aby jim něco udělalo. Skoro mám dojem, že si to kupují přímo sami kreditní kartou, protože je to jednoduchý SaaS produkt bez potřeby rozsáhlého prodeje. Znamená to tedy, že produktovou strategii PLG máte hodně silně propracovanou?

Ano, přesně tak, ale situace se postupně vyvíjí. Dnes už máme i „lovce mamutů“ – tedy větší zákazníky a korporátní segmenty.

Pokud jde o PLG, ten model znamená, že prodejní proces je hodně reaktivní – cílem je objevit lidi, kteří si svůj problém uvědomili, třeba hledají způsob, jak dostat data ze Salesforce do Snowflake. Takže cílíme na zákazníky, kteří už mají potřebu, a soustředíme se na to, abychom zvýšili viditelnost na internetu. Je to velmi efektivní a šetří spoustu zdrojů.

Naopak jsou firmy, které chtějí dělat evangelizaci a rozšiřovat povědomí o správném řízení dat, kde se prodej koná aktivněji, třeba na setkáních, workshopech, s podporou sales týmu. Proto postupně přidáváme další kanály.

Navíc zůstává platné naše motto „business user first, developer friendly“ – máme přívětivé uživatelské rozhraní, ale zároveň poskytujeme robustní API. Jedním z hlavních témat letošního roku je pro nás tzv. configuration as code, což znamená, že uživatelé mohou exportovat konfiguraci do souborů, verzovat je na GitHubu a spravovat jako kód. Takže už běžný obchodník nebo marketingový pracovník nemusí řešit složitý datový engineering.

Abychom vyhověli různým tržním segmentům, vytvořili jsme tři různé balíčky produktu:

1. Data to Dashboards – řešení pro jednoduché případy, například jak dostat data z nějaké služby do Power BI či Tableau.

2. Data Anywhere – náš hlavní produkt zaměřený na datová jezera a sklady, tedy nalévání i vylejování dat mezi systémy.

3. Headless – OEM řešení, kdy například startup poskytující inovativní prodejní analýzu může využít naši technologii jako backend pro integrace bez vlastního vývoje konektorů. Takové firmy si mohou od nás prostě vzít API a celý balík konektorů, aniž by musely cokoli kódovat.

To je ideální řešení pro firmy, které mají hluboké znalosti svého oboru a algoritmizaci, ale nechtějí se zabývat datovým inženýrstvím.

Mluvili jsme o konkurenčním prostředí, a přijde mi, že největším globálním konkurentem je Fivetran. Je to tak?

Ano, to je globální hegemon, proti kterému bojujeme jako David proti Goliášovi. V kontextu těch tří produktů, které jsem zmínil, se například v případě Headless nepotkáváme s nástrojem dbt.

Headless je totiž zaměřený čistě na to, aby klient mohl vytvořit vlastní datový produkt s integračními potřebami a přitom si nemusí vyvíjet konektory sám. Už zmíněný příklad magic sales aplikace vyžaduje integrace do desítek různých CRM systému – například Salesforce, HubSpot, Exact Online a další. My jim zprostředkujeme kompletní portfolio konektorů přes naše API, což jim výrazně zrychlí vývoj a sníží potřebu psát vlastní kód.

Dbt v tomto případě není řešením integrační infrastruktury jako takové, ale spíše nástrojem pro transformaci dat v rámci datového skladu.

Co se týče klientů, zmíním například Twitter, který je pro nás krásným příkladem zákazníka, kterému pomáháme optimalizovat procesy a samozřejmě přitom soutěžíme o podíl na jejich utrácení za cloudová řešení.

Takže shrnuto, i někdo, kdo neslyšel náš podcast před rokem, by už měl být schopen si vaši firmu Datadu a váš byznys zařadit.

Ano, přesně tak.

Pokud budete chtít, rád vám pomohu s dalšími částmi nebo s jinými úpravami.

Kdo používá Salesforce, někdo používá HubSpot, někdo používá Exact Online, možná používá ještě nějaké další systémy. A ta propozice je čistě ve smyslu, že my jsme ten akcelerátor, který vám vlastně umožní postavit ten konektor rychleji. Postavit ten konektor rychleji, aniž byste museli cokoli kódovat. Vy vlastně si akorát napojíte naše API a najednou máte k dispozici celé portfolio konektorů, které máme. Což je vlastně ta propozice.

Myslím si, že teď ještě možná zmíním nějaké klienty. I ten, kdo neslyšel před rokem náš podcast, už ví, kam si data vložit a jak zařadit svůj byznys. Máme například Twitter, což byl takový krásný klient, globálně známá firma.

Dále marketingovou síť Ogilvy a co je důležité říct, nemohu zmínit jméno, ale nedávno se nám podařilo uzavřít dohodu s jednou globální FMCG firmou, která má sídlo v Evropě. Tam vlastně DataDů funguje jako centrální platforma pro přenos dat a reálně nás konzumuje 30 tisíc uživatelů v rámci celé globální organizace. To už je opravdu veliký „mamut“.

Co se stalo za posledních třináct měsíců, co jsme se neviděli ve studiu? Předpokládám, že toho bylo hodně všude. Ale co pro tebe jsou ty lessons learned? Co tě naučily poslední měsíce, Petře?

Přemýšlím, zda už máme vypustit toho slona, nebo ještě ne. Velmi dlouho jsme se o něm bavili, aniž by padlo jméno.

Samozřejmě, stala se umělá inteligence, což je velká věc, která z mého pohledu nakopla celý datový byznys. Například když se s partnery bavíme, je vždy zajímavé pochopit, jaký je jejich finální use case, na co reálně potřebují datové přenosy, které zajišťujeme.

Před rokem asi 95 % všech případů bylo kolem data analytics. Takže to byl koncový use case – ať už to bylo doručování dat do datového skladu, do datového jezera nebo někam jinam – vždy to bylo okolo data analytics, případně reportingu, dashboardingu a další. Dnes je asi 30 % těch případů vlastně AI. Firmy potřebují konsolidovat a přenášet data proto, aby mohly finálně využívat řešení spadající do široké kategorie AI.

Pro nás je to extrémně zajímavé, protože se od začátku snažíme vnímat jako infrastrukturní firma. To znamená, že když mluvím o tom, že děláme trubky pro data, snažíme se tuto analogii dostat dál. Data se stávají, nebo budou čím dál víc, kritickým byznysovým aktivem pro jakoukoliv organizaci. A pro práci s tímto kritickým aktivem potřebujete nástroje, které dokážou s daty pracovat takovým způsobem, aby ta kritičnost byla naplněna.

Vidíme, že je pro firmy čím dál důležitější řešit jednak kvalitu dat, jednak způsob, jakým jsou data přenášena – aby bylo vše bezpečné, bez výpadků, monitorované a s určitými SLA. A toto všechno AI do velké míry akceleruje, protože když se data někam přenesou, dejme tomu do datového skladu, a na to je navěšeno rozhodování, reporting nebo businessové aplikace, tak že chyba někde na začátku nebo v průběhu může mít zásadní důsledky. Tato komplexita roste a firmy budou proto stále více řešit kvalitu samotné infrastruktury – ať už přenosu, úložiště nebo čehokoliv dalšího.

Obracíme se k tomu. Mně se líbil příměr, který jsi říkal před naším natáčením, k elektřině, vodě nebo internetu. Když ti datová pipeline vypadne, tak je to vlastně blackout, datový blackout, což znamená velké ztráty.

Jak je to podle tebe spojeno s AI? Je AI čistý katalyzátor? Firmy si díky ní začaly uvědomovat důležitost dat, takže mnohem víc lidí v těch firmách najednou chce konzumovat data?

Jaký vidíš vztah mezi rostoucí důležitostí dat a tím, jak začala AI letošního roku více prosakovat?

Můj příměr bude na základě našeho obchodně-segmentačního procesu. Když pracujeme se zákazníky, vždy nás zajímá jednak end-use case, ale klíčová otázka, kterou se snažíme zjistit, je, kolik lidí bude vlastně ta data používat.

Zpětně je to jasné, ale je obrovský rozdíl, zda data konzumuje jeden člověk, nebo tisíc lidí. Může to být úplně stejné množství dat, stejné řádky, ale hodnota pro organizaci je diametrálně odlišná.

Když data konzumuje jeden člověk, pokud pipeline nefunguje, tak asi ví, kam se podívat, že si to třeba někde restartuje – je to jeho problém.

V okamžiku, kdy těch lidí je tisíc, nebo je k tomu ještě nějaký poloutonomní mechanismus, který aktivuje notifikace, tak i když jsou to stejná data, hodnota, kterou má organizace z té pipeline, je úplně jinde.

Z tohoto úhlu pohledu vnímám AI jako katalyzátor, protože z situace, kdy data konzumoval jeden člověk, se stává situace, kdy je konzumuje celá firma, která do určité míry na datech závisí.

To zásadně změní vnímanou hodnotu datových stacků ve firmách.

Například pokud používáš Tableau a chceš vytáhnout data z datového skladu, tak je to komplikované, protože musíš reporty často refreshovat.

Proč? Protože při stavbě systému se předpokládalo, že jsi koncový uživatel, který refreshuje jednou za čas – a to nevadí.

Ale najednou, když dashboard používá větší počet uživatelů, to je problém.

V této analogii právě vidím, co AI udělá s naším byznysem a s firmami obdobného typu jako jsme my.

Vidím, že pro nás je agent nebo velký jazykový model (LLM) či na něm postavený produkt dalším konzumentem dat.

Takže když se ptáš, kolik lidí uvidí data, teď je to otázka, kolik lidí a AI agentů data uvidí – čím více autonomních jednotek a byznysových funkcí ve firmě je napojeno na jednu pipeline, tím větší je závislost.

To je stejné, jako kdybychom byli dodavatelé elektřiny.

Kdybychom na konci 19. století dodávali elektřinu do vesnice, kde je jen jedna lampa, a ta elektřina na pár hodin vypadne, nebylo by to nijak kritické.

Dnes, když vypadne elektřina v nějakém městě na dvě minuty, spočítej si ekonomické škody.

Takže analogie je jasná.

S tímto novým use case, s AI use casem a novými konzumenty dat – změnilo se za poslední rok něco v tom, jak to prodáváte nebo komunikujete?

Udělali jste nějaký velký převrat v tom, co je DataDů navenek, i když je to pořád ta stejná trubka s přidanou hodnotou?

Pro nás byl jeden z hlavních strategických úkolů před začátkem minulého roku začít víc pracovat v rámci ekosystému.

Pro nás je strategický imperativ být technologickou datovou platformou, tedy fungovat téměř se všemi technologiemi, které firmy mají.

Současně si uvědomujeme, že jsme součástí moderního datového stacku, který je často dodáván hyperscalery, jako Google, Azure nebo AWS.

Firmy, které nás používají, jsou často už komitované u těchto velkých cloudových vendorů a řeší například téma revenue operations.

Je pro ně nepraktické mít padesát různých dodavatelů na vše možné.

Ideální je pro ně jedna zastřešující entita, která řeší biling, reklamace a podobně.

Pro nás byl proto strategický úkol, aby DataDů v ekosystému hyperscalerů byl „first class citizen“ – to znamená, abychom byli dostupní na marketplaces. Například firma, která používá BigQuery od Google nebo Redshift od Amazonu, aby nás mohla koupit přímo přes ekosystém Googlu či Amazonu a zároveň využívat tyto hyperscalery jako zastřešující biling entitu.

To se zásadně změnilo a zajímá to klienty od určité velikosti, pro malé firmy to není téma.

Pro firmy s technologickými nebo finančními závazky u cloudových poskytovatelů je to velké téma a zároveň pro nás i způsob, jak promazat obchodní proces.

Je to těžké? Platí tam jiné podmínky? Nebo je to už standardizované a multi-cloud je realita, kdy vylistovat něco na AWS je stejné jako na Azure a když to jednou uděláte pořádně, dá se to řídit z jedné konzole? Nebo jsou to tři různé světy, které je nutné spravovat samostatně?

Je to extrémně těžké, protože k tomu, aby vás vylistovali na marketplace, musí zákaznické workflow běžet v daném cloudovém prostředí.

To znamená, že naše infrastruktura a technologie musí být postavená tak, že ji lze deployovat u kohokoliv z velkých cloudových hráčů.

To je navíc práce a není technologicky triviální zejména proto, že fungujeme jako multitenantní řešení.

Nepracujeme tak, že bychom pro každého zákazníka nasazovali vlastní infrastrukturu, ale fungujeme multitenantně.

Musíme to tedy udělat tak, aby si zákazník mohl v rámci select boxu vybrat, u jakého cloudového vendora chce být, a zároveň kde chce, aby se jeho data reálně zpracovávala.

To je téma bezpečnosti a compliance, které samozřejmě musíme řešit.

Není to triviální záležitost, proto nám to trvalo několik měsíců.

Naštěstí díky vizionářství našeho CTO a technického týmu to nebyla tak výrazná bolest.

Ale zároveň to není úplně startupový přístup.

Teď se to začíná vyplácet.

Já si říkám ale, jestli není lepší udělat to rychle optimalizovaně pro jednoho poskytovatele, než to dělat pomalu a udržitelně pro všechny tři.

Bylo to těžké rozhodnutí, které se vám teď začíná vyplácet.

Na druhou stranu vždy, když se rozhodnete dělat to s jedním, musíte přijmout riziko, že právě ten jeden bude vítěz či odpoví vašemu zákaznickému segmentu.

Většina našich workloadů běží na Google technologiích. Neříkám, že drtivá většina, ale určitě zhruba 40–50 %.

Google to také posílil díky BigQuery, Fledger a dalším nástrojům.

Ty se zaměřujete na marketingová data, takže tomu dobře rozumím.

Takže z tohoto úhlu pohledu to je býti připravený udělat sázku, že vsadíte na jednoho, což je rychlejší, ale znamená to trade-off v technologiích – udělat to rychle může výrazně omezení otevřenost v budoucnu.

My jsme se rozhodli jít spíš pomalejší cestou, ale být připravení na multi-cloud prostředí.

Zmínil jsi multitenantnost.

Vidíte to u zákazníků? Mám pocit, že FinOps, RevOps, Modern Data Stack vede k nějaké konsolidaci, zejména kvůli hospodářské situaci.

Proto si projdou jednotlivé subscriptions a řeknou si, na co co je, co se duplikuje, že lepší je platit jen jednou a ne dvakrát.

Vidíš snahu o optimalizaci na jednotné řešení?

Živých částech toho procesu, že když mám výpočet levnější někde jinde, tak to posílám právě na výpočet tam a jiné si nechávám tady, a takhle si to skládám jako dílky spíše z ekonomického pohledu? Určitě ano. Já například, když jsi na začátku zmínil Modern Datastech, tak jsem k tomu dodal, že si myslím, že Modern Datastech šli příliš daleko. Já jsem totiž úplně na stejném místě s touto vizí, protože samozřejmě komplexita v rámci dat narůstá a není v silách jednoho vendora zvládnout vše end-to-end. To znamená, že je nevyhnutelné vznikání specializovaných řešení na nějaké konkrétní části workflow, s čímž souhlasím.

Ale co se mi zdá neudržitelné, je například situace, kdy firma musí mít dedikovaného vendora na ETL, dedikovaného vendora na reverse ETL a ještě dedikovaného vendora, který řeší databázové replikace. Samozřejmě chápu, že každé řešení má svou technologickou komplexitu, ale podle mě určitě v budoucnu proběhne konsolidace, která bude probíhat v rámci větších funkčních celků.

A teď se vrátím k tomu, o čem jsme mluvili na začátku, proto se my snažíme prosazovat vizi, kterou nazýváme end-to-end integrace. To znamená, ať už jde o ETL nebo reverse ETL – tedy obousměrné datové trubky – ale zároveň se nesnažíme dělat věci nad datovým warehouse nebo za ním. To je přesně to, co chceme trhu nabídnout.

A teď ohledně tvé otázky o revenue operations – určitě s tím souvisí i náš krok ohledně marketplace, protože zásadním argumentem pro nás bylo několik výzkumů, které ukazovaly, jak se v čase mění procento firem, jež budou preferovat nezávislá vendorská řešení versus integrovaná řešení pod hyperscalerem. Určitě to bude směr, kterým se bude trh ubírat. Firmy budou čím dál více preferovat, že pokud mají cloud od Google nebo Azure, tak aby všechny technologie kolem tohoto cloudu byly napojeny a fungovaly v rámci těchto entit.

Pro Google, Microsoft i Amazon je to extrémně zajímavý byznys a pro nás v rámci celého procesu je důležité, že když například řešíme obchodní proces a měníš našeho konkurenta Fivetran, vždycky se v diskuzích dostane na cenu. My máme mírně levnější nákladovou strukturu než Fivetran, což nám umožňuje být o něco levnější. Samozřejmě si s cenou dokážeme jít níže, ale argumenty, které u nás fungují nejlépe, jsou v podstatě dva.

Prvním je cenová transparentnost. Firmy totiž neřeší absolutní výši nákladů, ale spíše chtějí, aby byl jejich business model predikovatelný s ohledem na to, že data budou stále důležitější. To znamená, že si chtějí být schopny říci, jaké náklady přinese další zapojení systému, kolik to bude stát. U Fivetranu to často nefunguje tak dobře a jednoduše.

Druhý argument, který používáme a který funguje opravdu dobře, je ten, že my děláme ETLT, tedy takové lehčí transformace mezi tím. Má to zajímavé nákladové dopady pro firmy. Klasický ELT model, který tlačí Fivetran, je založen na tom, že se vyladí co nejvíce surových dat, která se nalejí do datového skladu a teprve tam se udělá několik transformací. To se líbí cloudovým vendorům, ale znamená to, že pokud jsou data hodně surová, a když se dostanou do datového skladu, musí firmy platit značné částky za jejich transformaci do podoby, která je vhodná pro analytiku.

Když se vrátím k našemu ETLT, dokážeme data doručit v „analytics ready“ podobě – což znamená hezkou dvourozměrnou tabulku, kde floaty jsou floaty, stringy jsou stringy a data mají své formáty. To zásadně snižuje transformační komplexitu na datovém skladu a zároveň významně šetří rozpočet. Mám jeden hezký případ, kdy zákazník přecházel od Fivetranu k nám a díky tomuto procesu jsme dokázali ušetřit 50 % jejich účtu za data warehousing.

Protože se v technologiích pohybuji přes deset let, líbí se mi, jak lze sledovat trendy a cykly – coupling, decoupling, konsolidace trhu versus vznik monopolů nebo duopolů a jejich rozbití. Snowflake například rozbil a změnil trh data warehousingu. Rozumím tomu z éry Big Data a Data Lake, kde se všechno sypalo do jednoho datového skladu, což podle mě nikdy nebyl opravdový lake. Lidé si pak z toho vytáhli, co potřebovali. Dneska je to spíše o tom, že nemusíme posílat všechno, ale čistá data. Nekvalitní data nemají nulovou hodnotu, jen hodnotu zápornou.

Toto vidím a rozumím tomu, jak se snažíte tyto věci prodávat a dělat. Co to tedy znamená z produktového hlediska? Zní to celkem jednoduše, algoritmicky, ale protože máme tady systém Atakama a velké systémy data governance, které jsou obrovským tématem, jak si u vás vyhledáváte to svoje místo? Jak v týmu rozhodujete, co ještě ano, co být na úrovni trubky a co už ne? Kde trubka má být hygienická, zdravá a protékající čistou vodou, a kde to už není váš problém, protože je to velmi komplexní?

Rád to vezmu šířeji. Pro mě byla inspirací teorie fraktálů. Když přemýšlím o produktech, často hledám analogie z úplně jiných oblastí a světů, které fungují dobře. Toto je přesně způsob, kterým my přistupujeme k datovým trubkám – dáváme jim přidanou hodnotu.

Loni jsme například představili jako první na trhu data quality firewall na úrovni trubek. Data quality je pro nás a naše zákazníky obrovské téma. Víme, že existují komplexní robustní nástroje na data quality, typicky fungující nad datovým skladem, ale podívejme se do přírody. Když si napouštíš bazén z rybníka, nevypustíš tam úplně nesfiltrovanou vodu, která se pak pokoušíš chlorovat a lovíš z ní nečistoty. Do trubky dáš první filtr nebo mřížku, která chytí listí a hrubé nečistoty, aby voda, která teče do bazénu, byla již čistší. Potom můžeš přidat chlor a teprve tak máš vodu, ve které se dá koupat.

Tak přistupujeme i my. Nemáme ambici vyřešit problematiku data quality na 100 %, ale chceme, aby na úrovni trubek odchytávali anomálie, hodnoty mimo sekvenci nebo nulové hodnoty, které tam nemají být. Semantiku už tolik neřešíme, ale pro mnoho zákazníků je tento přístup dostačující. Někdo nemusí mít problém si koupat se v bazénu s vodou z rybníka, pokud v ní není listí, pro někoho je potřeba ji ještě vyčistit chlorováním a pokud chceš vodu pít, je potřeba další úprava.

Co se týče feature, které přidáváme do naší platformy, jdeme tímto směrem. Dalším obrovským tématem pro nás jsou bezpečnost a compliance, které jsou podobně komplexní jako data quality. Nedávno jsme přidali tzv. data privacy firewall, který umožňuje zákazníkovi nastavit compliance pravidla (například GDPR nebo CCPA pro Kalifornii). Když dojde k nalezení hodnoty či sloupce mimo danou politiku, umíme to technicky ošetřit.

To neznamená, že problém vyřešíme 100 %, ale tímto vyřešíme většinu zásadních otázek a pak záleží na zákazníkovi, jestli mu to bude dostačovat, nebo bude potřebovat další řešení.

To mi hezky navazuje, protože vnímám, že se data quality obrátila. Dříve byla data governance a data quality povinností, tlačenou legislativou, byla to nutnost. Dnes se ukazuje, že když se to dělá kvalitně, generuje to byznys a skutečnou hodnotu.

Jak vnímáš aktuální legislativu? Včera například byl přijat AI Act. Jak vidíš ty zvyšující se požadavky? Za mě regulace je určitě potřeba. Čím více jde o kritickou infrastrukturu či rozhodování o našem každodenním životě, tím větší je potřeba monitoringu a governance.

Co to znamená pro vás v kontextu těchto trubek a podobných nařízení? Pro nás aktuálně znamená, že bez SOC2, ISO 27001, HIPAA, PCI-DSS certifikací nejsme schopni uzavřít větší kontrakty. Požadavků je hodně a stále přibývají.

Na jednu stranu jsou to oprávněné náklady, například bezpečnostní certifikace jsou důležité, protože pracujeme s daty zákazníků a chci mít jistotu, že jsou zpracována podle bezpečnostních standardů a že jsou pod pravidelnou auditní kontrolou.

I když nás to stojí více peněz, vnímáme to jako přidanou hodnotu, zvlášť v porovnání s americkou konkurencí, která na tyto aspekty dbá méně. Zákazníci si uvědomují, že evropské firmy musí být v souladu s naší legislativou, takže tyto certifikace jsou pro ně zásadní.

Bez těchto certifikací bychom nebyli schopni nabídnout naše řešení větším klientům. Snažíme se jít zákazníkům naproti a vkládat tyto prvky i do našich chytrých trubek, aby celý proces byl co nejsnadnější.

Typická situace je například data lake, kde je uživatel z ERP, které má velmi utažená bezpečnostní pravidla, doslova přesně vymezená, kdo kam může. Potom se tam dostane ETL proces, který všechno přenese do datového lake či skladu, kde analytici taková pravidla nedodržují. My pomáháme eliminovat podobné bezpečnostní problémy.

Zákazníci si tak mohou vytáhnout data, která obsahují citlivé informace, a my je dokážeme anonymizovat, hashovat tak, aby analytici mohli s daty pracovat, ale zároveň nebyla porušena pravidla compliance. Pro nás je to hodně důležité.

Vnímáš tedy, že se trh posunul, že data governance a security už nejsou jen povinností, ale vidí se v tom skutečná hodnota? Přemýšlím o příměru se software engineeringem a QA. Dříve byl trend „move fast and break things“, rychlý vývoj bez QA, ale i startupy dnes dávají velký důraz na CI/CD, QA, protože vědí, jak velký problém může nastat, když se to první přeskočí.

Myslíš, že i v oblasti dat se podobně posouváme? Ano, myslím, že je dobré začít řešit bolestivé věci brzo, protože pak se z nich mohou stát tvoje silné stránky. Když jsme před dvěma lety začali s první SOC 2 certifikací, bylo to náročné – dokumentovat všechny procesy, zavádět pravidla pro zaměstnance, zakázat používání flash disků, vynutit bezpečnostní mechanismy, šifrování, povinné dvoufaktorové ověřování.

Pro hodně lidí to byl strašný opruz, ale zároveň je to nezbytné. Já jsem také chtěl do startupu, ale pochopil jsem, že bezpečnost je klíčová. Když mluvím s přáteli v korporacích, kteří takové mechanismy denně používají, obdivují, co vše máme nasazeno.

(…)

Tady je přepis textu do spisovné češtiny s plným zachováním obsahu:

Tady se i pracuje jako v bance. A tam například vůbec takové věci neřešíme my. Na druhou stranu, samozřejmě, začali jsme to tak dělat brzy, takže teď už je to vlastně rutina, na kterou si všichni zvykli. Všichni vlastně chápou, že je to důležité. Všichni chápou, že to našim zákazníkům přináší hodnotu. A samozřejmě ten trh…

Vždycky je to o tom, že tyto věci vnímáš jako nutné zlo do doby, než se někde – musím samozřejmě doufat, že se to nestane tobě – stane nějaký opravdu velký problém, například nějaké zásadní úniky dat a tak dále. Samozřejmě pak firmy začnou tyto věci řešit a teprve si uvědomí, že to je vlastně, jako s pojištěním – že bezpečnost, kterou tak vnímám jako takové pojištění, je něco, za co musíš každý měsíc platit, je to trochu opruz, ale tu hodnotu oceníš až ve chvíli, kdy to pojištění opravdu potřebuješ.

A pak možná začneš pojišťovat věci, které by tě normálně ani nenapadly. Nejlepší pojištění je totiž to, které nikdy nevyužiješ, což je takový vlastně kontrahintuitivní fakt. Kam podle tebe se to bude dál ubírat? Mě velmi těší, že cítím nebo slyším něco optimistického ohledně našeho evropského technologického trhu – že přísnější regulace může být výhodou, tedy konkurenční výhodou, a že u některých klientů je to, že jste “papeštější” než jejich americké nebo jiné protějšky, rozhodující prvek.

Vnímáš nějaký rozdíl mezi těmito dvěma trhy – Amerikou a Evropou – v tom, jak se vnímají data a jejich důležitost? Nebo zase v rámci vašeho pohledu na západní Evropu – je to jasný segment, tak bys nepoznal, jestli je to klient z Montany nebo z Německa? Určitě. Kdybych to měl srovnat, tak ti evropští zákazníci, které máme, mají požadavky na bezpečnost a soulad s předpisy určitě vyšší než Američané. Samozřejmě když dochází k obchodnímu prověřování, firma ti pošle nějaký dotazník týkající se bezpečnosti, a podle rozsahu a detailnosti tohoto dotazníku mají Evropané tendenci být náročnější.

Mám pocit, že umělá inteligence do toho ve skutečnosti nevnesla zásadní zmatek, ale spíše podpořila některé teze, a hlavně v oblasti byznysu, marketingu a prodeje konkrétně posílila poptávku po napojení na datové zdroje. Protože teď chce větší počet lidí pracovat se svým chatbotem a hrát si s daty. Myslíš si, že tam budou ještě nějaké změny, nebo jestli v části vaší infrastruktury, tedy v trubkách, toho zase tolik nevymyslíš? Nebo jestli ten „paradigm shift“ nemůže být tak velký, protože vždycky budeš potřebovat přenášet data z jedné strany na druhou a zpět, a pořád je to trubka, i když na ni nasadíš senzory a dvouvrstvé mřížky?

Mám pocit, že určitě ano. To, co my čekáme, a to je i důvod, proč tolik řešíme bezpečnost a soulad s předpisy, je to, že s ohledem na naši vizi a AI – protože jsme mluvili o tom, že firmy pracující s daty řeší bezpečnost a soulad především – ale to, co AI s tím udělá, bude podle mě zase o úroveň výš. Ten černý box, který si tam nasadíš v okamžiku, kdy začneš používat AI, má svá úskalí. Pokud vstupní data obsahují něco, co tam nemá být, tak je to méně předvídatelné. Čekám tedy, že s větší adopcí AI porostou také požadavky na bezpečnost a soulad s předpisy. Doufám, že se v tomto ohledu naše vize naplní.

Co se týče toho, jak moc se ty trubky změní, tak téma, se kterým pracujeme, je hodně o tom, že integrační potřeby se budou stále více stávat realtimejšími – právě s ohledem na rostoucí počet lidí využívajících velké jazykové modely (LLM) a podobně. Je to z toho důvodu, že když pracuješ s analytickými nástroji, tak až na nějaké výjimečné případy tě data freshness příliš nezajímá. Pokud máš data odebíraná třeba jednou za pět nebo deset minut, pořád je to pro většinu byznysů dostatečné. AI to ale změní a my čekáme, že budeme muset do těch trubek přidat více kapacity a realtimovost.

Co znamená přidávat realtimovost? Vidím to z výšky, a baví mě, jak se posouvá hranice mezi near real time a real time a jak se tyto dva světy zcela spojují. Dnes už existuje jen málo nástrojů moderního datového stacku, které nejsou real time ready, nebo to aspoň neříkají o sobě, zatímco před dvěma, čtyřmi lety to bylo trochu jiné. V minulosti jsem stavěl real time pipeline na jiné use case a D-1 pipeline na jiné. Jsou to paralelní světy, které ale stále více splývají.

Jak to ve vašem kontextu znamená rozdíl mezi deseti minutovou a near real time trubkou? Upřímně čekáme, že svět datových pohybů, tedy ETL, reverse ETL, jak jsem popsal, začne hodně konvergovat s tím, čemu dnes říkáme iPaaS – integration platform as a service. Jsou to nástroje typu Zapier, Make, ale i jejich enterprise variace. Čekáme, že moderní datový stack, který řeší ETL, reverse ETL, databázové replikace a tak dále, začne řešit i způsob, jak pracovat s eventy, které generují různé služby. Potřebujeme mechanismy, jak tyto události zpracovat a dále předávat. To je cesta, kterou si myslíme, že se trh bude ubírat.

Na druhou stranu jsme nedávno, tedy před pár měsíci, přidávali možnost pracovat s webhooky, což je takový první krok. Přidali jsme například možnost mít jako destinaci Kafka. Tyto věci vznikly na základě poptávky zákazníků. Když se podíváš na to, jak dnes fungují APIčka, se kterými často pracujeme, máš některá API, která ti jednoduše dávají data, ale vedle toho existují rozhraní, která posílají webhooky. Očekáváme tedy, že v budoucnu se oba tyto světy propojí – potřeba používat Zapier nebo podobné platformy na jednu stranu a propojení aplikací pro synchronizaci systémů na stranu druhou. To očekáváme, že se do jisté míry spojí.

Co to pro vás znamená? Jaký máš plán na to, zda zdvojnásobíte obrat za rok? Nebo je to spíše postupný proces, kdy máte našlápnuto, trh dozrál, vane příznivý vítr, a věci, které jste udělali pořádně, třeba i bolestivě, teď začínáte sklízet? Nebo máte nějaké milníky? Když se tu za rok potkáme, co bys mi chtěl vyprávět?

Doufám, že právě toto. Pro nás je klíčové, že zadní větry jsou silné a opravdu je cítíme. AI, data, dokonce jsem někde viděl zkratku METS – Machine Learning, AI, Data – představují spojené nádoby. Věříme, že naše sázka na to, zaměřit se výhradně na datové trubky přinášející skutečnou hodnotu, neřešit věci dřívějších fází a později, je správná.

Věříme v náš PLG (product-led growth) růstový model, který se snažíme doplnit tradičním obchodním kanálem. Také věříme v partnerskou strategii, kde vidíme, že ekosystém kolem velkých hyperscalerů začíná vznikat. Jak jsem už říkal, pro nás je zásadní imperativ být “first class citizen” v rámci tohoto ekosystému. Doufám tedy, že pokud se za rok opět setkáme, budeme mluvit o dvojnásobku.

Držím ti moc palce a děkuji, že jsi sdílel své poznatky a insighty o tom, jak to děláte. Držím palce.

Díky moc, Jirko.

Ahoj.

A to je všechno. Děkujeme, že jste doslyšeli až sem. Díky také našim partnerům: Big Hubu, Intexu, Sastce, Bystrýtu, Colors of Data, Revolt BI, Good Data, Kebulé, E-marku, Karel Data Company a Datamindům.

Pokud vás zajímá více, navštivte naše stránky datatalk.cz a přihlaste se k odběru našeho newsletteru.

Pokud budete chtít, mohu pomoci i s další úpravou či formátováním.

Podcast

Data Talk #81: Petr Nemeth (Dataddo)

Strojový přepis

Odebírejte Data Talk