Data Talk #49: Martin Fišer (Keboola)

Modern Data Stack je rozbitý. O tom se v této epizodě Data Talku baví Martin Fišer (Keboola) zvaný Fíša s Jirkou Vicherkem a Bárou Hinnerovou. Fíša k nám přijel až z Kanady, a tak padne řeč i o rozdílnostech evropského a amerického trhu a taky o proč by se analytici měli vykašlat na všechny cool tooly a místo toho hledat business value.

Strojový přepis

Dobrý den, moje jméno je Jirka Vycherek.
Ahoj všem, moje jméno je Bára Hinerová.
A vítáme vás u dalšího dílu Data Talku.

Naším dnešním hostem je Martin Fischer, známý hlavně jako Fíša z firmy Kebula, a přijel k nám až z daleké Kanady.
Ahoj, Fíšo!
Čau.

Dnešní epizoda bude o tom, že moderní data stack je rozbitý a je to hlavně marketingová habadějra datových vendorů.
Ahoj Fíšo.
A máme tady Fíšu z jednoho takového datového vendora.
Čau.

Hele, než se dostaneme k tomu tématu, které předpokládám, že bude kontroverzní, tak pro nás s Bárou jsi tady legenda české datové scény. Stejně tak jako Kebula je legendární firma, nejenom na české datové scéně. A tím pádem vlastně myslím, že spousta lidí ani neví, že Kebula má v Kanadě Fíšu, že tam dlouhodobě působíte, a rozhodně nezná ten tvůj příběh a příběh Kebuly. Tak tím bych asi začal, ať to dostaneme na záznam.
Super.

Já to zkusím říct svojíma očima a taky, jak jsem to zažil já. Negaruju, že to bude úplně přesné. Možná začnu tím, jak jsem se dostal do Kanady, a tam, jak jsem se dostal do Kebuly. Dělal jsem IT consulting, hlavně nějaké projektové řízení, finanční řízení a tak dále, IT projekty, základní registry a tak. Taková historická záležitost v Čechách.

A dá se říct, že jsem trošku vyhořel, a teď byl výhodný, otevřený jednoroční vízum do Kanady, tak jsme si říkali s ženou, proč ne, že si odpočineme.
V jakém roce se bavíme?
V roce 2013 asi.
Předtím ten consulting jsem dělal třeba čtyři roky, ještě tenkrát jsem začal při škole, něco takového.

No, a tenkrát mě Kebula zajímala, samozřejmě, bylo to pro mě na pědestálu někde nahoře, že mě zajímala nějakým způsobem data, když nejsem technický člověk, dá se říct. A nějakým způsobem jsem se dostal na pohovor, tenkrát ještě s Kvečkem v rámci Kebuly. V Karolíně jsme se sešli, udělali jsme pohovor, a tam mi říkala, hele, super, to dává smysl, tady se ozvě Milanovi v Kanadě, a můžeš nastoupit tam a tady jsi předhalený, a bude to všechno v pohodě. Doufám, že teď na mě lidi nebudou naštvaní, že to všem práskám.

Bavíme se teda o Milanovi Verku, founding fatherovi Kebuly, nebo jednom z nich.
Tak, tak.
A teď Milan žije v Kanadě, že jo? Ten vedl kanadskou Kebulu. Dřív ještě Kebula byla trochu jinak rozdělená, že měla různé implementační firmy po celém světě nebo na různých místech.

No a já jsem přijel do Kanady a naskočil jsem za Milanem prostě do White Rocku, což je, což je bezlíp díra kousek vedle Vancouveru – sorry, vedle Vancouveru – a tam jsme se sešli, popovídali jsme si s týmem a tak dále a vlastně jsme došli k tomu, že to asi nebude fungovat, že nemají do čeho píchnout, že mají lidí dost, a že třeba někdy v budoucnu.

Říkal jsem si super, no tak já jsem doufal, že už mám jistou práci a tak, že to bude pohodička, takže jsem šel z kůží na trh. Nakonec jsem skončil u jedné tajwanské marketingové, salesové, výrobní firmy, rodinné firmy, bohužel, nebo bohudík, a tam jsem postupně zakládal marketingové oddělení, salesové oddělení a podobně. Dělali jsme prodej, výrobu a prodej produktů na všech těch Amazonech, na všech možných marketplaces – Rakuten, všechny ty obskuritě, eBay, vlastní webové stránky a tak dále, třeba 20 kanálů.

No a tam jsem nějakým způsobem zakládal celé to oddělení, vymýšlel, jak to prodávat, forecastingy v Excelu, logistiku, vymýšlel, co se vejde do kontejnerů, kolik kontejnerů na loď a podobné věci – jak tahat z Číny do Ameriky, jaký letadla a tak dále.

Vedle toho jsme potřebovali data, takže jsem začal stavět takový slepenec všeho možného, co bylo tehdy k dispozici. Dokonce jsme začali dělat vlastní produkt, takovou listovačku pro různé marketplaces a kalkulačku úplně všeho, jako ERP systém, s pěti lidmi, co jsem měl pod sebou.
V té době jsem spíš dělal něco jako inovace, měl jsem titul „inovace“, dělej si, co chceš, víme, že to vždycky bude zábava a dobré.

To už mě přestalo bavit, protože už to bylo takové ohrané a tak dále.
Mezitím jsem asi prodloužil svého víza, ne?
Jo, 100 %, to byl pár let. Prodloužil jsem si víza na rezidenci, všechny ty kroky, co tam každý Čech projde, když tam emigruje, řekněme – rezidence, čekáš, prodlužuješ nějaký dočasný stav, všechny ty věci a pak občanství, což trvá docela dlouho.

No a jsi inovační ředitel ve firmě a máš tu pozici, a předpokládám, že v té době zase přichází Kebula?
Jo, to na něj prásknu. Tenkrát Salsák Kebuly, navíc skvělý člověk, mě kontaktoval, nevěděl, že jsem nějakým způsobem propojený s Milanem, že vlastně vím, o co jde, a že mě prodá Kebulu do firmy, kde jsem dělal. Takže udělal sales pitch a tak, potkali jsme se v kavárně, a asi po třech minutách mu bylo jasné, že vím o Kebule víc než on.

Co tě prozradilo?
Začal jsem se ptát, co je novýho v platformě, jestli už to umí tohle, támhleto, a tak dále. On říkal, že nevím. Tak to byly první indicie, že to asi nebude dobrý sales pitch, ale dopadlo to tak, že řekl: „Zavolej Milanovi, u nás se hodně změnilo, třeba to nějak dopadne.“

Tak jsem zavolal Milanovi, zase jsme se sešli ve White Rocku, a on říkal: „Máme úplně nový tým, fungujeme úplně jinak, zase pro tebe nemáme pozici, ale je tu pozice vývojáře komponent.“

Já jsem v té době potřeboval pro normální běh, tak jsem se nějakým primitivním způsobem naučil Python, tak jsem byl amatérský Pythonista. Říkal jsem si, že to bych mohl.
On říkal: „Dobře, to bude gateway, jak se dostat do Kebuly, tak proč ne?“

Říkal jsem si, že je to lepší, než vyhořet tady s prodejem tisíců úplně nesmyslných produktů pro domácnost na Amazonu. Místo toho bych dělal komponenty a bude to zábava.

Začal jsem dělat komponenty a bylo brzy jasné, že možná zvládnu mluvit i s klienty, nejsem jenom ajťák, který kóduje, což by bylo špatné.

A o jakém roce se bavíme? Jsou ještě nějaké komponenty od Fíši?
Díky Bohu asi ne, ale myslím, že jedna ještě je v provozu – nějaký custom colors pro GoodData. Takže možná jedna komponenta ještě běží, ale doufám, že už je to pasé.

Tenhle sales pitch proběhl kdy? Kdy jsi konečně dostal do Kebuly?
Já jsem v Kebule asi sedm let.
Takže… 2016?
2016. Myslím, že jsem tam byl tři, čtyři roky dlouho ve firmě.

No a tak jsem začal v Kebule jako konzultant, bavit se se zákazníky, dělat business case a vysvětlovat věci, což bylo super. V té době PS – to je Professional Services, tedy konzultační část businessu – vedl Markus v Kanadě a pak přešel na Customer Success. Já jsem převzal Professional Services v Kanadě.

Zkusím to zkrátit – pak došlo k tomu, že všechny Kebuly se spojily do jednoho Kebula Industries, a Pavel Doložel, CEO, mě požádal, jestli bych nevzal Professional Services globálně. To mě pak provázelo několik let, vedl jsem tým tři, čtyři roky, možná i déle, bylo to skvělé.

Významné implementace, kterými se můžete pochlubit?
Ne, vážně, když jsi vedl globálně Professional Services tři, čtyři roky, co to bylo? Zahrnovala třeba i Českou republiku, nebo to už bylo potom?

Česká byla asi taky. Tam jsem dělal spíš architekta, na začátku pre-sales architekta, ale spíš…

Co bylo super, byl Home Credit ve Vietnamu, myslím, že to bylo výborné. Nezáleží na byznysu, ale podařilo se nám tam hodně věcí. Jezdili jsme tam třikrát, byla tam taková „družba“ a podobně, což bylo super.

Co bylo na tom skvělé, že za týden, co jsme tam byli, jsme vyskoumali use cases na příští oddělení. Jiný týden jsme tam natočili onboarding 100 lidí na Kebulu. To se opravdu dařilo, a myslím, že to byl jeden z úspěchů, který nás bavily. Seděli jsme tam u aligátorů a sarančat, no, bylo to skvělé.

A co Amerika, Kanada?
USA, Kanada. Naši klasickí zákazníci v Kanadě a Americe. V Kanadě Pay by Phone, systém na placení parkování, který koupil Volkswagen Group a nějaký vývoj prošel. V Americe DXE, Firehouse, Ford, tihle zákazníci.

A u toho jsi byl taky nějak…?
Většinou jsem už byl rozjetý, když to šlo. Učil jsem se od začátku. Byly tam třeba Roty, což je další firma z oboru hospitality. Myslím, že hospitality nám v Americe jde, protože je to dobrý specifický o-bor, a myslím, že oni nás potřebují nejvíc.

Dneska máš na vizitce pozici Field CTO, takže to byla nějaká evoluční cesta z Professional Services. Mohl bys vysvětlit, čím pozice spočívá a jak ses do ní přenesl se svým know-how z Professional Services?

Jasně, super. Část agendy Field CTO jsem dělal vždycky vedle Professional Services. Připadalo mi rozumné, když jsem našel někoho, kdo to převezme, věnovat se té pozici víc doplna a trochu propustit tým, neřešit tak intenzivně starosti o ně. Trochu jsem si chtěl odpočinout od starostí, když to řeknu na rovinu.

Pozice jako taková se asi začíná objevovat víc nebo jsou na ní jen zřídka lidé, myslím, že jen zřídka Čechů se najde. Pozice má vlastně tři hlavní směřování:

První je starání se o klíčové iniciativy, klíčové zákazníky, takový parašut do důležitých projektů, hodně architektura a podobně.

Druhá je tahání požadavků od zákazníků zpátky do vývoje produktu – tedy most mezi produktem a zákazníky.

Třetí je veřejná edukace, ať už interní, například vysvětlování sales departmentu, a také thought leadership, vysvětlování našeho vnímání světa.

Advokát, přesně tak.

Nosným tématem dnešní epizody je Modern Data Stack a problémy případně přínosy, které může přinést. Tvoje pozice Field CTO v Kebule ti dává kredibilitu vůbec o tom mluvit? Nebo je to jeden z důvodů, proč sis toto téma zvolil?

Myslím, že ano, protože jsem v první linii, Field CTO je v první linii, když komunikuje se zákazníky, navnímává jejich potřeby byznysové i technické. A samozřejmě nemůže se vyhnout fenoménu Modern Data Stack, a musí ho respektovat nebo alespoň vědět, o čem to je, jaké jsou jeho výhody a nevýhody.

Ty jsi říkala název epizody Modern Data Stack Is Broken, tedy že nefunguje, je rozbitý? Myslíš, že…

Cesta je taková, že líbánky už pominuly, lidé se ozývají a jsou kritičtí, je to konstruktivní kritika nebo diskuse o tom, co na tom je špatně a proč ty líbánky končí.

Než se budeme bavit o tom, co je na tom špatně a proč to nefunguje, mohl bys posluchačům v rychlosti vysvětlit, o co vlastně jde? Co je to Modern Data Stack? Z čeho se skládá?

Asi nejlepší technická definice je, že je to marketingový pojem. Ale zároveň to je koncept, který říká, že si firma má poskládat datový stack z mnoha nástrojů, z nichž každý je specializovaný na určitou činnost v rámci datového zpracování.

Největší výhoda má být v tom, že si člověk poskládá best of breed – tedy vždy nejlepší datový nástroj na danou úlohu, ať už jde o data loader, který umí vytáhnout data odněkud a někam je uložit.

Vedle toho vznikl trend ELT, tedy Extract-Load-Transform, který z pohledu některých nahradil ETL. ELT vznikl, aby umožnil těm data loaderům fungovat a být základem.

Samozřejmě obrovské data loadery typu Fivetran a další mají legitimní a velký byznys. Ale jsou to vlastně jen jedny části tohoto skládacího systému.

Myslím, že nejlépe je to popsáno v publikacích od firmě A16Z, což je venture capital firma, která má v portfoliu mnoho těchto nástrojů a dává blueprint, jak jednotlivé nástroje skládat, aby dávaly smysl.

Technicky bych řekl, že se jedná o data loader či loadery, které vytahují data z databázových systémů, ale hlavně z nějakých SaaS nástrojů, ERP systémů a podobně. Tyto data se s proměnou vloží do analytického datového skladu, například Snowflake, Redshift nebo jiné MPP kolumnární databáze. Tam se data nahází na jedno místo a provádějí se transformace, vytvářejí se modely.

Dříve se říkalo kostky, dnes spíš jde o modelování dat a vytváření semantického modelu, aby z chaosu dat vznikl pořádek.

To vše je potřeba verzovat, orchestraciji, řešit datovou kvalitu, sledovat vše kolem, zapisovat informace, observabilitu – prostě pozorovat, co se děje, kde jsou chyby a podobně.

Dále tam bývá nějaký katalog, který to dokumentuje a ukazuje, kde co je, a další nástroje.

Bavíme se o minimálně sedmi typech nástrojů v tomto stacku.

Na pravé straně, pokud si to představíme jako to, že na levé straně tahám data, uprostřed je datový sklad jako pojivo, pravá strana jsou nástroje pro konzumaci dat. Typicky BI nástroje, business intelligence, případně experimentální notebooky, například Deepnote, Hex, nebo Jupyter. Tyto nástroje umožňují data zpracovávat a používat v celém ekosystému.

Takže jaký je rozdíl mezi data stack a…

[text je v původním znění ukončen]

Moderní datový stack? Opravdu je toho vůbec víc? Jakože každý datový stack má nějaký datový sklad a nějaké datové loadery, že? Myslím si, že to je vlastně cesta tam a zpátky. Dříve bylo populární mít unifikované nějaké enterprise řešení, které všechno dělá jednotně, ale zase se ukazuje, že je lepší rozložit to na malé atomy, kde každý takový atom řeší něco malého a každý si vlastně „přihrává to políčko“, když to řeknu obrazně. Teďka znovu probíhá nějaká kritika, konsolidace a unifikace a tak dále. Jasně, chápeme to jako architekturu, jak vlastně ten datový stack poskládat, aby byl moderní nebo „magický“, jak se tomu často říká. Vnímáš nějaký zásadní rozdíl?

Pro mě jako člověka, který podniká hlavně v Evropské unii, tedy na území Evropy, si nemyslím, že by nás tenhle trend tolik zasáhl. Vnímáš nějaké hlavní rozdíly mezi americkým a evropským trhem v tomto směru?

Zjednodušeně řečeno bych asi řekl, že vlna, která v Americe už postupně klesá, v Evropě teprve začíná nabírat na síle. Samozřejmě už i tady jsou náznaky – vidíme to u našich klientů, lidé čtou blogy a média, dneska chtějí všechno implementovat stejně. Ale ta vlna je tu jednoduše pomalejší. Máme tady enterprise zákazníky, kteří jsou pomalejší, probíhá digitalizace a podobné věci, jde to pomaleji. Myslím, že ta vlna nabývá na síle i proto, že existuje DBT, což je transformační vrstva, engine nebo framework. Díky masivnímu kapitálu, který získal, pracuje v Evropě poměrně aktivně. A platí, dnes by se možná řeklo influenceři, ale spíše to jsou blogeři a ambasadoři, kteří nesou myšlenku, že tohle je správný způsob práce. DBT je tady docela významná vlna. Je to dobrý framework, ale má své specifika, své neduhy a tak dále, což by mohl být úplně jiný podcast a jiná téma.

Do toho se můžeme klidně ponořit hlouběji. Ještě – proč myslíš, že tady máme moderní datový stack a co ho vlastně pohání? Je to jen buzzword, podobně jako kdysi umělá inteligence nebo blockchain, prostě se najde ten správný buzzword, díky kterému dostaneš více peněz od investorů a lepší ocenění? Je to součást té valuační bitvy, co tady probíhala před válkou na Ukrajině a poté před recesí?

Asi největší výhodou firem, které do datového stacku vstoupí nebo si najdou v něm své místo, je, že se vezou na celé této komunitě firem. To znamená, že jakýkoliv marketingový potenciál, který má každá z těch firem a zveřejňuje ho, vlastně přispívá k marketingovému rozpočtu celé té komunity, která operuje v rámci modelového moderního datového stacku. Asi každý vendor (dodavatel) se s tím nějak snaží vypořádat. My jako vendor samozřejmě také, i když jsme možná na opačné straně barikády, ale myslím, že je to pro menší nástroje určitě výhodné, aby si našly své místo. Je totiž jednodušší prodat jeden specifický nástroj než celou platformu, která má dělat hodně věcí. Adopce celkové platformy je obtížnější než prodat jeden nástroj – například je potřeba nástroj pro marketingový department, pak se snadněji prodá jednotlivý nástroj než komplexní řešení.

Samozřejmě to má i své nevýhody. Každý menší vendor si urve svůj díl koláče, ale ještě jsi zmínil DBT a velkou investici do něj. DBT investoval Snowflake, což je cloudové datové úložiště, které je nosným bodem moderního datového stacku. Vidíš v tom nějakou souvislost?

Možná ty firmy skutečně investují mezi sebou, jak jsou na tom s financemi, ale myslím, že není daleko pravdy v tom, že DBT je jeden z největších hybatelů spotřeby zdrojů v rámci Snowflake. Je to totiž nosný bod pro Snowflake a jeho spotřebu. Proto je pro Snowflake výhodné zajistit, aby DBT stále zůstával tím hybatelem spotřeby. Kritika neefektivity DBT, jak se používá, což je určitě téma samo o sobě, paradoxně přispívá k vyšší spotřebě ve Snowflake. Nejedná se jen o můj subjektivní pohled, ale existuje veřejná kritika celé komunity, která říká, že je nesmysl mít například půl milionu modelů, deset tisíc testů a podobně, což jsou běžné praxe v rámci DBT a jeho adopce. Myslím, že to je jeden z důvodů, proč to také zvyšuje spotřebu ve Snowflake a proč je jejich vztah tak významný.

Stejně tak třeba nástroje pro katalogy nebo data quality tooling pomáhají vytvářet další toky dat zpět do analytického datového skladu, například k monitoringu kvality dat. To jsou jasní hybatelé spotřeby ve Snowflake.

Není to trochu jako s vývojem softwaru? Dříve jsi měl jednoho datového specialistu, teď máš datového analytika, inženýra a další specialisty. Místo monolitických aplikací máme mikroservisy. Předtím jsi měl celý web napsaný v PHP, dnes používáš milion knihoven a je to mnohem komplexnější. Samozřejmě s tím souvisí i neefektivita, která je častým předmětem kritiky moderních datových stacků.

Přesto vidím opačný trend – dochází ke konsolidaci trhu. Nástroje se spojují, uvědomují si, že nejsou samostatným byznysem, mnohdy jsou spíše jen funkcí (feature). Proto vzniká konsolidace a možná i nějaké „all-in-one“ platformy, což byla vlastně vždy jedna z možností od začátku.

Na druhou stranu mám pocit, že pojem moderní datový stack se hodně mění marketingově. Když projdu váš web nebo nějaké webináře a reklamy, kde jste také investovali, měnil se vztah k pojmu moderní datový stack?

Myslím, že existují dva hlavní proudy. Sobecky vidíme jasný potenciál na trhu v tom, kde můžeme pomoci v rámci moderního datového stacku. Neříkáme, že jde o „rip and replace“, tedy nahradíme všechno, ale můžeme nahrazovat části toho stacku. Často za námi přichází klienti, kteří měli Fivetran a hledají levnější nebo flexibilnější alternativu pro datové loadery, protože například Fivetran nenabízí dostatečnou flexibilitu pro nové komponenty. Takže jsme například i v marketingové kampani zaměřeni právě na datové loadery pro moderní datový stack. Jsme jednou z alternativ pro to, jak dostat data do Snowflake nebo jiných cloudových datových skladů.

Pro mě je stěžejní kromě samotného data warehouse – které tvoří jádro moderního datového stacku – také orchestrace, což je vlastně pojivo spojující všechny části dohromady. Ten, kdo vlastní výpočetní výkon (compute), kdo ho ovládá, je vlastně mozkem celé konstrukce. Historicky byl Airflow, ale dnes máme novější alternativy jako Prefect, Dagster, Bonobo a další, které pomáhají orchestrace zajišťovat. My máme orchestrační funkci integrovanou přímo do naší platformy, takže dokážeme suplovat i samostatné orchestrační nástroje.

Ukazuje se to například tak, že když někdo přijde s očekáváním nahradit Fivetran, Stitcher nebo Airbyte, protože ty nástroje nejsou škálovatelné, zjistí, že už má DBT a může ho používat na Kebule, nebo my můžeme orchestraci zajistit i v rámci DBT cloudu. Je to taková příležitost (oportunismus).

Aktuálně jsou podle mě největšími tahouny moderního datového stacku Snowflake a DBT, kteří mají ten prapor. A když se podíváme na Kebulu, jsme partnerem Snowflake, partnerem DBT, vítězem ocenění Data Driver. Už dávno nejsme samostatný nástroj, Kebula není pouze ETL, jak mnozí hosté někdy říkají. Jsme datová platforma – data platform as a service. Samozřejmě zůstáváme alternativou moderního datového stacku. Jsem k němu sice kritický, ale zároveň dokážeme využívat většinu dobrých konceptů, postupů a frameworků, které moderní datový stack přináší, a absorbovat je.

Jsme alternativa, ale zároveň součást moderního datového stacku. My dokážeme využívat nástroje a koncepty, které jsou v rámci moderního datového stacku, a vzít si z nich to nejlepší. Soustředíme se přitom na účelnost a užitek. Pro nás je například jedno, jestli máme verziování konfigurací přes Git nebo naši proprietární službu – důležité je, aby uživatel měl bezpečné verzování. Jdeme především po funkcích a použitelnosti nástrojů, respektive těch myšlenek, protože ony mají skutečnou hodnotu pro byznys a týmy, a nikoliv po konkrétním nástroji samotném.

Když jsme implementovali DBT do Kebuly, trvalo to třeba půl roku. Já osobně jsem mluvil s celou DBT komunitou, abych zjistil, co funguje, co ne, jaké jsou špatné vzory, co uživatelé potřebují, a až potom jsme začali samotnou implementaci. Ano, naše integrace je určitým způsobem „opinionated“, ale je to originální a zaměřená na to, co má podle nás smysl. Máme vlastnosti, které naši uživatelé ocení, ale hlavní zaměření máme na to, co je důležité pro uživatele a byznys, a ne jen na samotný nástroj.

Kdybych neměla Kebulu, jaká je alternativa k modernímu datovému stacku?

Dnes jsou na trhu některé all-in-one platformy, které jsou našimi konkurenty. Doporučil bych například článek Bena, Data Guy ze Seattlu, který udělal skvělou komparaci all-in-one stacků, zmínil Kebulu a celé to prošel. S ním jsme několikrát diskutovali a vysvětlovali mu detaily. Myslím, že jsme z toho vyšli velmi dobře. Jeho hodnocení, které bych klidně citoval, je, že nikdy neviděl tak precizně vyhotovené uživatelské rozhraní, které by nepůsobilo jako slepenec různých nástrojů, což se někdy u těchto platforem bohužel objevuje.

Máme také konkurenty v rámci těchto all-in-one stacků, ale dalšími konkurenty jsou samotné cloudové služby. Dnes si můžeš mnohé poskládat přímo z cloudu, ale ne každá firma disponuje kapacitami, lidmi a rozpočtem, aby si to sestavila sama a někdy ani nemá smysl to takto dělat. Tato cesta je vhodná jen pro určité typy firem, které mají potřebné know-how, zdroje a chtějí investovat svůj čas.

Alternativou pro ostatní jsou tedy buď moderní datový stack, který vzniká pomalu z podhoubí specializovaných datových lidí, nebo zmíněné all-in-one platformy.

Konkurence Kebuly je tedy ze tří základních kategorií: jiné all-in-one stacky (například Palantir Foundry, který je však na jiné úrovni než Kebula), cloudové nástroje, které si firmy poskládají samy, a moderní datový stack. Volba závisí na byznysu, rozpočtu, dostupných lidech a aktuální „datové zralosti“ firmy.

Pokud znám svůj business, rozpočet a priority, měl bych podle toho zvážit, jakou cestou se vydat. My obecně říkáme, že pro malé firmy s jednou osobou je Kebula jasná volba, protože nemusí nic budovat. Alternativou je, že se někdo v cloudových nástrojích vyzná a rád si moderní datový stack postaví sám – ušetří pár peněz, ale zaplatí časem příležitostné náklady (opportunity cost).

Jak jsi říkal, je spousta přístupů, jak přistupovat k datovému stacku a získat z něj hodnotu.

Nicméně pokud jsem firma s dostatečnou datovou zralostí a chci si postavit moderní datový stack, na co bych měla myslet? Na co bych se měla dát pozor a s čím počítat?

Určitě bych upozornil na nevýhody a problematické části moderního datového stacku.

Jednotlivé nástroje mohou stát relativně málo – třeba řád stovek dolarů měsíčně – ale mohou představovat i řád tisíců až desetitisíců dle využití. Když si všechny náklady na jednotlivé nástroje spočítám dohromady, matematicky to nemusí dávat smysl. Na začátku, pokud začínám s malým rozpočtem, mohu mít relativně levné řešení, možná i náklady na Snowflake nebo jiný datový sklad jsou malé, ale kdy se vše rozroste, křivka nákladů prudce stoupá. Toto je první věc, na kterou je třeba si dát pozor – celkové náklady na vlastnictví (total cost of ownership) mohou být problematické.

Dále samotná složenost z několika nástrojů znamená vždy problém s integrací, správou, dohledem a provozem. To, co Loren Balík, známý kritik moderního datového stacku, nazval „human middleware“, tedy lidské prostředníky, kteří v podniku musí mezi těmito systémy řešit problémy, je podle mě výstižný výraz. Firmy musí zaměstnávat stále více lidí a týmy se stávají náročnějšími na správu těchto nástrojů.

A konečně klasičnost kritiky DBT spočívá třeba v desítkách, stovkách nebo i tisících modelů, což je skutečný problém.

Tímto jsem převedl text do spisovné češtiny, rozdělil jej do odstavců a zcela zachoval původní obsah i význam.

To je těžké udržovat, dělat tam nějaké změny a tak dále. Vlastně ten tým se stará o datovou platformu nebo datový stack a neřeší už požadavky byznysu, protože na to nemá dostatečné kapacity. Takže vlastně pořád lidi zápasí a pak začnou mít problémy, protože tam musí přidat i katalog, aby si osvětlili, kde co je, a tak dále. Je to prostě takový nekonečný boj. Nasuneš tu kuličku nahoru do kopečka – taková sněhová koule. Ano, sněhová vločka. Z jedné sněhové vločky máme lavinu. To bych asi uvedl jako druhý problém – ten human middleware, tedy náročnost celkového řešení.

Pak samozřejmě pro větší firmy je velký problém vůbec ten tendr nebo spíše adopce té technologie, protože dostat do nějakého enterprise zákazníka deset nástrojů je velmi velký problém. Začnou zjišťovat, jaká je bezpečnostní compliance, mají SOC 2, nedej bože, je to ještě finanční instituce nebo veřejně kotovaná společnost v Americe či v Brazílii, takže budou požadovat SOC 1 a další regulace a certifikace, a to už ty nástroje často nedají. Některé ano, ale postupně. A co když si vyberu nástroj, který něco zrovna nemá? Prostě ta adopce je obrovská. Musím dohadovat se o cenách za každý nástroj a teď můžeme promíchat tu matematiku.

Start je sice rychlý, pružný, dobrý, zajímavý, je to zábava, je tam to, co si říkám development for resume, tedy to, že si lidi „pimpičují“ své životopisy, že si postavili moderní data stack, což je jasný motivátor, proč je moderní data stack adoptován. Velmi často se uvádí, a myslím, že to CEO 5.3 nebo možná někdo z Prefectu napsal, že stačí, aby si lidi dali na LinkedIn, že jsou analytický inženýři, a jejich plat se zvýší o 30 %. Protože je to „hot“ a dává to smysl, a firmy to chtějí, protože právě potřebují lidi s těmi zkušenostmi.

V Kanadě už to není tak horké. Tam už to má… To je docela dobré, protože my jsme byli poměrně pozadu nebo upozadění tou marketingovou masírkou kolem moderního data stacku, hlavně v Americe a Kanadě, a nemůžu říct, že bychom byli hrozně draví na trhu a hned říkali, že to má i své nevýhody. Vždycky jsme to říkali v rámci školení, bavili jsme se se zákazníky a tak dále. Někdy se to podařilo vysvětlit, jinde ne, záleží, jestli se člověk baví s byznysákem, který má konkrétní požadavky, nebo s IT specialistou, který si chce hrát. Díky bohu teď už přicházejí kritické články a anekdotální příběhy firem, které platily vysoké částky za různé nástroje, ale nepřinášelo to žádnou byznysovou hodnotu.

Takže se ta mračna začínají protrhávat, a my jsme byli jedni z prvních, kteří o tomhle mluvili, a teď už jsme i vokálnější. Například jsem na LinkedInu měl poměrně agresivní příspěvek proti modernímu data stacku, protože jsem zaznamenal jednu fakt anekdotální zkušenost jednoho klienta, který platil spoustu peněz a byla to pro něj k ničemu.

Můžeme být konkrétní, že jste takoví? Jsme – a anekdotální příběhy, rád bych jich měl víc.

Ano. Prostě naše příležitost nebo někdo za námi přišel s tím, že platí desítky tisíc dolarů za FiveTran a vlastně jen přenášejí data. Ale přenášet data z jednoho místa na druhé ještě neznamená, že to přináší byznysovou hodnotu.

Samozřejmě máme doporučení – ať mají dB (databázi). Měli dB tým, najímali další lidi, nakonec měli sedm lidí, kteří se starali pouze o správu modelování dalšího kroku. Začali kupovat další nástroje, protože to bylo moderní – jeden BI nástroj, druhý BI nástroj, pak notepady, orchestrace, protože byly skvělé a z dB jsme měli další možnosti.

Když to poskládáš, tak jsi na 30 tisících dolarů měsíčně, a to není malá částka, a k tomu ještě náklady na lidi, kteří to obsluhují. Takže jsem se rozhodl lidem napsat seznam článků, které kritizují, jak by měl pravděpodobně vypadat nový data stack. Něco nového, další vlna, ale spíš na co by se firmy měly zaměřovat. A všichni opakují, že se mají zaměřit na hodnotu pro firmu, na byznysovou hodnotu, a zjistit, jestli vůbec iniciativa má smysl.

Ten příspěvek na LinkedInu okamžitě vyvolal bouři. Pod ním lidé psali: „To je přesně můj případ,“ a podobně. Myslím si, že to není jen nějaký fragment, ale že to bylo dlouho drženo pod pokličkou mediální masírky a marketingového potenciálu firem.

Bylo to screenshotováno v mnoha dalších článcích, které moderní data stack vyvracely. Nicméně chtěl byste dnes být datovým vedoucím nebo tím, kdo rozhoduje o tom, jak věci budou postaveny? V době marketingové masírky a když máte milion možností, jak něco vyřešit a poskládat? Všichni vám říkají, že něco máte dělat. Jak byste k tomu přistoupil, kdybyste nebyl závislý na žádném vendorovi?

Když bych se dostal do té role v technické rovině, tak bych samozřejmě šel podle toho, jaká je naše maturita, jaké máme možnosti, kolik máme lidí a tak dále. Určitě bych zvolil nějaký zkratku, například all-in-one stack, nebo možná cloudové služby, jako třeba Microsoft Fabric nebo další služby velkých cloudů.

Moc mě zajímá, co s tím biznis dělá, k čemu to je, jak to využívá. Od toho se odrážím. Mě paradoxně teď nejvíc baví zjišťovat, jak posunout biznis dál a jak používat data k tomu posunutí, raději než řešit to, co je pod kapotou a jak funguje technologie. Zajímavější jsou pro mě byznysové případy a případy užití v jednotlivých odděleních.

Rada pro někoho, kdo to aktuálně řeší, je tedy neřešit datové stacky, ale hodnotu, kterou přinášejí?

Ano, asi bych zvolil lenost IT a šel bych nejjednodušší cestou, což je možná all-in-one stack. Tím bych šel, ale zároveň bych se ptal, na co to potřebuji, jakou mám maturitu, jak rychle chceme růst, jaké use case budeme v budoucnu řešit.

Určitě se vyplatí udělat si interní cvičení, což my v rámci professional services děláme, a to je mapování use case napříč odděleními. Začít mluvit s lidmi, ptát se, jaké mají problémy, kde tráví nejvíc času, co by se dalo zautomatizovat – to jsou věci s největším potenciálem nebo největším „bang for buck“.

Není to tím, že cloudová analytika dospěla? Že takhle už vypadá dospělý, vyspělý trh, kde je hodně komoditizace, množství možností, které se překrývají? Nyní přijde konsolidace, ale muselo to přijít? Nebo byla před čtyřmi lety infrastruktura na to ready? Byl tehdy all-in-one stack?

My jsme vždycky byli all-in-one řešení, ale samozřejmě dospíváme. Co je nejdůležitější, je to, že jsme databázově agnostičtí. Pod námi může být Snowflake – který většina lidí používá – ale máme zákazníky s Synapse, Redshiftem, Exasolem a dalšími back-endy. Teď máme pro jednoho velkého zákazníka plnou adopci GCP s BigQuery a další zákazníci se také ptají na přechod na BigQuery.

Myslím, že je důležité, že se posouváme s dobou, ale základní princip, že jsme all-in-one stack a zjednodušujeme práci s daty, pořád platí. Jsme vrstou nad tím a přinášíme spíš zjednodušenou funkcionalitu než core služby samotných databází. Tato devíza nám umožňuje rychle se přizpůsobit a kdyby přišel nový back-end – například Čína představí nový databázový engine, který bude skvělý, rychlý a levný – adoptujeme ho.

Core principy naší platformy stále platí. Zvyšujeme schopnosti a funkce, ale základ zůstává — usnadnit práci s daty.

Není ta konsolidace moderního data stacku nebo ustálení trhu jen dalším buzzwordem? Data jako produkt znamená, že datové týmy by měly přistupovat jinak, produktově, tedy vnímat data jako produkt pro koncového uživatele a firmu.

Tento přístup přišel s koncepcí data meshe. My jsme také úspěšně implementovali lokální data mesh. Výborně, vidíte, jak se to dá iniciovat – třeba koupit doménu. Data mesh koncept je spojený s touto doménou.

Mám ten koncept trochu zafixovaný a myslím, že jsou tam dobré věci, ale není to zbraň na všechno. Není to kladivo, které řeší všechny problémy.

Jaký je vztah data mesh vs. moderní data stack? Jsou to zcela odlišné záležitosti, protože data mesh a data fabric koncepčně pracují s dělbou moci, pravomocí a odpovědností, a kde a jak se data využívají a jaké zdroje.

Vedle toho je moderní data stack koncept, který ukazuje, jak postavit data stack, který firmy potřebují, protože potřebují správu dat, modelování a další.

Kdybych měl parafrázovat, tak lidé přemýšlejí, jak postavit data mesh s moderním data stackem, tj. využít nástroje moderního data stacku pro data mesh. Jsou to však odlišné disciplíny, které nejsou nutně vzájemně vylučující.

Architektonicky nebo konceptuálně data mesh může podporovat moderní data stack tím, že je distribuovaný a decentralizovaný.

Před asi půlrokem jsem na konferenci ve Vancouveru prezentoval, že moderní data stack je filozoficky nekompatibilní s data meshem, protože jde proti základním principům data meshe.

Možná by bylo zajímavé dělat panelovou diskuzi, ale já si stojím za tím, že jsou filozoficky odlišné.

Vendory moderního data stacku by ovšem nakreslili diagram, jak se data mesh dá postavit právě na moderním data stacku a že pro udržení dohromady potřebujete jejich řešení.

Každý vendor, včetně nás, samozřejmě kreslí řešení tak, aby mu to vyhovovalo, aby ukázal svoji roli na trhu.

Mohu uvést jednu anekdotu: při rozhovoru s CEO Continual, což je firma v rámci moderního data stacku – myslím, že se jmenuje Tristan Zajoc – jsem jim dělal scoping ohledně DBT. On nám řekl do očí, že nám vlastně nevěří, protože náš marketing tvrdí, že jsme all-in-one stack. Tvrdil, že není možné, aby naše platforma zvládala orchestraci, transformace, extraktory, a že jsme jen vaporware, protože si nás nevyzkouší a koukají jen na web.

Doporučil nám vše vypnout a zůstat jen u jedné části moderního data stacku, protože to je jediná správná cesta.

On jako Američan nám nevěřil, že toho děláme moc. Bylo to „too good to be true“. On nás vlastně školil, když jsme se s ním bavili.

On řekl, že máme zahoďte celou tu platformu, berte si jen polovinu a dělejte transformace.

Někteří naši klienti, například Fishdown Labs, kteří založili DBT, původně používali naši platformu na transformace, ale nyní si je dělají sami.

Pokud mám na starost analytiku nebo data ve firmě a poslouchám DataTalk podcast, kde se hovoří o možné „prohnilosti v království dánském“ a přemýšlím, jestli nemám přehodnotit svůj plán na analytiku do budoucna, protože moderní data stack možná není ta správná karta, jak to zjistím?

Na co se díváš, když přijdeš ke klientovi? Jak zjistíš, jestli příliš utrácejí, kde jsou nejčastější chyby, kdy si řekneš: „To je extrémní“?

Platba 30 tisíc dolarů měsíčně za licence je dobrý důkaz.

Ale na co se díváš první?

Já se nejdřív snažím pochopit, kde firma je na pyramidě datové maturity.

A jak to děláš? Na co se díváš?

Dívám se, jak využívají data.

Existuje jeden historický koncept pyramidy, který může být zjednodušeně popsán takto:

Na úplném dně jsou potřeby nasypat data do jedné hromady, postavit data warehouse. To je klasický první pilíř.

Potom máme druhý pilíř: ze skladu stavíme datové modely nebo datasety, které dávají smysl a odpovídají na otázky, které byznys potřebuje.

Dále pokračuje složitější úroveň: jednoduché datové vědy, například detekce anomálií, prognózy, které pomáhají byznysu.

Poté přichází experimentování s modely, MLOps a nakonec úplná špička pyramidy – umělá inteligence.

Když se snažíš pochopit maturitu firmy, tak zjišťuješ, jestli jsou na úrovni budování skladů, nebo již mají datasety, ale v nich je zmatek, protože nikdy neuvažovali o unifikovaném modelu byznysu.

My tomu říkáme B…

DM je nějaký otevřený koncept. Je to prostě popis dat tohoto byznysu. A teď, pokud už to mají, tedy mají nějaký takový koncept, například mají už nějaké datové katalogy, které odpovídají různým doménám, mají v tom nějakou pravdu a jsou na takové úrovni, že je to v pořádku, tak posílají ty datasety a máme to v BI.

Protože za námi většinou samozřejmě chodí lidi, kteří potřebují mít reporting. To znamená, data dovnitř, modelovat BI. To je nějaká hranice někde mezi. Pak už děláš nějaké pokročilejší věci, a pak říkáš: „Dobře, co kdybychom udělali model a ten nasadili někde, aby nám něco doporučoval?“

Takže jdu po té maturitě a snažím se najít, kde jsou, a tomu by měly dost pravděpodobně odpovídat ty očekávané vstupy, tedy ty „spandy“. Jasně, když jdeš do plného MLOps a začneš benchmarkovat tři modely, které máš natrénované, přetrénováváš je denně, tak máš úplně jiné požadavky než když máš jednoho analytika, který si v nástroji dělá nějaký modelík a zkouší, jestli mu to předikuje dobré věci nebo doporučuje dělat nějaký doporučovací algoritmus.

Ale pak tam může být byznysák, který říká: „No jo, tak proč bychom měli dělat tady ten model, doporučovat ho, trénovat a dělat to půl roku, když já si můžu zítra jít zaplatit zásobní službu a mám možná 90 % toho, co bych si stavěl půl roku?“

Takže pak se s nimi bavíš a zjišťuješ, jak oni uvažují, jestli o tom uvažují zcela prakticky. Třeba ano, potřebujeme doporučovat produkty, potřebujeme mít lepší marketingovou automatizaci a doporučovat lepší věci. A teďka zjišťuješ, jestli mají ty zásobní nástroje, nebo jestli už najali člověka a tak dále, a vlastně jak se na to dívají.

No a to ti vlastně říká, kde pravděpodobně jsou tyto požadavky. Je tam nějaké pravidlo v daném prostoru, například: „Hele, ve chvíli, kdy jedno oddělení má více než 20 různých datových zdrojů, tak víme, že má příliš mnoho aplikací,“ anebo „ve chvíli, kdy váš datový stack má více než 20 faktur, tak pravděpodobně máte možnost konsolidovat,“ anebo „pokud nabíráte osmého DBT inženýra, ale přitom se nezvýšila návratnost vašich datových produktů, tak taky asi jdete špatným směrem.“

Jsou tam takové záležitosti nebo postřehy, které jsem viděl u zákazníků, na co si dát pozor. Myslím, že je to opravdu kus od kusu. Nemyslím si, že existuje nějaké zjednodušení, nějaká rovnice, která by to všechno řekla. To by bylo super, to bych byl asi zlatý. Je to spíš o tom, že občas funguje selský rozum a anekdoty.

Třeba jeden slavný příklad je glorifikovaný Stitch Fix, což je služba v Americe, fungující na modelu předplatného, která se učí, co člověku nejvíce vyhovuje, co se týče oblečení. Pošlou mu oblečení, které by měl nosit, on něco vrátí, model se přiučí a doporučuje. Vedlo to k nějaké jednostrannosti, a samozřejmě kvalita služby je často kritizována, ale hlavní je, že Stitch Fix byl vždy na piedestalu moderního datového stacku, jako máme DBT a jedeme velké projekty.

Teď ale zase propouštějí. Všechny ty firmy, které brutálně rostly, měly v minulém nebo předminulém roce pompézní prezentace o tom, jak všechno staví.

Za poslední půlrok čtu každý den, že nějaká firma propouští, zrušila některé oddělení a snaží se to zjednodušit. Takže je vidět, že nafukování asi dosáhlo hranice a teď se zase soustřeďují.

Není to reflex toho, že někdo si něco staví jen proto, aby měl pyramidu nebo nějaké nástroje, ale vlastně nevědí, proč to dělají. Tak to vidíš, když se s nimi bavíš. Když mluvíš s nesprávným týmem, který ti říká: „No jo, ale my chceme toto,“ a pořád se musíš ptát „proč, proč, proč, co to přinese?“ Většinou se dostaneš na nějakou podstatu, kdy řeknou: „No jo, takhle jsme zvyklí to dělat,“ nebo „je skvělé, že můžeme mít CICD úplně všude,“ atd.

Samozřejmě přeháním, jsou i pozitivní věci na těchto nástrojích, ale myslím, že mnohé věci se přehánějí.

Třeba bych si dovolil tvrdit, že firmě stačí začít řešit správu datové kvality až v určité fázi. Když stavíš základní C-level reporting, jasně, tam musíš mít čistá čísla. Ale aby firma měla kompletně opravené všechny datové katalogy napříč organizací a vše bylo otestované, k tomu musí dojít až později v rámci maturity.

Nemyslím si, že je to první věc, kterou by měla firma začít řešit. Často totiž datový specialista, který je médii označován, že všechno je důležité, potom chce všechny nástroje nasadit ihned a skončí v tom, že rok se zavře někde v datové části a místo toho, aby se šlo zpátky za byznysem a zjistilo, co vůbec znamená definice zákazníka.

Velmi často, když děláme BDM cvičení, tak se firma pohádá, protože jednotlivá oddělení si nedokážou mezi sebou domluvit, jak se definuje zákazník, jak se definuje marže a tak dále. To jsou klasické problémy.

A to vše jsou alfa omega byznysu. Alfa omega byznysu jsou prodejci, jejich operace, to, jestli dokáží konvertovat byznys a jestli se správně měří úspěchy. Ale ne jestli mám stoprocentně přesná data o tom, jestli mám správně nadefinované 20 kategorií triček v datovém skladu.

Snažím se to vysvětlit, myslíš, že je to nějaký datafašismus nebo technokracie, zamilování do nových funkcí a nástrojů místo aby se soustředili na to, co je důležité?

Já si také hraju, musím přiznat, že kdybych neměl děti, hrál bych si raději s nástroji než počítačové hry. Baví mě experimentovat s nástroji, testovat nové věci na datovou kvalitu, abych si je osahal. Pro mě je to zábavnější než počítačová hra.

Chápu tedy lidi, kteří si chtějí s tím hrát, navíc je to důležité pro jejich životopis, protože „development for resume“ je skutečný motivátor. Všichni chtějí vylepšit svůj životopis, aby měli lepší pozici na trhu.

Příkladem je analytic engineering. Pro mě je nejdůležitější rada, jak zvýšit svou hodnotu na trhu datového specialisty, mít byznysový přesah.

Není to toolová znalost, protože nástroje přicházejí a odcházejí, mění ceny, stávají se méně atraktivními. Sázet na to, že znám všechny nástroje moderního datového stacku, nedává smysl.

Raději vsadím na to, že dokážu komunikovat s byznysem, chápu, když pracuji v prodejním oddělení, nebo pomáhám prodejnímu oddělení, co je trápí, a jaké jsou faktory jejich úspěchu.

To je podle mě nejdůležitější pro práci datových odborníků.

Dokonce si myslím, že je zde mezera na trhu v oblasti vzdělávání.

Existuje nekonečné množství kurzů pro byznysové analytiky, jak začít s daty – od kurzů SQL, přes různé nástroje, jak si postavit první moderní datový stack za dvě hodiny a tak dále. To není problém najít.

Ale existuje málo kurzů pro datové specialisty popisujících byznysový kontext.

Například, jak funguje subscription byznys, jak se počítají AIR, MRR, jak se rozpočítává příjem u smluv na tři roky, jestli to počítat dopředu nebo dozadu na konci období.

To jsou velmi zajímavé věci, které podle mě zvýší hodnotu na trhu více než samotná znalost nástrojů.

Je pravda, že zjednodušování těchto nástrojů a jejich používání umožňuje většině byznysáků sestavit si jednoduchý reporting sami a dostat se tak do datového světa.

Takže je to apel pro datové analytiky a technické lidi, aby více přemýšleli byznysově.

Jak vidíme na příkladu no code, low code, v datech je to ještě zřetelnější – sestavit si report je čím dál snazší, pokud rozumíš byznysové stránce věci, pokud dokážeš obhájit metriky a chápeš jejich definice.

Technická odbornost a hlubokost možná časem nebude tak důležitá, protože celý stack je abstrahovaný.

Myslím si, že díky novým nástrojům a trendům směřujícím k abstrakci a zjednodušení budou mít firmy bez core kompetence v datech možnost přeskočit několik generací a najednou být na stejné úrovni jako ti, kdo pracují dlouho s daty.

Pokud mají člověka, který přemýšlí, má dobré nápady a mají platformu či nástroje umožňující rychlou prototypizaci a ověření funkčnosti, uspějí.

Tito lidé to všechno přejedou, protože mohou rychle ovlivňovat byznys, ne že by půl roku něco stavěli.

S nástupem generativní AI to může nahradit část technických znalostí, ale nedokáže nahradit kontextuální myšlení člověka a vytváření hodnot.

Dobré zprávy: Pavla Chokolov napsal článek, který určitě doporučuji přečíst. Objevuje se tam pojem „AI inženýr“, ale spíš je to business technologist – člověk schopný propojit tyto oblasti. AI je akcelerátor a prostředek ke zjednodušení.

Snažil bych se, aby se AI netlačila do popředí samotná, aby se okolo ní točilo všechno. Beru AI spíš jako prostředníka, který umožňuje věci dělat lehce.

Když dnes chceme něco napsat, často se nejdřív zeptáme ChatGPT, necháme si vytvořit základní kostru a zbytek dopíšíme. Mám nějaké znalosti Pythonu, takže rozumím tomu, co napsal, umím vyřešit chyby.

Na druhou stranu ChatGPT není neomylný, dokáže i chybovat – zkuste si nechat od něj napsat českou hymnu, budete se pobavit.

Ale lze to využít jako akcelerátor a tak to i používám.

Díky těmto abstraktním vrstvám a nástrojům, které zjednodušují práci s daty, existuje příležitost pro lidi se správnými nápady pro byznys, kteří mohou využít AI k tomu, aby je realizovali.

Místo aby složitě hledali technickou podporu nebo se učili spoustu technických dovedností, mohou využít tyto nástroje.

Není to o tom dát tam technologii za každou cenu, ale stavět vše kolem byznysové hodnoty.

Určitě, tak to říkají.

Mám pocit, že jsou dva typy lidí: dataři, kteří si budují nástroje kvůli životopisu, a byznys, který chce generativní modely, ale nechápe, co dataři dělají, a diví se, že to stojí tolik.

Vše je řízeno nějakými trendy, jak u byznysových uživatelů, tak u technických, kteří si ty nástroje staví. Co myslíš, co přijde dál?

Přijde možná další influencer s novým buzzwordem? Co bude po DBT a Snowflake?

Nevím, co bude po nich, ale myslím si, že v nějakém střednědobém horizontu přijde konsolidace.

Ta už je dnes vidět, firmy se budou slučovat.

Určitě ty firmy se nesloučí nebo nekoupí za valuace, které mají nyní.

Poslední dobou jsme viděli, že módní startup získal investici 83 milionů a teď ho prodávají za 100 milionů, což vůbec nedává smysl, ještě s dalšími podmínkami v rámci obchodu.

Je jasné, že nafouknutá bublina splaskává, konsolidace je zřejmá.

Druhý trend je, že část řešení budou pohlcovat cloudové platformy nebo se firmy pokusí udělat vlastní řešení.

Větším indikátorem je Microsoft Fabric, který se velmi poučil z toho, jak na Azure běží Databricks, a šel přímo proti němu.

Je to velmi zajímavé sledovat.

Myslím si, že nás čeká zajímavá doba.

Zákazníci asi vydělají, protože dostanou ucelenější, lepší a možná i cenově přijatelnější řešení – otázkou je, zda to tak bude.

Je to o tom, že vendory budou muset správně kormidlovat a nabídnout řešení, která dávají smysl zákazníkům, aby je používali a neskončili v propadlišti dějin.

A co tebe čeká jako Field CTO u Kebuly ve střednědobém horizontu?

Konkrétně mě teď čeká implementace SOX a GCP, adopce GCP a BigQuery. To jsou oblasti, kde se teď motám.

Potom se budeme věnovat větším hráčům a větším cílům, tedy jak jsme úspěšní u velkých finančních institucí v Evropě, tak to chceme rozšiřovat.

Máme slibné potenciály u celosvětových firem, takže se kolem toho budu určitě točit. To mě bude bavit.

Super, držíme palce! Děkujeme moc, Fíšo, že jsi k nám dorazil, a to až z Kanady.

Také děkuji.

A to je vše. Děkujeme, že jste doposlouchali další díl Datatalku. Děkujeme také našim partnerům: Big Hubu, Vypnoutu, Mantě, Notinu, Atakámně, Gene Beamu, Seznamu.cz a Muse.

Pokud vás zajímají další informace ze světa datových technologií a česko-slovenské datové scény, navštivte naše stránky datatalk.cz.

Nechť vás provázíme.

Podcast

Data Talk #49: Martin Fišer (Keboola)

Strojový přepis

Odebírejte Data Talk