Data talk #93: Michal Heřmanský (Billigence)

V tomto dílu podcastu Data Talk moderátor Jiří Vicherek hostí Michala Heřmanského z Billigence. Začínají představením Billigence a příběhem, jak se z australské společnosti dvou expatů z Česka stala globální datově konzultační firma s klienty jako Shell. Proč roste Data Governance na důležitosti? Proč je potřebná pro úspěšnou demokratizaci dat ve firmě, jak souvisí s trendem AI a jakou roli hrají v Data Governance metadata? To vše se dozvíte v tomto díle vašeho oblíbeného datového podcastu!

Strojový přepis

Dobrý den, jmenuji se Jirka Vešerek a vítám vás u dalšího dílu podcastu Data Talk. Mým dnešním hostem je Michal Herzmanský, který působí jako vedoucí týmu Data Governance ve společnosti Billigence. Ahoj, Michale.

Ahoj, Jirko.

Michale, na naše dnešní povídání se velmi těším. Za prvé si myslím, že Data Governance je důležité téma a jsem rád, že se mu opět věnujeme. Za druhé je pro mě Billigence takovou trochu tajuplnou entitou. Vím, že jste velcí, ale vlastně nevím, jak to máte s působením v Česku a globálně. Než se ale dostaneme k Billigence jako takové a k Data Governance, jaká byla tvoje cesta k datovým technologiím, datům a k tomu, co nyní děláš?

Moje cesta byla poměrně přímá. Studoval jsem na VŠE na Fakultě informatiky a statistiky a velmi rychle jsem se dostal k datovým tématům. Učili nás tam lektoři orientovaní prakticky, takže všechny přednášky a kurzy byly hodně zaměřené na data. Data tenkrát ještě nebyla takovým velkým tématem, jako je to dnes. Před deseti lety začínal zejména v univerzitním prostředí jakýsi boom. Firmy řešily data, zabývaly se business intelligence, CRM, ale univerzitní prostředí to ještě tolik neuchopilo, jak je tomu dnes. Na VŠE začal v té době podnikatelský akcelerátor, který založil Ota Novotný, pojmenovaný EXPERT. Tento akcelerátor měl pomáhat studentům a absolventům prosadit se v byznysu.

Mně to přišlo velmi zajímavé a hledal jsem způsob, jak efektivně spojit studium s prací. Přihlásil jsem se tam do startupu s názvem Farfália, který dnes už v této podobě neexistuje, protože se transformoval, ale jeho zakladatelé mají své podnikání dodnes. Ten startup se věnoval cenové analytice pro e-shopy a snažil se automaticky odhadnout a identifikovat produkty v e-shopu, které byly buď podhodnocené, nebo nadhodnocené, aby e-shop mohl lépe fungovat v konkurenčním prostředí.

Startup z mnoha důvodů neuspěl, což se stává. Nicméně mě tento projekt utvrdil v tom, že se chci věnovat datům a datové analytice. Pokračoval jsem potom ve studiu; na magisterském programu jsem se zaměřil na business intelligence, stavěl jsem si na školních projektech datové pipeline a vytvářel jsem reporty v Tableau. Právě přes Tableau jsem se dostal k Billigence.

Šel jsem na pohovor, kde jsem přesvědčil Tomáše, že by to mělo smysl, a dostal jsem nabídku. Stal jsem se sedmým zaměstnancem Billigence.cz. Tenkrát byla firma mnohem menší, začínala si hledat své místo na trhu. Měli jsme pronajatý byt na Karlově náměstí, a když se zpětně dívám, byla to úplně jiná firma – jak co do rozsahu projektů, tak zásahem na trhu.

Na druhou stranu si myslím, že jsme si do dneška uchovali určitou mentalitu – vždy jsme se snažili challengeovat trh a vytvářet chytrá a inovativní řešení, která nám pomáhají prosadit se a být úspěšní. Právě díky tomu mindsetu jsem v Billigence stále, protože ta energie v Billigence trvá dodnes.

O jakém roce mluvíme, když jsi nastupoval do Billigence CZ jako sedmý zaměstnanec?

Byl to rok 2015, tehdy jsem ještě stále studoval, ale už v závěrečné fázi. Billigence mi pomohla napsat i zajímavou diplomovou práci. Rozhodoval jsem se, co bych chtěl za diplomku dělat, a dostali jsme se s Billigence k projektu ve Velké Británii.

Je třeba zmínit, že Billigence v té době řešila téměř všechny projekty pro celou Evropu z Prahy. To už dnes není tak úplně pravda, protože se nám podařilo expandovat – máme pobočky ve Velké Británii, Německu, Polsku a Švédsku. Ale tehdy bylo vše provozováno a dodáváno z Prahy, a proto jsme každý týden lítali do Londýna.

Občas se stalo, že jsem doma byl jen o víkendu, kdy jsem si vypral, zabalil batoh a znovu odjel. Dodávali jsme projekty i pro Velkou Británii, kde jsme začali pracovat na projektu Student Number Planning. Tento projekt pomáhal univerzitám automatizovat a vizualizovat proces, jak se studenti dostávají do kurzů a jak se tyto kurzy alokují do učeben.

Univerzitní systém ve Velké Británii funguje trochu jinak než u nás. Některé univerzity si pronajímají kampusy a učebny mimo své vlastnictví. Například v Londýně jsou náklady na učebny v centru města velmi vysoké. Univerzity proto počítaly alokace kurzů a míst v Excelu – měly na to jeden měsíc a jednoho člověka, který tyto výpočty zajišťoval.

My jsme přišli s řešením postaveným na Tableau a Alteryxu, které pomohlo automatizovat tento proces. Výpočet se zkrátil z jednoho měsíce na jednotky minut. Tento úspěšný případ jsme potom zavedli i na dalších univerzitách.

Díky tomuto projektu jsem mohl napsat praktickou diplomovou práci, kterou můj školitel ocenil za praktický dopad, a ne jen jako teoretické pojednání o business intelligence. Tento úspěch mě jen utvrdil v tom, že po ukončení studia chci pokračovat v Billigence.

Dovol mi teď skočit k Billigence. Byl jsi zaměstnanec číslo sedm a pracovali jste pro Velkou Británii i celou Evropu. Můžeš mi trochu vyjasnit mou otázku – je Billigence australská nebo česká firma? Jaký je příběh Billigence?

To je velmi zajímavý příběh. Firma vznikla v Austrálii, ale založili ji dva Češi, manželé Kaprovi, Jana a Michael Kapr, kteří tam odešli krátce po sametové revoluci jako čerství absolventi. Bylo jim něco přes dvacet a oba se v Austrálii zajistili v korporátním prostředí, kde nějakým způsobem vyrostli.

Rozhodli se založit konzultační společnost, která bude řešit datové výzvy a poskytovat datová řešení pro korporace.

Je tedy Billigence spojena s pojmem business intelligence? Mám to správně?

Ano, právě tak. I název firmy se od BI intelligence odvozuje.

Jak firma v Austrálii rostla, logickým krokem bylo rozšířit působení do Evropy. Kontakty v Česku byly pravděpodobně důvodem, proč se rozhodli založit v Praze první pobočku mimo Austrálii.

Jak jsem již zmínil, několik prvních let firma řešila projekty pro celou Evropu z Prahy. Postupem času se podařilo rozšířit tým o lokální konzultanty v jednotlivých zemích. Dnes mají všechny tyto kanceláře samostatný byznys.

A kde manželé Kaprovi nyní sídlí? Jsou stále v Austrálii, nebo pendlují mezi Austrálií a Evropou?

Jsou stále většinou v Austrálii. Nicméně je potřeba obchod obhospodařovat a rozvíjet, takže pravidelně jezdí nejen do Evropy, ale nedávno jsme otevřeli kancelář i v Americe, takže létají také do Spojených států. Pravidelně jsou v Evropě, například za pár týdnů opět přijedou strávit tu část roku tady, navštívit klienty a pomoci rozvíjet byznys.

Pro ostatní konzultanty je motivující, když vidí, že majitelé firmy jsou stále aktivně zapojeni – nežijí pouze na pláži, ale aktivně rozvíjejí firmu a zlepšují ji.

Pojďme zpět k tobě. Jsi čerstvým absolventem, máš plnohodnotnou práci a cestuješ po Evropě. Zní to jako vysněná práce. Jak to pokračovalo po UK a univerzitě?

Tableau jsi už použil, mluvil jsi o Alteryxu a ETL procesech. Jak ses dál vyvíjel?

Mám takovou historii, že jsem v Billigence takový cestovatel. Po každé fázi mé práce a kontaktech s novými technologiemi jsem měl potřebu změnit směr. Cením si, že mi firma dávala příležitosti a nikdy mi neříkala: „Musíš si vybrat jednu věc.“ Naopak mi otevírala dveře.

Po období práce s Tableau, kdy firma rostla, jsem nepracoval jen na projektu v Coventry, ale i v České republice jsme implementovali Tableau servery. Zkusil jsem si i administraci Tableau serverů a rollout do velkých organizací, kde je to velmi komplexní.

Následně jsem přešel k architektuře, kde jsem se dostal více k ETL procesům, modelování dat a automatizacím. Potkal jsem projekt, který mě asi nejvíce ovlivnil – úkol automatizovat výpočty komisí pro jednoho telekomunikačního operátora.

Komise jsou odměny pro obchodníky, například za prodej SIM karty, mají nárok na konkrétní částku. Pravidla se v jednotlivých zemích různila. Operátor se rozhodl data konsolidovat, aby mohl dělat reporting.

Získali jsme tento projekt a poslali jsme 12 konzultantů do 12 zemí, aby paralelně spuštěli projekt.

Zde jsem pochopil, co znamená pracovat s daty ve velké, globálně distribuované organizaci, která nemá žádnou správu dat – žádnou Data Governance.

Zjistili jsme, že data nebyla v pořádku, vše bylo v Excelu. Než jsme mohli začít, museli jsme identifikovat zdroje dat, zjistit formáty, periodičnost nahrávání a také určovat odpovědné osoby za data.

Zde se dostáváme k Data Governance a k tomu, proč mě toto téma nakonec posunulo.

Protože tyto otázky byly zcela otevřené. Většina regionálních poboček neuchopila data systematicky. Fungovalo to na základě takzvaných „tribal knowledge“ – někdo v pobočce věděl, jak data spočítat, měl to v hlavě, pracoval tam dvacet let a zrovna se chystal odejít do důchodu. Nikdo nevěděl, co se po jeho odchodu stane.

Tento projekt mě opravdu naučil objevovat nepoznanou podstatu dat a motivoval mě hledat, jak to dělat správně.

Projekt jsme úspěšně dokončili a pomohl Billigence obrovsky vyrostnout.

Díky tomuto jsem si uvědomil, že chci dělat víc než jen data, transformace a reporty. Chci se posunout k strategickému pohledu na data – chápat a nastavovat pravidla hry, jak s daty pracovat.

To je pro mě mnohem zajímavější, než ladit transformace, aby běžely rychleji a měly kontrolu kvality.

Mě zajímá, jak uchopit data po organizační i technické stránce.

Tím se dostáváme k Data Governance, kterou v Billigence zavedli poměrně brzy. Nebyl jsem první Data Governance konzultant, nastoupil jsem do týmu vedeného Michalem Lichterem, naším ředitelem pro region střední a východní Evropy.

Společně jsme začali realizovat Data Governance projekty a já jsem si uvědomil, že je to mnohem zajímavější, protože jde o propojení byznysu s konzultingem ve všech jeho formách, spojení s technickými aspekty a „hands-on“ prací.

Nejde jen o povídání a hezké prezentační slidy, které si „sice lze udělat“, ale je to skutečné dotknutí se dat, mapování datových zdrojů, extrahování informací ze systémů.

Tato kombinace mi přijde naprosto skvělá. A mám štěstí, že dnes vedu tým Data Governance.

Michal se posunul do role regionálního ředitele, já jsem po něm převzal vedení týmu. S růstem firmy rostou i projekty.

Billigence vyrostla ze sedmi lidí na projektu pro univerzitu až do firmy, která v Česku má kolem 100 zaměstnanců a celosvětově zhruba 400 lidí.

Rozsah projektů samozřejmě roste také. S větším týmem můžeme dělat větší a zajímavější projekty.

Partnerství s technologickými firmami se prohlubuje, protože partneři vidí, že už máme kapacity a velikost, abychom dodávali zajímavé projekty.

Když mluvíš o velikosti, takže je vás v Česku sto a globálně? Jak velká je Billigence, abych si to mohl představit?

Globálně je to nyní kolem 400 konzultantů.

A co se týká profesí – jaké profi kompetence pokrýváte? Kde začíná a kde končí vaše expertíza?

Dnes máme čtyři hlavní streamy s více než sto kompetencemi, na které dohlíží stream leadeři.

Kromě Data Governance, které vedu já, jsou to Data Cloud and Architecture, Data Visualization a Data Engineering.

Snažíme se pokrýt celý životní cyklus dat – od jejich vzniku, modelování a ukládání přes transformace, data engineering, data science, až po vizualizaci a samozřejmě správu dat.

Mezi těmi 100 lidmi nejsou jen konzultanti, ale také data engineeři, data scientisti, tedy matematicky založení experti, a samozřejmě i byznysoví konzultanti, kteří vnášejí svoji odbornou znalost a práci s byznysem.

Pokud bychom se podívali na klienty, jaká je typická velikost firem, pro které pracujete?

Z naší zkušenosti – a klienti nám to potvrzují – děláme projekty pro malé a střední podniky na českém trhu, tedy SME.

Například jedním z našich klientů je vydavatel Isaac Caret, což je příklad firmy, u níž už se vyplatí i Data Governance.

Na druhé straně spektra spolupracujeme s největšími bankami, a to jak v Česku, tak na globální úrovni.

S růstem firmy roste i poptávka po analytice a robustních Data Governance řešeních, protože jde o zásahy do stovek či tisíců lidí.

Děkuji. Pro mě je důležité pochopit rozdíl mezi self-service BI ve firmě o pěti lidech a self-service BI ve firmě s padesáti tisíci lidmi globálně.

Vždy jsem vás vnímal, že se specializujete na větší škálu a komplexnější projekty.

Pojďme nyní k tématu – Data Governance už není nemoderní, mám pocit, že toto dříve zanedbávané téma, vedle bezpečnosti, se stává velmi důležitým.

Co ji dělá podle tebe tak důležitou?

Já si osobně myslím, že Data Governance si nesla dlouhou dobu stopu jisté zprofanovanosti a měla přisuzovanou nálepku nudného, případně obtěžujícího tématu…

Jícího tématu z těch historických důvodů. Vzniklo to vlastně z nutnosti, že velké korporace začaly být nějakým způsobem řízeny, vznikal nad nimi dohled, musely nějakým regulatorním rámcem vykazovat určité typy informací, a proto se vlastně ustanovil pojem Data Governance jako nějaké oddělení, které v té firmě prostě dohlíží na to, aby se s těmi daty už moc uživatelé nehráli a spíš ta vrata zavíraly, když je otevíraly.

Proto třeba dnes mnoho iniciativ, které vznikají kolem data governance, řeší jako první úkol to, jak se vlastně správně pojmenovat, aby to úplně nebylo data governance. Takže vznikají týmy, které se označují například jako data intelligence, tým datové harmonizace, nebo cokoli, co vlastně jenom nepřiblíží ostatní ve firmě k pojmu data governance a data ownership a stewardship.

A opravdu si myslím, že je to dané tou historií, a je třeba říct, že týmy data governance samozřejmě mají své místo v té firmě a v bance nemůže nikdo zrušit tým data governance jen proto, že už to není „cool“, protože ČNB by se asi ozvala. Ale vlastně vnímáme, že paralelně vedle toho vznikají právě tyto týmy. Tím pádem tým data governance je něco, co v těch organizacích zůstává a udržuje ten regulatorní rámec, ale vedle toho vznikají týmy, které řeší spíše biznisovější část řízení dat.

Motiv nebo důvod, proč se to teď děje, je, že data jsou čím dál tím více zviditelňována. Firmy zjistí, že je dnes potřebují mít v centru jakéhokoliv rozhodování, že už gut feeling a rozhodování na základě dojmů, pojmů a zkušeností na trhu neobstojí. A protože tady jsou trendy jako datová demokratizace a self-service BI, ať už si pod tím chceme představit cokoli, tak to vždy znamená, že musíme dát lidem do ruky data. Že jim musíme nějakým způsobem otevřít ta vrata a pustit je k datům.

Abychom to mohli dělat, potřebujeme nastavit nějaká pravidla hry. V podstatě je to stejně, jako když se domluvíme, že si spolu zahrajeme fotbal – musíme si nastavit, za jakých podmínek budeme ten fotbal hrát a kde je ta čára, za kterou už nesmíme kopnout míč. Stejně tak v datovém světě si musíme říct, jaká jsou pravidla pro to, aby někdo mohl použít konkrétní data.

Musíme také lidem ukázat, kde ta data najdou. Největší problém ve firmách není to, že mají málo dat, ale že jich mají strašně moc a nikdo se v nich nevyzná. Takže vlastně ten důvod… Promiň, to se mi hrozně líbilo na tvém případě „telka a dvanáct zemí“. Asi to bylo asi před sedmi, osmi lety, ale mám občas pocit, že lidé mají takovou lehkou iluzi a mají pocit, že v tomto typu firem mají všechno vyřešené a automatizované a je to totálně data driven.

Ale když se zvedne kámen a podívá se pod pokličku, tak v datech a procesech v byznysu najdeme u velkých i malých, úspěšných i neúspěšných firem dost problémů. A mám pocit, že se to právě láme a čistí a jsem rád, že ani velké nadnárodní korporace s obrovskými valuacemi to ve vnitř nemají úplně dořešené a že tam Excel stále funguje. Excel je asi něco, na čem dnes stojí skoro celá západní civilizace. Mění se to, ale do určité míry data nejsou úplně dokonale uchopená ve většině organizací.

Možná to ještě trochu specifikuji. Když se podíváš do firmy, často zjistíš, že data, která se točí kolem nějaké domény, například oddělení nebo zásadního prvku nějakého objektu ve firmě, jako je například zákazník, tak ta data budou do určité míry v pořádku, protože o ta data se stará tým, který za ně zodpovídá.

Největší výzvou pro firmu je chvíle, kdy musí ta data začít propojovat a bourat ta datová sila. Výzva může vzniknout třeba tím, že v regulovaném světě přijde nová regulace a je potřeba regulovat mnohem více informací. Nebo dnes většina firem zvažuje nebo již migruje do cloudu a přesouvá tam velkou část své datové platformy. V tu chvíli, aby bylo možné data přenést a migrovat, musí firma vědět, co za data to je a musí být nějak popsaná. V tu chvíli vlastně bouráme datová sila, vyžadujeme od týmů, aby nám řekly, jak definovat data, na kterých pracují, aby jim rozuměl úplně každý a mohl je snadno vystavit v cloudovém prostředí, kam by se v ideálním případě měl dostat skoro každý uživatel.

V této fázi přichází největší šok pro firmu, protože zjistí, že má strašně mnoho dat a že jednotlivé týmy pracují se stejným typem dat, ale dosahují odlišných výsledků. Typická anekdota je, že když se na začátku data governance programu zeptáme u klienta, kolik mají klientů, a zeptáme se na to ve financích, marketingu a třeba u risk managerů, dostaneme různá čísla. Může to být třeba rozdíl 20 %, což je celkem normální.

Nejlepší je, když si ty lidé sednou za jeden stůl, vymění si čísla a koukají na sebe. Pointa je v tom, že pro každého má pojem „klient“ úplně jiný význam. Pro marketéra je klient někdo, na koho má třeba jen e-mail a může ho oslovovat, protože má povolení mu posílat e-maily. Pro risk management je to zase někdo, pro koho má vypočítané nějaké rizikové skóre a může mu poskytnout hypotéku. Všechna tato čísla jsou správná, není problém v nich, jen spadají do různých domén.

Největší posun v organizaci je uvědomit si, že těch domén může být nespočet a že organizace si musí říct, co jsou ty domény, do kterých data spadají, a začít data do těch domén opravdu přiřazovat. Říct si například: „Když potřebuji spočítat počet klientů pro marketing, použiju ta data.“ A tady už se dostáváme k tomu, jak reálně řešíme data governance.

Je to souhra toho, že potřebujeme dostat do souladu data, lidi, procesy a aplikace. Velmi konkretizovaně začínáme třeba tak, že na pojmu zákazník demonstrujeme, jak by se dal vydefinovat a jak k němu připojit data, aby byl někde skutečně odkaz, který říká: „Když počítám tohoto zákazníka, použiji tuto konkrétní tabulku.“ To je vlastně celé kouzlo data governance.

Zní to hrozně hezky a na druhou stranu trochu jako aspirace. Ve smyslu „tohle bychom měli“. Trochu tam cítím, že jde o „nice to have“, že principy, jak pracovat s lidmi, jak řídit finance, jak růst, ty jsou známé. Ale v „špinavém fyzickém světě“, kdy se věci dějí, kapacity a rozpočty jsou omezené a lidé začínají dělat nepředvídatelné věci, tak kde vlastně začínáte? Začínáte vždy u zákazníka, protože je to ten případ, nebo přijdete a obrátíte celou organizaci vzhůru nohama? Protože to zní jako projekt změny managementu pro velkou firmu na deset let, který nikdy nekončí, což z pohledu konzultanta zní skvěle, ale zřejmě se hůř prodává.

Kde tedy začínáte? To je dobrá otázka. Odpovím, že pro každého klienta je start unikátní. Je to jedna z podmínek – když začínáme projekt, potřebujeme mít nějaký use case, problémovou definici, kterou klient buď zná, nebo ji chce poznat, a od toho se následně odrážíme.

Nemá moc smysl tvořit data governance kvůli data governance. Stejně jako nezavedeš jakýkoli proces jen proto, aby ho měl označený v systémech. Pokud jsi zodpovědný manažer, chceš zdroje alokovat rozumně. Proto i pro nás každý program data governance má svoji startovací čáru.

Start obvykle začíná tím, že klient sám, nebo s naší pomocí, si uvědomí, kde jsou jeho „pain pointy“, problémy, které ho trápí. Nejjednodušší a prověřenou cestou je provést data maturity assessment, tedy analýzu, kdy si skrze firmu promluvíme se stakeholders nebo je interviewujeme, abychom zjistili, jaké jsou konkrétní problémy, kterým čelí.

Může to být například datová kvalita – nejsou schopni spočítat konkrétní počty klientů nebo obraty správně nebo včas. Může to být problém typu, že uživatelé neumí pracovat s platformami a nástroji, které mají k dispozici, a tak dělají chyby – nízká datová gramotnost.

Nebo to může být technologický problém, například zastaralá infrastruktura, která nedokáže zvládnout a pojmout objem dat, který firma nyní má.

Může to být i praktický důvod, když je firma v prodejním procesu a musí ukázat přesná čísla, ale nedokáže je spočítat – například při akvizici. Toto jsou nějaké hlavní „drajvery“, z nichž vyplyne problém, který budeme řešit.

Z data maturity assessmentu následně vzniká roadmapa, podle níž se dále postupuje.

Pro nás je mimořádně důležité a pro každý program data governance zásadní umět měřit úspěch. Říct například: „Pomohli jsme konkrétně tímto způsobem.“ Ideálně měřit úspěch nějakou číselnou hodnotou, metrikou.

Součástí roadmapy je tedy nastavení cílů, které chceme dosáhnout. Například zvýšení datové kvality tak, aby bylo možné kvalitně reportovat regulatorním orgánům, u kterých hrozí pokuty, nebo schopnost onboardovat nové datové analytiky do firmy o měsíc dříve, protože mají dostupné znalosti.

Use case je vždy unikátní, ale na začátku musí být jasně definovaný.

Takto mi to dává smysl. Pojďme se podívat, co se děje potom. Máte nějaký use case, víte, co řešíte, je tam nějak měřitelnost, nějaké OKR, KPI nebo jiné metriky.

Co se děje dál? Jak tedy vypadá zavádění data governance?

Všichni si popovídají, pochopí se, a svět je růžovější. Komunikace je klíč a je to určitě jedna z důležitých částí.

Data governance je program, ne jednorázová aktivita, kterou jednou uděláte a je hotovo.

Stejně jako se ve firmě staráme o finanční aktiva nebo hmotný a nehmotný majetek, tak se musíme starat i o data.

Abych odpověděl ještě lépe: je to program, ve kterém si musíme jasně říct, jak chceme program řídit, jaká jsou pravidla hry, jak budeme data ve firmě řídit.

Musíme rozhodnout, jestli vytvoříme jeden centrální tým data governance, který bude řešit vše a fungovat jako helpdesk, který pomáhá řešit problémy, nebo jestli to bude distribuované – malý tým, který bude ostatní edukovat, jak to dělat správně. Nebo zda zvolíme hybridní/federativní model, kdy bude existovat hlavní tým, který řeší nastavení pravidel a implementaci například nástroje data governance, a rozptýlení stewardi v jednotlivých týmech, kteří se o data starají.

Na začátku víc než cokoli jiného je potřeba si říct, v jakém formátu budeme program vést. A pak se začíná řešit konkrétní use case.

Všechny use case jsou vlastně řízeny podobným způsobem – podívat se na data z byznysového pohledu, přijmout jejich jazyk a pojmy, ustálit je a zformovat – tedy vytvořit byznysový slovník, ve kterém si jasně definujeme pojmy, do jaké domény patří, jestli mají synonyma nebo hierarchii, a hlavně jim přiřadit vlastníka – člověka, který je za daný pojem zodpovědný.

To je ta byznysová část.

Pak je tam technická část, která vyžaduje podívat se na konkrétní data, zmapovat platformy, zjistit, z jakých zdrojových systémů data pocházejí, jakými pipeline procházejí, jestli dochází k nějakým transformacím na cestě a jak se data mění od vzniku až po data warehouse a vyšší vrstvy reportingu.

Toto zmapování provádíme za pomoci nástrojů, které umí tvořit datové slovníky.

Jakmile jsou obě této části ustálené, přichází hlavní fáze práce, kdy je třeba tyto informace propojit, vytvořit lineage, vazby a vztahy mezi pojmy a odpovídajícími datovými zdroji ve slovníku.

To je zcela zásadní, aby byznys mohl komunikovat s IT a analytiky, aby analytik, když dostane zadání „vytvoř mi report o počtu klientů“, věděl, kam se podívat a odkud si vzít správná data.

To, co vyprávíš, zní trochu ideálně, proto se na to zastavím u dvou věcí.

První je otázka formy – centrální, decentralizovaná nebo federativní.

Existují nějaké principy, které se hodí pro kterou, je to podobné jako v BI, nebo je to rozhodnutí do budoucna, které se může měnit, záleží na personálních otázkách ve firmě?

Řekl bych, že hodně souvisí s komplexitou, tedy jak velká je organizace, ve které chceme data governance zavést, a jak komplexní je jejich datový svět.

Podle těchto dvou základních parametrů se odrážíme.

Pokud mám firmu, která je v českých podmínkách poměrně velká, ale vlastně dělá jeden typ byznysu – třeba i banka, která má v rámci operací jen několik produktů a nemá velkou distribuční síť, je to třeba moderní digitální banka – dává smysl data governance dělat centralizovaně, protože je málo specialit a výjimek, které budeme řešit v konkrétních use casech.

Naopak firmy, které mají dceřiné společnosti, mateřskou firmu, působí ve skupině nebo mají mnoho fyzických lokací, například výrobní firmy, je rozumné volit federativní, distribuovaný přístup.

Mít centrální orgán, o kterém všichni ví, který vydává cíle, politiky, ale mít i místní správce a odpovědné osoby ve specifických týmech, divizích či lokalitách, kteří zajistí realizaci, protože znají každodenní realitu svého prostředí a vědí, že určitá pravidla je třeba mírně upravit, aby fungovala.

Druhý aspekt je, jak složitá je lidská stránka, tedy change management.

Obvykle jsou reakce ve smyslu „co to zase chcete“, „tohle není zákazník“ a tak dále…

Jasně, zákazník je tohle, takže zase s nějakými zkušenostmi, tohle je opravdu těžká práce, že? Já naprosto souhlasím. Z mojí zkušenosti říkám, že data jsou tou jednodušší částí. Ta je nějakým způsobem deterministická, je uchopitelná a velmi často je mnohem jednodušší je dát dohromady. Data někde sedí, někde jsou uložená, my je dokážeme extrahovat nástrojem, kterým je vytáhneme, a ty je následně někam uložíme. Je to jednoduché, je to technické cvičení vlastně. Má to svoje specifika, jasně, ale je to řešitelné, podle mě jednodušší než ta lidská část.

Lidská část je hodně individuální a mě baví mnohem víc, protože to je právě ta část, kdy je to o řízení změny, o práci s lidmi, o psychologii, o tom, jak být agentem té změny v organizaci a přinést tu změnu. Z mojí zkušenosti je každá změna – myslím, že je to jedna ze základních pouček řízení změny – bolestivá, naráží přirozeně na odpor, hlavně ve větších organizacích. Vždycky tam je takový ten pokles, kdy z počátečního nadšení, že něco děláme nového a zajímavého, přichází takzvané „údolí neštěstí“ (valley of despair), kdy to propadne, protože všichni si uvědomují, že musí začít dělat věci jinak, mají nové zodpovědnosti, a navíc kromě vlastní agendy musí ještě řešit to, jak nějaká data spravovat a jak si to postavit.

Takže to je určitě náročnější, ale na druhou stranu je tam mnohem větší prostor pro kreativitu. Upřímně si myslím, že v data governance je obrovský prostor pro kreativitu, a to ve smyslu práce s lidmi a klienty. Co myslíš tou kreativitou?

Třeba je hrozně zajímavé dostat lidi do těch platforem, které pro ně stavíme a ve kterých tyto informace o datech, obchodních pojmech a reportech udržujeme. Je to tedy nějaký nástroj, aplikace, v níž musí fungovat. V každé organizaci je adopce – my tomu říkáme sociální adopce (social adoption) – tohoto řešení trochu jiná.

Jsou organizace, které jsou ze své podstaty a z firemní kultury hodně direktivní, velmi top-down řízené. Tam zvolíš úplně jiný postup, jak lidi vzdělávat a jak jim tuto práci přidat do jejich agendy, než ve firmě, která je ze své podstaty demokratická a demokratická i ve vedení, kde je volnomyšlenkářská kultura, kde se důvěřuje odpovědnosti lidí a jejich vlastnímu smyslu pro to, co je správné a co mají dělat.

V té direktivní firmě děláš školení, onboarding, dáš jim to do KPI a máš hotovo. Ale v té demokratičtější firmě musíš řešit motivaci – co lidem dáš za to, že ti něco dají, že ti dají svůj čas a pozornost. Může to být třeba to, že s nimi vymyslíš konkrétní „side use case“, který dlouho řeší, díky němu zjistí, že v tom nástroji to jde vyřešit. Nebo jim dáš informaci, kterou každodenně hledají a nemohou ji najít.

A nebo, a to je taková historka, kterou často opakuji a nikdo mi ji nechce věřit, ale u jednoho klienta jsme to vyřešili tak, že jsme do Data Governance portálu dali agregovaný jídelníček všech restaurací v okolí, protože to bylo něco, co všichni řešili každý den. V ten moment se tam prostě naučili prokliknout a začali aktivně klikovat dál. Takže to může být hodně kreativní.

Kdo byl vlastník datové pipeline s jídelníčkem? Nejlepší člověk ve firmě, menu? Přesně tak. Muselo to sednout do firemní kultury, muselo to být přijato. Kdybych s tím přišel do korporátu, který bere vše hrozně vážně, koukali by na mě asi jako na blázna. Takový formát by tam nevzali. A mně to hodně baví a dost tomu rozumím.

Když s Jitkou Zatlouchavou řešíme change management a lidi, ráda vzpomíná na to, že nejdůležitějším touchpointem byly vždycky záchody a vylepování informací na záchodových dveřích, protože je to místo, kam všichni chodí a kde máte jejich pozornost. Ale taky se to nesmí zneužívat.

Ty teď několikrát zmínil Data Governance portál, bavili jsme se o lidech, pojďme teď na technologie. Jak se to dělá v tom technologickém datovém a softwarovém stacku? Když mluvíš o nástrojích, jaké nástroje u vás používáte a co to pod kapotou znamená? Když máš ty lidi umístěné, tak je to ta montérská práce.

Co se týče platforem, my jako konzultanti nejsme software house, nemáme vlastní technologické řešení, vždycky využíváme platformu, která nám přijde smysluplná pro konkrétního zákazníka. Na trhu jsou „Mercedesy“, „Tesla“, a pak jsou tam i „Volkswágny“, které si třeba může dovolit i menší firma a pořád jim budou dávat hodnotu. Pro nás je to vždy o výběru správného nástroje.

Myslím, že je fér říct, že je rozumné začít s Data Governance iniciativou klidně i bez nástroje. Ten nástroj totiž není středobodem, tím klíčovým prvkem, který vyhraje Data Governance iniciativu za firmu. Je to jen nástroj, který samozřejmě usnadňuje a automatizuje věci, ale jsou klienti, u kterých začínáme tak, že si pojmy a základní datový slovník vyplní do Excelu a teprve na takovém základu stavíme Data Governance framework.

Ale abych se vrátil k nástrojům… Bez toho, aniž bych je spojoval s jednotlivými značkami, abychom to nevzali osobně – jaká je tedy ta škála?

My používáme jako preferovaného partnera Colibru. Colibra je nástroj, který je lídrem na trhu. Nedávno jsme byli zvoleni integrátorem roku v APEK (Asociace producentů elektronických komunikací) v Evropě, za což chci poděkovat svému týmu, protože to je hlavně jejich zásluha.

Colibra je jedno z řešení, které se hodí právě pro větší korporátní klienty. Je to „Mercedes“ mezi nástroji – umí úplně všechno a ještě něco navíc. Je to řešení, které se vyplatí, pokud chcete dělat komplexní správu dat. Ve vašem governance programu chcete nejen data popisovat a zobrazovat, ale i řešit přístupy k datům a mít uživatelsky přívětivou podporu pro každý typ uživatele. Můžete každému uživateli zmapovat jeho uživatelskou cestu a připravit pro něj vše potřebné.

Pak jsou například challengery na trhu. Stejně jako jsme začínali s Tableu, tak hledáme i další nástroje s potenciálem ovlivnit trh nebo být v něm úspěšní.

Například český startup Davizo začal stavět datový slovník a celý Data Governance portál na moderním technologickém stacku, který je oproti Colibře flexibilnější a rychleji se nasadí. Colibra má zase výhodu v obrovském portfoliu konektorů a v možnosti vysoce přizpůsobit řešení zákazníkovi. Každý nástroj tedy něco nabízí a vždy záleží na tom, co klient opravdu potřebuje.

Kdo do takové platformy vstupuje? Každý člověk, kdo má přístup k dané platformě? Když jsi říkal „uživatel“, myslíš tím jak ty, co používají vizualizační vrstvy, tak i OM-ry, stewardy, nebo jaký je oficiální pojem – ti, co mají za danou doménu pojem zodpovědnost?

Ideální je, když do portálu má přístup kdokoliv, kdo ve firmě pracuje s daty. V dnešní době by data mělo řešit prakticky každý. Ten portál by měl být takový „Google na data“. Ideální je, když do platformy mohou všichni minimálně proto, aby mohli číst a prohlížet, jaká data, jaké reporty a které business pojmy existují.

Samozřejmě je pak vrstva uživatelů, kteří v portálu nějakým způsobem pracují a vytvářejí obsah. To jsou například stewardi, kterých bývá už podstatně méně. Jsou to doménoví experti, kteří drží unikátní znalosti v týmu, popisují obchodní pojmy, znají obchodní procesy a dokážou je jasně a srozumitelně zapsat.

A potom jsou technickí stewardi – vývojáři, architekti, lidé, kteří dokážou popsat fyzické datové elementy, které ve firmě existují. Těch vrstev je víc, ale nejlepší je stav, kdy kdokoliv ve firmě může otevřít portál a najít, co hledá.

To je ideální stav. Začali jsme tím, jak to začít – prvním use casem, prvním úspěšným projektem. Po tom, co máte nasazeného „mercedesa“ a celá firma má přístup a chodí tam každý den, protože tam mají i jídelníčky, tak co je mezi tím? Jsou nějaké best practices? Je to oddělení po oddělení? Jak to škálujete?

Osvědčilo se nám a je to i naše best practice rozhodně nedělat „big bang“, tedy obří projekt, na který se nahrne spousta konzultantů a expertů a bude běžet rok.

Transformace.

Přesně tak, transformace. Má smysl začít v malém, ale projít si tu cestu end-to-end. Místo začínat jen s jedním oddělením se osvědčilo začít se dvěma. Je to proto, že už tam vznikají nějaké interakce, cross-doménová témata, která je třeba řešit u přesně daného zákazníka, jestli vlastníte nebo máte jako my.

Kdo vlastník pojmu?

A mnoho dalších detailů, které vyjdou na povrch, když jdeme přes jednu doménu a jedno oddělení. Začít tedy se dvěma doménami a jít end-to-end. To znamená neudělat jen jeden výsek, nepostavit jen business slovník, ale postavit datový slovník, datovou linku, nahrát technická metadata a projít to celé end-to-end.

Přiřadit stewardy a dostat to do života. Už v tom momentě to brát jako téměř go-live stav, kdy dvě oddělení jedou „naostro“ a při tom běhu se odhalují slabiny – co ještě není dotažené, kde máme například nějaká pravidla, která chybí.

Nebo jaké metadata by neměli všichni vidět, kde něco chybí, jak fungují detaily typu životní cyklus dat – je ta data produkční, archivovaná, jestli je vše pokryté od vzniku dat až po dekomisi. Už během práce s omezenou skupinou lidí vznikají reálné požadavky na míru klienta, které jsou unikátní.

To pak dává i mandát pro pokračování dál, protože šampioni v těch dvou týmech říkají: „To je super, nám to pomohlo, máme hmatatelné benefity, proč by to ostatní nechtěli?“ Manažerská poučka, že?

Myslel jsem, že řekneš, že to funguje u nás dvou, ale u ostatních je to hrůza a že tohle nepůjde vyřešit.

Možná taky, ale osvědčilo se mi, že pokud dva manažeři mají něco, co ostatní nemají, tak ostatní to také chtějí. Vzniká poptávka „chci být součástí iniciativy“, protože vidí, že je úspěšná, přináší benefity firmě. Tak to hezky započne kolečko.

A z mojí zkušenosti je nejtěžší rozjet to kolečko na začátku a odstartovat ty dvě domény. Pak už se to rozjede.

Vrátil jsem se zase k té spíš businessové části, ale ptal ses i na to, jak to funguje technicky, protože jsi zmínil, že jste v unikátní pozici externího konzultanta, který má mandát. Doma není prorokem, ale spousta posluchačů má problém se dostat ke svým vlastníkům – boardům, C-levelům, přestože vidí technicky, že by to mělo fungovat lépe, mandát nemají.

Z toho pohledu, technicky, jak to řešíte a jak oni mohou from the ground up zlepšovat a maturitu Data Governance technickými či operativními věcmi zvyšovat a napravovat odspodu?

Myslím, že zásadní je začít. Jakkoliv kdokoliv začne, je to vždy lepší než nedělat nic. U technické roviny Data Governance je potřeba se podívat, jaká data vlastně máme a v jakém jsou stavu.

Nedávno jsme začali projekt s jedním klientem, kde vzali L2 vrstvu dat ve data warehouse – to jsou data, na která se dostávají obchodní analytici – a vysypali je do Excelu a začali je popisovat. Prostě se podívali, jaká metadata jsou schopni extrahovat z warehouse, vytáhli je a udělali si revizi – zda to dává smysl, zda jsou popisky čitelné a správné, zda se logika nezměnila.

Tím způsobem získali pozornost, protože zjistili, že tam jsou informace, které neodpovídají realitě. Například definice a popisky políček, které se změnily, nebo že mezi vrstvami je zbytečná transformace, která dělá overhead.

Start je podívat se na aplikace a datovou pipeline a začít ji mapovat. Největší smysl je začít od toho, co se objevuje ve finálních reportecha, tedy spíše než u zdrojových aplikací začít u datových warehouse a analytických vrstev, a postupně se propracovávat dál.

Každá moderní technologie má rozhraní pro poskytování metadat – Oracle, Snowflake, Power BI, Tableau – všechny tyto platformy přes API dokážou poskytnout informace o tom, kdy byl záznam naposledy aktualizován, kdy byl report publikován, kolikátá je verze, kdo report upravil. Informace tohoto typu jsou pak hodnotné.

Můžeš třeba u Tableu vidět, kolik máš na platformě reportů a kdo k nim naposledy přistupoval.

Zjistíš tak, zda někdo report skutečně používá, zjistíš, že místo 800 reportů je to spíše 300, zbytek je ad hoc analýza, kterou tam někdo nechal, nebo report, který je dávno obsoletní, protože se pro něj už negenerují data.

To je první hodnota, kterou lze vizualizovat, uživatelé z ní mohou něco mít, a osvícený board by si měl říct: „OK, tady je prostor k efektivitě, ušetříme náklady, případně takto zaměříme svoji energii jinam.“

My postupujeme podobně – nástroje jako Colibra a Davizo mají extraktory a metadatové loadery, které se napojí přes API na repository konkrétních aplikací a vytáhnou data, která pak uživatelům zobrazují přehledně a srozumitelně.

Samozřejmě existuje nekonečné množství technologií…

Pokud se jedná o nějaké obskurní technologie, nebo technologie, které jsou například historické či velmi uzavřené (closed sourced), tak my děláme i to, že vyvíjíme konektory na míru nebo je rozšiřujeme. Jako příklad uvádím SAP. SAP má svou historii, své výhody i své problémy, ale je například známo, že získání metadat je náročné. Nedávno jsme řešili projekt, kde se nám to úspěšně podařilo prolomit. To znamená, že i když nástroj nemá dobře zdokumentovanou strukturu, neznamená to, že z něj metadata nelze získat.

Jak moc je tedy celé propojení technologií podle vás technologickým problémem? Kdy na tom strávíte hodně času a jak jde vedle sebe ta byznysová a technologická transformace? Musíte si nejdříve udělat pořádek v infrastruktuře, vyčistit to a potom se bavit o tom, co tam máte, nebo to jde ze shora, jak jste zmiňoval předtím?

Hodně záleží na úrovni maturity prostředí, ve kterém se firma pohybuje, a na tom, jak má zvládnuté úplné základy. Mám velmi dobrý příklad z projektu, který stále probíhá pro Shell.

Je to pro globální Shell?

Ano, pro globální Shell. Shell má na světě asi stovku různých entit. Je to extrémně distribuovaná firma, která funguje téměř v každé zemi. Prakticky v každé zemi najdete benzínku Shell, což znamená, že tam jsou provozy, data, a samozřejmě nějaký nákup. Každá země má malou firmu, která generuje data.

To je příklad super komplexního prostředí. Přibližně 5000 aplikací poskytuje data, nad nimiž běží reporting, který by se dal označit jako „špagetový kód“. To znamená, že bylo 5000 různých aplikací a množství rozmanitých kombinací – tedy skutečně velká výzva.

My jsme nejdříve museli zmapovat prostředí, zjistit, jaké aplikace tam jsou, jak k nim přistoupit a pro některé jsme vyvinuli custom konektory, protože to byly neznámé aplikace. Celkově jsme museli postavit datovou lineage, tedy transparentně zobrazit cestu dat až do každého reportu.

Z výsledků bylo jasné, že jsou tam obrovské redundance a že některé věci se reportují opakovaně různými způsoby. Největší výzva byla zmapovat lineage dat. Zjistili jsme, že Power BI obsahuje metamodel dat, tedy model metadat. Ten však nebyl dostatečný pro naše potřeby, takže jsme jej rozšířili o důležitá operativní metadata – například kdy byl report naposledy aktualizován. To nám umožnilo filtrovat reporty, které byly zbytečně dlouho nezměněné a nebylo důvod je provozovat.

Další komplikací bylo, že některé entity již do určité míry používaly datové katalogy. Nebyly tedy úplně na začátku a některé země už řešily data governance. Skupina chtěla mít však jedno jednotné řešení data governance. Proto jsme zřídili jeden portál, který je jakýmsi katalogem katalogů. Integrovali jsme technologie, extrahovali metadata a zcentralizovali je do jediného řešení.

Další výzvou bylo integrovat vendory, kteří jsou na trhu spíše konkurenty, aby jejich metadata mohla fungovat v jedné platformě. To je asi největší komplexita, kterou jsme zažili – vyžadovala nejen znalost byznysu, ale také skutečné datové a metadatové inženýrství, abychom metadata dali dohromady.

To zní jako velký projekt. Jak dlouho už na tom pracujete? Můžeš uvést nějaký časový rámec?

Tato iniciativa běží rok a půl a má svůj vývoj. Zpočátku tam byl jeden konzultant, který měl za úkol zjistit rozsah a co nás čeká. Na základě jeho poznatků jsme získali podporu, aby nás tam bylo více, a postupně byl nasazen celý mezinárodní tým. Tým se skládal z konzultantů z různých kanceláří – v Austrálii, Spojeném království a nakonec i z našeho českého týmu.

To je dobrý příklad výhody, když má firma pobočky po celém světě – může nejen sdílet informace, ale i využít konzultanty v různých časových pásmech.

Mně teď napadá, když se podíváme na vaše fungování – jak to vypadá nyní? Když jsi začínal svou kariéru v Billigence, říkal jsi, že z Prahy jste obsluhovali celou Evropu. Jak je to teď, pokud se podíváš na vaše projekty? Jak moc jsou zde projekty z regionu CEE nebo spíše lokální? Jak moc vás půjčují jiné ofisy a jak moc jste center of excellence? A kolik máte globálních projektů a jak se to časem mění?

To se hodně změnilo. Pandemie COVID nám pomohla v emancipaci poboček. Ještě před pandemií bylo velmi jednoduché nasednout na letadlo a letět do Londýna. Během pandemie jsme si uvědomili, že remote delivery je možná také dostačující, a že je navíc efektivní mít konzultanty přímo on-site v daných zemích.

Zatímco dříve jsme se hodně pohybovali a z Prahy obsazovali celou Evropu přibližně 50:50 (CEE region a západní Evropa), nyní je to spíše poměr 80 % našeho regionu a 20 % pomoci na zahraničních projektech.

Výjimkou jsou globální klienti jako Shell, kde klient požaduje dostupnost konzultantů v různých časových pásmech a kvalitní předávání informací, ideálně v rámci jedné firmy, ale rozmístěné globálně.

Obecně platí, že pokud je klient regionální (například jedna země nebo západní Evropa), stará se o něj tamní kancelář. U globálních klientů pracují téměř všechny pobočky současně.

Když jsme hovořili o Shellu, uvedl jsi příklad klienta, kde je technická komplexita opravdu velká. Můžeš uvést příklad opačný? Kde je výzva více v byznysové, méně technické oblasti?

Mám dojem, že takovéto ETL scénáře – například když máte sto zemí a každá si vše dělala jinak, a nyní to chcete sjednotit do globálního reportingu – práce je jasná. Je jasné, že byznys chce pravidla a konsistenci. Pokud je však organizace čestným hráčem, který ctí fair play na svém písečku, ví, jak poctivě pracovat, má dobrou dokumentaci a data jsou čistá, pak sjednotit pravidla napříč všemi týmy nemusí být tak těžké.

Vidím to naivně, nebo je tam ještě nějaká vrstva navíc?

Máš pravdu. Pokud organizace umí dobře hrát tuto hru a má správné nástroje, je to pro ni jednodušší. Nicméně je potřeba si uvědomit, že svět se neustále vyvíjí a s tím se mění i trendy ohledně dat a způsobů, jak je spravovat.

Jako konkrétní příklad může sloužit potřeba reportingu v oblasti společenské odpovědnosti (Social Governance Responsibility), kdy firma nemá jen reportovat výkon, ale například i udržitelnost a odpovědné chování vůči životnímu prostředí. To je nový use case, který znamená využívat nová data, zapojovat externí subjekty, případně slučovat data napříč různými entitami ve skupině, přičemž některé entity mohou mít pouze správu datová.

Je to příběh, který se mění v závislosti na externích vlivech.

Napadá mě například koncept data mesh, který se dnes hodně používá. Data mesh máme rádi – možná bychom si měli říct, že máme ochrannou známku (směje se).

Data mesh je princip, který říká, že bychom se k datům měli chovat jako k produktům. Jednou z analogií je Amazon – mít data jako produkt, který vyrábím a nabízím ostatním na virtuálním tržišti (marketplace) firmy.

Tato filozofie se promítá do toho, že firmy chtějí přiblížit data byznysovým uživatelům, kteří nejsou technici. Datový produkt znamená, že vezmu svůj datamart nebo datový model, případně model strojového učení, popíšu ho a zabalím do „krabičky“ tak, aby každý uživatel věděl, co od produktu očekávat a za jakých podmínek ho může konzumovat.

Jde o dohodu, někdy říkáme, že jde o kontrakt: já vám nabízím data, každý den čerstvá, s pevně daným počtem sloupců, s definicemi, za které ručím, a pokud budete data používat podle daných pravidel, máte jistotu kvality.

Tento koncept se musí promítnout i do data governance, protože je třeba přepsat a upravit pravidla hry tak, aby podporovala i tento přístup.

V rámci platformy například vytvoříme „shopping experience“, kde si uživatel může najít datový produkt, přečíst si k němu metadata, definice, zjistit, kdo je producentem a může si produkt „zakliknout“. Přístup je pak schválen odpovědnou osobou.

Takový projekt jsme realizovali pro společnost Swiss Re – švýcarskou pojišťovnu, která měla již datový governance program a určitou úroveň zralosti. Externí vlivy ji ale donutili program upravit.

Je jich samozřejmě mnohem více.

Pokud se k tomuto příkladu ještě vrátím – tento přístup zní, že musí být firma už velmi vyspělá. Pokud je v organizaci několik subjektů, mohly by se přece dohodnout samy mezi sebou, jak to nastavit – není potřeba vytvářet marketplace.

V jaké komplexitě a úrovni zralosti by měli naši posluchači začít přemýšlet o takovém řešení?

Myslím si, že je to aplikovatelné prakticky na všechny velikosti firem. Nedávno jsem byl na konferenci ve Varšavě, kde byly firmy jako Just Fresh – známý startup na rozvoz jídla, relativně malá firma, ale pokud na datech pracuje tým vývojářů, má smysl data produktifikovat a nastavit data governance.

Tento přístup přináší odpovědnost za data a řeší nejasnosti: když je nějaká tabulka chybná, víte, co s ní dělat a komu patří.

Jakmile je nad daty nějaká spolupráce – i malé uskupení lidí, ale nad komplexním množstvím dat – má smysl vytvářet datové produkty a datové kontrakty, které vyjasňují odpovědnosti a definují pravidla hry, která zaručují kvalitu dat.

Co je důležité si uvědomit je, že cílem data governance není opravovat problémy, ale nastavit pravidla a kontrolovat jejich dodržování.

Je na ostatních, jestli se budou podle těch pravidel řídit, nebo ne. My dáváme do rukou „průvodce“ a nástroje, které pomáhají efektivně s daty pracovat a zároveň monitorovat dodržování pravidel.

Pokud pravidla někdo poruší, je to na něm – my jim můžeme dát „žlutou a červenou kartu“, ale rozhodnutí je na nich.

Říkáte tomu F.A.U.?

Přesně tak – F.A.U., ať si rozdají ty karty, jak uznají za vhodné.

Musím říci, že mám radost, že se podařilo pojmenovat data governance nezávisle na jejich špatné pověsti, protože v principu to dává skutečně velký smysl.

Jak vidíš budoucnost? Co se nyní bude dít?

Aktuálně jsou velké téma Data Mesh, Self-Service BI. Může tomu být říkáno různě, například Citizen Data Scientist. Trend demokratizace dat a vytváření data-driven organizací je zřejmý.

Co dalšího vidíš z pohledu práce s většími a globálnějšími klienty?

Myslím, že budoucnost bude dominovat vše kolem umělé inteligence (AI). I klienti, kteří AI dříve tolik neřešili, nyní využívají produkty, které…

Na trhu existují firmy, které implementují ChatGPT a rozhodovací modely, a pro všechny tyto iniciativy je potřeba se vrátit k základům a mít správně připravená data. Neexistuje žádný magický proutek, který by zajistil, že strojové učení automaticky poskytne správnou odpověď.

Existují pouze data, která do modelu jednoduše „nakrmíte“, a model z těchto dat nějakým způsobem vyvozuje závěry a dělá rozhodnutí. Myslím si, že z hlediska správy dat (data governance) nyní nastává zlatý věk tohoto odvětví, protože si všichni začínají uvědomovat, že data, i když si mohou myslet, že jsou v pořádku určitým způsobem, ve skutečnosti nestačí. Zjišťují, že bez kvalitních dat nejsou modely přesné. Zároveň je to trochu začarovaný kruh, protože i umělá inteligence umožňuje efektivnější správu dat.

Většina dodavatelů a našich partnerů experimentuje například s tím, aby jazykové modely pomáhaly vytvářet lepší definice obchodních pojmů v kontextu firmy. Nejde jen o to napsat, že zákazník je člověk, který si u nás něco koupil, ale jít hlouběji do dalších informací, včetně technických metadat, a poskytnout přesnou definici, jak existuje v rámci dané firmy. Tato definice je nezaujatá, bez zkreslení (bias). Pomáhá to také lépe mapovat datové zdroje a pomocí technik, jako je například fuzzy matching, lépe propojit technickou původ dat (lineage) mezi objekty, které na první pohled nemusí být nějak propojené.

Domnívám se, že výhled do budoucna spočívá v tom, že bude mnohem větší poptávka po nastavení správných pravidel hry, jejich pravidelné revizi a po podpoře iniciativ, jako je umělá inteligence, demokratizace dat a self-service. Současně se méně budeme zaměřovat na historii čistě regulatorního reportingu.

Jsem rád, že v tomto podcastu zazněla i témata týkající se umělé inteligence. Data Talk bez zmínky o AI by v posledních dvou letech pravděpodobně nebyl, a je to zcela na místě.

Co očekáváš v nejbližší budoucnosti ty a Belligence? Na co se těšíš?

Máme nyní spoustu projektů, takže se těším, až se opět ponoříme do zajímavých případových studií. Mimochodem stále hledáme nové kolegy, takže pokud vás toto povídání zaujalo a máte zájem o metadata engineering nebo spíše obchodnější část, určitě se nám ozvěte.

Kromě toho jsme před rokem a půl zahájili iniciativu pravidelných setkání, které nazýváme Data Governance Roundtable. Na těchto setkáních se scházejí lidé, kteří se zabývají správou dat. Jde o praktickou platformu, kde jsme zakázali jakýkoliv prodejní tlak. Přicházejí tam naši klienti, zveme zajímavé případové studie a diskutujeme tam o tom, co jsme dnes probírali: jak správně postavit program správy dat, zda je vhodné jej dělat centralizovaně, které konektory fungují a které platformy zase úplně nefungují podle očekávání. To by mohlo být zajímavé i pro posluchače tohoto podcastu.

Držím palce, děkuji moc, že jsi nám ukázal, že správa dat není jen důležitá, ale může být také velmi zajímavá a atraktivní. Držím ti palce.

Děkuji, Michale.

Děkuji za pozvání.

A to je vše. Děkujeme, že jste doposlouchali až do konce. Děkujeme také našim partnerům: Big Hubu, Intexu, Sastce, By Streetu, Colors of Data, Revolt BI, Good Data, Kebule, E-marku, Karel Data Company a Datamindům.

Pokud vás zajímá více, navštivte naše stránky datatalk.cz a přihlaste se k odběru našeho newsletteru.

Podcast

Data talk #93: Michal Heřmanský (Billigence)

Strojový přepis

Odebírejte Data Talk