Data Talk #169: Radovan Parrák (Alza)

V této epizodě zavítal do studia Rado Parrák, Head of Data v Alze, aby poodhalil, jak se pracuje s daty, datovou analytikou a ML/AI v jedné z největších e-commerce firem ve střední Evropě. S Jirkou Vicherkem prošli cestu od vize dat jako nervové soustavy firmy, přes architekturu a governance platformy AlzaBrain až po konkrétní přínosy v BI a data science produktech. Rado popsal technologický přerod z on-prem DWH řešení na GCP, to, proč v Alze stále spoléhají na Power BI, i to jakou kulturu datařů v Alze tvoří.

Strojový přepis

Partnerem tohoto DataTalk podcastu je K2 Networks. K2 Networks je globální technologická firma s kořeny v Izraeli a pobočkou v Praze. Její zakladatel a CEO Šlomo Kramer je legendou v oblasti kybernetické bezpečnosti. Založil firmu Checkpoint, byl prvním investorem v Palo Alto Networks a nyní disruptuje trh se síťovou bezpečností právě skrze K2.

K2 Networks nabízí platformu pro bezpečnost síťového provozu postavenou na cloudu a umělé inteligenci a je lídrem v nově definované kategorii SASE, což znamená Security Access Service Edge podle Gartnera. Díky tomu, i při současné valuaci v miliardách dolarů, stále roste desítky procent ročně. Vy máte možnost se na tomto úspěchu podílet. Pražská pobočka totiž raketově roste a nabírá IT profesionály různých zaměření. Samozřejmě jim nabízí i ESOP, neboli zaměstnanecké akcie.

Pokud tedy hledáte novou výzvu, baví vás řešit náročné IT infrastrukturní problémy a chcete udělat svět o něco bezpečnější, podívejte se na volné pozice v K2 Networks.

A nyní k samotné epizodě.

Dobrý den, jmenuji se Jirka Vicherek a vítám vás u dalšího dílu DataTalk podcastu. Dnes mám velkou radost, protože tento díl jsme plánovali od začátku, domlouvali jsme ho dlouho a konečně je rok 2026 rokem splněných snů. V pokoji vítám Rada Paráka, Head of Data z Alzy. Ahoj, Rado.

Ahoj, děkuji za pozvání.

Dnes se v podcastu podíváme do Alzy, prozkoumáme, jak fungují data v Alze, kde sídlí a zaměříme se také na transformaci do cloudu, nejen dat, ale vlastně celé IT infrastruktury, protože to měl a má Rado také na starosti.

Než se však dostaneme k tomu a k roku 2026, pověz mi, jaká byla tvoje cesta? Jak ses stal Head of Data v našem českém e-commerce zázraku?

Od konce školy už asi patnáct let se věnuji tomu, že se snažím nějakým způsobem vytahovat byznysovou nebo ekonomickou hodnotu z dat. Vlastně jsem to dělal vždycky a pohyboval jsem se tak mezi dvěma sférami, kde se to dá dělat.

Začínal jsem jako kvant.

Počkej, co jsi studoval?

Studoval jsem nejprve bakalářský program na IES v Praze a poté finanční inženýrství s důrazem na oceňování aktiv v Maastrichtu. Vždycky jsem chtěl být trading kvant – pracovat na burze a oceňovat finanční instrumenty.

Problém však byl, že jsem skončil vysokou školu na konci roku 2010, na začátku roku 2011, krátce po finanční krizi, a tehdy nebylo v módě najímat kvanty. Všechny složitější finanční produkty se tehdy považovaly za tabu a svět se vrátil k konzervativním produktům, kde nebyla taková poptávka po této práci.

Nicméně, protože to bylo po krizovém období, mnoho firem hledalo risk kvanty, tedy lidi, kteří dělali kvantitativní modelování na straně rizika, nikoli tradingu. A tak jsem začal tímto směrem a pracoval jsem jako kvant v KBC v oddělení rizik.

To byla jedna z těch dvou sfér, o kterých jsem mluvil, tedy quantitative finance. Tam jsem pracoval asi čtyři roky a hodně jsem se zabýval věcmi jako MATLAB, psaním matematických a statistických simulací, stochastickými procesy, oceňováním a podobně.

Poté, někdy kolem roku 2016, mě přemluvil kamarád, tehdy šéf Data Science týmu v ČEZOBE, a přitáhl mě o pár pater výš, do firmy Cera, kde jsem začal dělat Data Science. Tehdy bylo Data Science hodně „sexy“ zaměstnání, všichni to chtěli dělat.

Tam jsem přešel na druhou stranu vytahování byznysové hodnoty z dat, kde už jsem modeloval méně fyzikálně-matematicky a víc se zaměřoval na hledání vzorců v datech.

A na tuhle stranu barikády jsem zůstal až doteď.

Ještě než pokračujeme, když jsi byl v ČEZOBE Data Scientist, byla to super cool pozice, ne? Pamatuješ si, co byl tvůj technologický stack? Zmínil jsi MATLAB, ale už tehdy v té době převládal Python, nebo ještě byly populární R?

V době mého začátku se ještě řešilo, jestli je lepší R nebo Python. Já pracoval spíše v R, přešel jsem z MATLABu na R. Pamatuji si, že když jsem dělal pohovor do toho týmu, bylo to klasické zadání vytvořit nějaký ML model predikce.

Tehdy jsem ještě R příliš neznal a byl jsem zvyklý, že v MATLABu nebyly žádné nebo jen velmi drahé balíčky, takže vše se programovalo od základu, přímo od matic.

Na pohovoru jsem vytvořil klasifikující strom a když jsem to ukazoval, ptali se, jak dlouho mi to trvalo. Odpověděl jsem, že docela dlouho, protože jsem musel algoritmus napsat celý sám.

Oni mi pak ukázali, že v R se to dá udělat importem balíčku během pěti minut.

Takže svět se hodně změnil.

Abych odpověděl na otázku, začínal jsem v R a postupně přešel na Python.

Samozřejmě používal jsem také SQL, v ČEZOBE jsme měli Microsoft SQL, a také Teradata Aster, což byla data science platforma nad Teradata, myslím, že dnes už neexistující.

Po ČEZOBE jsem tam pracoval zhruba dva roky až rok a půl.

Když jsme stavěli modely, všiml jsem si, že problém není v jejich samotné tvorbě, protože data byla dobře připravená a přístupná.

Spíše byl problém v nasazení modelů do produkce, tedy jak je deployovat, aby fungovaly.

Říkal jsem si, že tato situace asi nebude výjimkou ani jinde.

Rozhodl jsem se proto stát freelancerem, pomáhal jsem firmám se stavbou modelů.

Poté jsem se spojil s kolegy z Belgie a prodal jim myšlenku, že banky mají problém s nasazováním ML modelů a navrhli jsme startup s vlastní MLOps platformou.

Tehdy se tomu ještě neříkalo MLOps, dnes ano.

Objevili jsme velmi zajímavý open source nástroj Kubeflow, který vyvíjel Google a byli jsme součástí jeho vývojové komunity.

Kubeflow běžel nad Kubernetes a my jsme postavili nad ním manažerská MLOps řešení, která jsme nabízeli bankám v Belgii.

Máme si to představit jako dnešní MLflow?

Ano, přesně tak.

Při prezentacích jsme často dostávali otázky, proč ne MLflow nebo Azure Machine Learning.

Tehdy Google ještě neměl svůj plně vyvinutý stack.

Zpočátku se nám dařilo několik bank přesvědčit, ale chyběla potřebná trakce.

Zlom nastal, když Google Kubeflow převzal a začlenil do své platformy Vertex AI, která dnes tvoří zásadní část tohoto řešení.

Bylo pro nás těžké konkurovat tomuto integrovanému cloudovému řešení.

Tato kapitola mého startupového snažení skončila kolem roku 2020 nebo 2021.

V tu dobu Alza hledala Head of Data pro modernizaci datového stacku, což byl projekt, se kterým jsem měl bohaté zkušenosti.

V roce 2021 jsem nastoupil do Alzy.

Dobře, nastoupil jsi do Alzy, aby jsi modernizoval data. Udělejme si před a po.

Jaký byl stav dat v Alze v roce 2021?

Když jsem nastoupil, v Alze byly tři IT týmy rozseté pod různými IT řediteli a neexistoval centrální datový tým.

To byl jeden z důvodů, proč firma hledala někoho, kdo by je spojil.

Co se týče stacku, používalo se Microsoft SQL na on-premise infrastruktuře, což tvořilo datový sklad (Data Warehouse).

Vedle toho existoval Data Science tým s Azure pískovištěm, kde běžely služby jako Azure Machine Learning, Synapse a Databricks.

Ale tyto týmy existovaly spíše jako ostrůvky.

Data Science tým měl svůj Data Lake, ale paradoxně se tato platforma napájela daty právě z Data Warehouse, takže to nebyl vlastně plnohodnotný Data Lake.

Pokud bych měl rozdělit platformy, byla tam první generace v podobě SQL Data Warehouse a druhá generace představovaná Data Lake.

V tomto stavu jsem Alzu zastihl.

Dnes jsme stále v procesu migrace, ale už jsme vybudovali vedle stávajících platforem platformu třetí generace.

Jde o Lake House architekturu, která je decentralizovaná a zároveň unifikovaná na Google Cloudu.

Tuto platformu nazýváme Alza Brain.

Alza Brain zahrnuje datovou platformu (Lake House) a nad ní dvě další platformy, které hostují use cases, tedy BI platformu a AI/ML platformu.

A všechno běží v Google Cloudu?

Ano, všechno kromě jedné výjimky.

V BI platformě používáme Power BI jako prezentační nástroj, což běží pod Microsoftem.

Power BI je last mile reporting tool.

Takže prezentace je přes Power BI a ne přes Fabriku?

Ano, používáme Power BI, i když možná s využitím některých komponent Fabriky.

Máte velkou licenci, chápu.

Ano, reálně využíváme Power BI.

Jak jste se k tomu řešení dostali?

Když to shrnu, byl to on-prem současný stav a ty jsi měl před sebou úkol významné transformace, protože Alza je velmi data-driven a výkonnostně orientovaná firma.

Jak ses rozhodoval o prioritách?

Jak jsi zmínil, vedle Alza Brain máš také Alza Cloud.

Jak vlastně probíhala diskuze – ty jsi přišel s návrhem, nebo bylo vše předem jasné a ty jsi měl tu delivery zajistit?

To nebylo zcela jasně zadáno.

Nábor byl částečně proto, aby někdo pomohl s diskuzí o tom, co a jak bude potřeba řešit.

To mi umožnilo kreativní práci.

Když jsem nastoupil, první věc, kterou jsem udělal, bylo zvážení auditu, ale ne formálního jako v korporátu – bez šablon a obíhání.

Spíše jsem mluvil s lidmi a naslouchal, co je jejich největší bolavou částí ve světě dat.

Měl jsi tedy vnitřní model s kategoriemi problémů?

Ano, kategorizoval jsem je jako problémy v lidech – nedostatečná datová zralost, problémy s přístupem k datům, s kvalitou dat, technologiemi nebo procesy.

Z toho, co jsem zjišťoval, byly největším problémem technologie.

V Alze je opravdu hodně dat a začali jsme pociťovat, že aktuální datové produkty už nedokáží plnit požadavky byznysových uživatelů na rychlost, čerstvost, kvalitu, granularitu a šíři dat.

S růstem Alzy a objemu dat už nebylo možné to udržet na plně on-prem infrastruktuře.

Nešlo o malou infrastrukturu, servery byly velké, ale již nešlo dál vertikálně škálovat.

Museli jsme začít horizontálně škálovat, na což jsme nebyli připravení.

Prvním krokem tedy bylo rozhodnutí vzít technologii umožňující horizontální škálování – tedy cloud.

Samozřejmě to nebylo jen lift and shift na cloud, ale zároveň nutnost měnit základní platformu, což je transformační proces, který stále probíhá.

Na jaké use cases se zaměřujete a jak máte týmy rozdělené?

Naše mise začíná ve chvíli, kdy se data dostanou z operačního světa do analytického.

Má role Head of Data ale neznamená, že mám odpovědnost za všechna data v Alze – ta jsou spravována produktovými týmy, které generují data v provozních systémech.

Poté, co data přejdou do analytické sféry, se stávají přístupnými pro analýzu, business intelligence, automatizaci a podporu byznysových rozhodnutí.

(…)

[poznámka: text dále pokračuje mimo předaný rozsah]

Je to přesně ta fáze, kde už začínáme mluvit o analytických datech. Zjednodušeně řečeno, už se nekoukáme na jednotlivé řádky v databázi, ale na nějaké agregáty či podobné struktury. V tomto bodě začíná vlastně naše jurisdikce, a proto jsou i use cases poměrně široké. Staráme se o to, aby data byla co nejefektivněji přenesena do analytického světa, tedy takový ten data engineering – jak dostat data z bodu A do bodu B co nejrychleji, co nejekonomičtěji a za co nejnižší cenu a ve velké škále.

Dostali jsme se tak ke klasickému engineeringu, kde jsou data v podstatě komoditou, neřeší se, co přesně data obsahují, jenže je prostě přeneseme, třeba jako ropu, ze zdroje na místo určení.

Poté data pokračují do našich datových platforem – ať už je to stará platforma, nebo AlzaBrain – kde začínáme data modelovat a vytvářet nad nimi různé pohledy, které pak zpřístupňujeme byznysu. Tohle je oblast, které říkám BI (Business Intelligence), tedy propojení dat do měr a dimenzí, které byznys potřebuje pro kvalitnější rozhodování.

Klasické use cases zde zahrnují tvorbu datamartů a analytických kostek. Dnes pracujeme se dvěma druhy kostek – OLAP a tabulární modely. Oba jsou technologie Microsoftu; OLAP je už spíše na ústupu, zatímco tabulární model je jeho moderní náhradou, ale v zásadě jde o totéž – analytickou kostku, která umožňuje velmi snadné řezání dat a pohledy na různé řezy, agregace a podobně.

Toto je jádro našich datových nebo BI produktů. Ve firmě máme zhruba 500–600 aktivních uživatelů denně. Představte si, že zaměstnanci ráno přijdou do práce a zajímá je nějaký vývoj, například vývoj obratu nebo jejich klíčových ukazatelů (KPI). Všechno to najdou v těchto semantických modelech, analytických kostkách, které mohou používat v rámci různých reportů ve statické podobě s několika filtry. Nebo, což je v Alze velmi populární, si sami vytvoří drill down analýzu tak, že si otevřou Excel a napojí ho přímo na semantický model, kde si mohou dělat analýzu, jakou chtějí.

Momentálně máme asi 15 těchto modelů, od menších o velikosti pár gigabajtů komprimovaných dat (což znamená, že původní data jsou mnohonásobně větší), až po modely o několika terabajtech komprimovaných dat, což jsou opravdu rozsáhlé modely, zachycující například naše položky, doklady, obrat a podobně.

To je jedna velká část našich use caseů – tvorba těchto analytických kostek. Druhou významnou částí jsou reporty nad těmito kostkami nebo nad naším datovým skladem. Dnes máme zhruba 450 reportů, které nejsou všechny spravovány mým týmem. Není to tak, že bychom měli centralizovaně všechny týmy pod sebou. V Alze existuje datová komunita, které říkáme Alza Data, kde je asi 50 datařů, zhruba polovina z nich je přímo pode mnou a druhá polovina je rozptýlená napříč byznysovými odděleními jako embedovaní a specializovaní analytici.

Tyto týmy si vytvářejí své vlastní reporty a těch 450 reportů je nějak rozděleno mezi nás a byznysové datové týmy. My jsme spíše poskytovatelem platformy a jakýmsi center of excellence, které pomáhá, jak reporty vytvářet lépe, ale nemáme kapacity spravovat všechny tyto reporty. Jsme proto velmi rádi, že nám byznysové týmy pomáhají.

Třetí skupinou datových produktů jsou produkty data science. Pod tímto pojmem si můžete představit machine learningové modely – tedy tradiční AI, jako jsou predikce poptávky, recommender engine (doporučovací systémy, které můžete vidět i na našich webových stránkách), různé optimalizace Alza Boxů či dopravních a skladových procesů. Takto bychom mohli rozdělit data science produkty na dvě hlavní skupiny: první jsou machine learningové modely, druhá je operační výzkum – tedy optimalizace procesů, například správa dopravy, Alza Boxů, skladů, distribuce zboží mezi sklady apod.

Dále máme i ad hoc byznysové insighty či pokročilejší byznysové analýzy.

Predikce samozřejmě pravidelně pomáháme i marketingovému týmu, který má vlastní datovou skupinu, ale my je podporujeme například u data science úloh speciálního typu, jako jsou segmentační analýzy nebo prediktivní modely.

Toto bych shrnul jako celkový přehled našeho landscape tří hlavních skupin produktů v oblasti AI, ML a dat.

Z byznysového hlediska chápu, že se staráte hlavně o platformu a je vám jedno, jaká data tím protékaají. Z mého pohledu byla dříve e-commerce zejména o webových a marketingových datech, proto mělo velký význam integrování webových dat v Google BigQuery. V důsledku toho mnohé firmy přešly na takový model, protože webová data byla dominantní, ale u větších hráčů je to velmi o logistice právě díky vysoké obrátkovosti.

Při takovém pohledu se mi zdá, že v našich datech je přibližně třetina dat zaměřena na BI, třetina na provoz a zbytek pokrývá další oblasti. To máme vyřešené?

Ano, přesně jak říkáte. Velká část našich datových produktů se zaměřuje na provoz. Ty analýzy, o kterých jsem mluvil (kostky), slouží pro controlling financí s cílem přesně určit profitabilitu produktů, sledovat obrat a podobně. Dále se orientujeme na provozní data ze skladů, například jednotky práce v jednotlivých skladových procesech, abychom mohli sledovat efektivitu.

Paradoxně pak možná proto, že jsme Alza, je zde méně analytiky zaměřené na webové prostředí – možná proto, že marketingový tým dělá velkou část této práce samostatně. Ano, především existují už hotová řešení přímo z Google Analytics.

Neříkám, že to takhle bude navždy, nebo že jsme s tím spokojeni, ale vždy je to o prioritách.

Část datové analýzy je tedy zajišťována interním ERP systémem, což znamená, že veškeré provozy jsou závislé na našem ERP systému. Nemáme tedy analytiku out of the box z nějakého SAPu, ale musíme si ji vyvíjet sami. Na druhou stranu, pokud si něco vymyslíme, můžeme to do systému kdykoli přidat, bez ohledu na to, zda to SAP má nebo nemá ve svých funkcích.

Když už jsme u platformy a zmínil jste AlzaBrain, co to vlastně je? Proč to nejsou Databricks? Při zmínce o datové platformě si většina lidí představí Snowflake, Databricks nebo Fabric, a vy jste si vytvořili vlastní řešení nazvané Alza datová platforma, podobně jako interní ERP systém. S čím často bojuji, když slyším o AlzaBrain datové platformě, je, že jde o mnohem širší koncept než jen datovou platformu.

Proto tomu říkáme Brain, protože naším cílem je vytvořit "neurony" a AI agenty, kteří velmi rychle procházejí data, propojují je, dělají analýzy a v podstatě fungují jako analytický mozek – něco jako centrální mozek byznysu.

Tento mozek ale nevznikne pouze s datovým skladem nebo platformou, to je nutná, ale ne postačující podmínka.

Proto u nás máme tři hlavní funkční celky.

Prvním je datová platforma, konkrétně Lakehouse architektura, kterou můžeme chápat jako medailonovou architekturu s několika vrstvami, označovanými například jako L0 až L3. Každá z těchto vrstev představuje různý stupeň agregace a čistoty dat. Data v ní proudí od nejnižší vrstvy směrem nahoru, přičemž v nejvyšší, tedy vrstvě L3, jsou data nejčistší, certifikovaná a připravená k použití.

Tento proces probíhá na platformě Google BigQuery, která je hlavním enginem, a pod ní se data ukládají v Google Cloud Storage. Operace na datech pak probíhají ve Spark prostředí (Google Spark, DataProc).

Celý proces orchestrujeme přes DBT, orchestrace probíhá pomocí Airflow. Pokud tedy mluvíme o datové platformě, jedná se o kombinaci těchto čtyř nástrojů (BigQuery, Google Cloud Storage, Spark, DBT a Airflow). K tomu jsou přidány nástroje pro monitoring, logging a governance.

Druhou platformou, která využívá certifikovaná data z L3 vrstvy, je BI platforma. Zde se snažíme vytvořit self-service BI modely, kde má každý tým, ať už centrální, nebo z datové komunity Alzy, přístup k tzv. workspace, což je Google Cloud projekt s potřebnými nástroji.

Celý systém je nastavovaný na principu code-first – to znamená, že máme předdefinované bloky nástrojů, které jsou interoperabilní a pro každý tým se vytvoří specifický workspace s daty a nástroji, aby tým mohl rozvíjet svůj use case a následně ho nasadit produkčně.

Systém jde postupně z prostředí vývoje (dev) přes test do produkce, což odpovídá modernímu softwarovému inženýrství.

Toto je tedy druhá část – BI platforma. Ta stojí na dvou základech: primárním enginem, který je Google BigQuery s jeho vyspělými funkcemi, které pomáhají BI analytikům pracovat efektivněji, a vedle toho jsou data přenášena i do Microsoft Fabric, kde stavíme semantické modely, buď přímo ve Fabric nebo v Power BI.

Tyto modely pak používáme pro dotazování z Excelu či tvorbu reportů.

Třetí částí je AI/ML platforma, která operuje se stejnými daty, ale je zaměřena na AI, ML a generativní AI.

Běží na Google Stacku spolu s open source nástroji a pro AI vývojáře – data scientisty a ML inženýry – je primárním prostředím Vertex AI s mnoha modely, včetně ML Ops.

Dále máme interní GenAI platformu nazvanou AlzaGen, která umožňuje businessu v režimu self-service si vytvářet vlastní byznysové asistenty. Nejde o plnohodnotné agenty, takové také vyvíjíme sami, protože integrace je složitější, ale o asistenty s přístupem k interním datům zároveň napojené na velké jazykové modely externě.

Vedle AlzaGenu máme ještě další řešení s názvem Nathan, které používáme pro byznysovou automatizaci.

V rámci AI platformy tedy operujeme s více nástroji, ale jedná se o jednu platformu, která zpracovává velká data.

Cílem je zajistit, že jakýkoli analytický use case – ať už jde o engineering, warehousing, AI, BI, ML nebo generativní AI – skončí v rámci AlzaBrainu.

A je přitom jedno, jestli s platformou pracuje hardcore IT data engineer, datový analytik, který píše SQL, nebo byznysový analytik, který potřebuje jenom najít informace, případně konverzovat s jazykovým modelem nad interními daty.

Díky tomu, že vše máme jako kód, můžeme procesy verzovat a jsme AI ready, tedy připraveni na integraci s LLM a dalšími nástroji.

Díky code-first přístupu je škálování jednoduché – přidáme nový use case, vytvoříme nový workspace a během několika minut nasadíme Google Cloud projekt s veškerým nástrojem a připojením na potřebná data.

Tento proces je plně automatický. Rád bych řekl, že je to na jedno kliknutí, ale pravda je, že stále ladíme a vylepšujeme CI/CD pipeline. Není to tedy úplně dokonalé, nicméně úplně ruční proces to už rozhodně není.

Celý tento přístup považuji za velmi moderní a robustní způsob, jak budovat škálovatelná datová řešení.

Vnímám Alzu jako technologickou firmu, a oproti jiným hráčům v e-commerce je zde IT od počátku zakomponováno v základech. Vývojáři si sami postavili e-shop, ne jako že by je k tomu tlačili byznysmeni. IT je tak hlavní hnací silou.

To je také patrné a zní to někdy skoro jako příliš dobré na to, aby to byla pravda.

Co bylo však nejtěžší? Co vás překvapilo, že není vyřešené, a co vás bolelo, přestože jste si myslel, že to bude hotové...

Box a co naopak jsi myslel, že bude těžší, ale objevil jsi prostě dvě knihovny, dva přístupy a rolovalo to samo. No, co mi přijde jako to, co bylo a stále je těžké, je datová integrace. To znamená, jakým způsobem dostat data z těch operačních systémů. Znovu se vrátím k tomu, že my v Alze to máme malinko jinak než je takový ten industry standard, kdy máš IT krajinu složenou ze tří set různých interních systémů a integrace znamená to, že musíš mít tři sta konektorů — vlastně tři sta různých konektorů — a celá hra spočívá v tom: dej mi nějaký nástroj, který má hrozně moc konektorů a dokážu se napojit na těch tři sta nástrojů.

Toto u nás není problém. My máme ten homebrew interní systém, do kterého nám stačí jeden konektor. To, co je těžké, je, že tento interní systém generuje obrovské objemy dat, je staršího data a je nějak postavený. Vlastně je velmi těžké dotazovat se na data z tohoto systému velkými dávkami tak, aby to neovlivnilo jeho provoz.

Takže toto je něco jako backbone, takový datový backbone — jak přenést obrovské objemy dat z jedné strany na druhou. To je něco, co bylo a stále je docela tricky. Neříkám, že data netečou, ale představoval bych si, že bychom to mohli v budoucnu dělat lépe. To je asi jedna věc.

A možná pro představu — říkal jsi, jak velké jsou ty semantické modely, tak ukážu jinou škálu. Například náš současný warehouse — nebudu mluvit o datové platformě AlzaBrain, protože ta není finální, zatím ji plníme — ale ten stávající warehouse má dnes nízké stovky terabajtů dat a obsahuje něco kolem tří tisíc tabulek, pět tisíc procedur, které tabulky upravují a tak dále. Už je to docela velké.

Denně přetransformujeme nebo přepočítáme kolem pěti až šesti terabajtů dat, což znamená, že je musíme vytáhnout z toho systému, a to jsou přibližné objemy. Takže už to není málo.

Pro mě je cloud dost no-brainer kvůli agilnosti, možnosti automatického škálování a dalším benefitům. Na druhou stranu, v takto specifickém jurském prostředí to není tak jednoduché rozhodnutí ekonomicky, ne? Když někde držíš velkou databázi, je to určitě velká práce ji optimalizovat, aby dávala smysl. Není to jednoduché.

Tohle je něco, co nás ještě čeká, až budeme mít platformu AlzaBrain plnou dat a bude stejně velká jako on-premise řešení. Pak si myslím, že to bude výzva a to jsou asi mé budoucí problémy. Asi tak.

Děkuji moc za tu otevřenost. Když se na to podíváme z druhé stránky, té pozitivní, poloplná sklenice — co jsi naopak nečekal, že to bude bolestivé, ale byl jsi příjemně překvapený? Jaké jsou výhody vašeho ERP a tohoto přístupu, které jsi na začátku neviděl?

Co mi přijde jako obrovská výhoda, když jsme přemýšleli, jak postavit AlzaBrain a jednotlivé části datovo-analytického AI-ML systému, strávili jsme hodně času analýzou. Pobíhali jsme mezi uživateli, interními IT týmy blízkými datům, ale i byznysovými datovými týmy a řešili jsme všechny požadavky, co s daty lidé chtějí dělat, abychom na nic nezapomněli. Cílem bylo, aby bylo platforma minimálně tak dobrá, jako stará platforma, ale škálovatelnější a lepší.

Doufali jsme, že co do funkcionality budeme moct dělat víc a lépe. Byl jsem si docela jistý, že při konsolidaci dat na jednom místě, když se uklidí, se objeví „spillover“ efekty — věci, které nečekáš, ale můžeš rychle propojovat data a získávat skvělé insighty. To jsem se nebál a myslím, že to přijde.

Jenomže jsem se bál, jestli funkčně bude tooling, který stavíme, vyhovovat uživatelům a bude tam všechno, co potřebují. Zde mě ale příjemně překvapilo, že nějaký ten rok, co AlzaBrain stavíme, je tooling od vendorů velmi rychle vylepšován. Nové release vycházejí na týdenní či dvoutýdenní bázi včetně integrovaných AI služeb, a nové jazykové modely vycházejí měsíčně a stále se překonávají.

Moc mě to pozitivně překvapilo. Myslím, že co se technologií týká, jsme se dostali do stavu, kdy máme velmi silnou technologii, a máme spíše problém obsáhnout všechny možnosti využití. Samozřejmě potřebujeme data, ale už se nebojím, že něco neumíme nebo nejde. Některé věci se dělají jinak a budeme se muset naučit nové pracovní postupy, ale není to o tom, že by tam nějaká funkcionalita chyběla.

Velmi se mi to líbí a je to velký rozdíl oproti on-prem prostředí, kde se čeká na vydání nových verzí, většina velkých hráčů má totiž on-prem řešení sekundární a nové funkce se do on-prem verze dostanou často se zpožděním. Na cloudu je to hned a mění se to pod rukama, což může znít jako nevýhoda, ale člověk nemusí nic řešit a má pořád tu nejnovější verzi.

To je právě to, co mě velmi pozitivně překvapilo, ani jsem to nečekal, že tím, že to postavíme takto, dostaneme up-to-date technologie. A to je skvělé pro cloudové prostředí.

Říkal jsi, že budujete AlzaBrain zhruba rok a ještě nemáte všechna data. Jak jsi přistupoval k tomu, co bude první, co bude MVP? Jak byl rollout? Logicky se ve takové škále nedá ve středu vše jednoduše zapnout a vypnout, že bude platforma nějakou dobu běžet vedle starého řešení?

Ano, přesně tak. Stavíme AlzaBrain, tak jaká data a kdy tam vkládáme? Jak probíhalo rozhodování a prioritizace?

Mám takovou zkušenost, spíše cautionary tale z praxe — když jsme si to představovali, měli jsme produktovou roadmapu, podle které plánujeme vyrolovat vrstvy. Šli jsme od spodních vrstev — nejprve jsme postavili cloudovou platformu pro celou Alzu, kde nejsou jen dataři, ale i vývojáři a jiné týmy. To sedělo.

Na tento základ jsme začali stavět AlzaBrain, který dnes sestává z přibližně 50 propojených projektů na Google Cloud Platform.

Celá roadmapa byla navržena spíše waterfallově, s velkými bloky, ale uvnitř těch bloků se snažíme být agilní. Helikopterový pohled je ale waterfall.

Říkal jsem si, že to půjde sekvenčně, že nebudeme dělat technologický dluh a odspodu postavíme vše pořádně, všechny vrstvy, a teprve potom začneme budovat BI a AI produkty, až budeme mít datovou vrstvu L3.

Realita je ale taková, že jako každý komplexní IT projekt se i tento prodlužuje, a už není únosné čekat, až budeme mít data s kvalitou L3. Zároveň L3 máme ve starém světě, takže teď přemýšlíme, jak „rozumně“ udělat technologický dluh — intentional, kdy předpočítaná data prostě jedna ku jedné zkopírujeme a nasadíme je, abychom mohli rychle dodat konkrétní use case. Přeskočíme nějaké mezivrstevné patra, ale prostě to uděláme.

Tohle je podle mě zajímavé, protože vždy jsou dva extrémy.

Jeden extrém je dělat věci velmi strategicky správně, pečlivě plánovat a neustoupit, neudělat ani centimetr technologického dluhu — tedy tvrdě strategický přístup.

Druhý extrém je čistě taktický, reaktivní — „bash and go“: vezmeš cokoliv, co je potřeba pro daný use case, nasadíš to, data kde jsou, neřešíš, jestli je to ideální.

Podle mého názoru oba extrémy sice zvládne každý, ale myslím si, že ani jeden z nich není udržitelný a nepřežije.

Umění postavit tak velkou platformu je naladit se někde uprostřed. Na jednu stranu dělat strategické kroky, na druhou stranu takticky doručovat konkrétní use case, čímž si kupuješ čas na dlouhodobou strategickou cestu.

Takže mám jasnou vizi, kam chci dojít, ale zároveň musím něco doručovat a tam dělám krátkodobé zkratky, které zapíšu jako intentional. Řeknu „toto je zkratka, kterou dělám, protože potřebuji dodat tuto přidanou hodnotu a ukázat hodnotu platformy, pak to odstraníme“.

Stavba takto velké platformy je podle mě hodně o těchto trade-offech, a bohužel extrémní varianty, čistá purita, v praxi nefungují.

To je můj názor — plán zní hezky, ale realita je jiná. „Chcete Boha pobavit? Řekněte mu své plány.“

Byla tu i kritika velké čtyřky, že na prezentacích slibují bezúhonnou transformaci, ale ve firmách sedí Honzík a Maruška – to je ten střed reality.

Možná je to správné zastavit se u toho: najít ten správný balans je důležité.

Jak se rozhoduješ, co jde cestou čisté kvality a co obětovat a posunout? Je to podle kategorií? Podle priority od managementu? Podle toho, co je v tu chvíli pro byznys důležité?

Když přemýšlím o trade-offech, kde řeknu „ne, to musíme dotáhnout pořádně“ a kde „ano, sice to není čisté, ale odbavíme to“, tak naštěstí není složité to rozhodovat.

Platforma není můj vlastní projekt nebo hobby, ale moje práce ve firmě, která chce hlavně vydělávat.

Proto rozhodujícím kritériem jsou peníze — tedy byznys case.

Platforma má tedy byznys case, proč ji děláme. Když jsme se rozhodovali, věřili jsme, že to firmě v dlouhém horizontu vydělá peníze. Otázka je, jak dlouhý ten horizont je — čím déle to trvá, tím se horizont prodlužuje, což je riziko.

Ale když přijde seznam use case, asi neřeknu nic nového — klasický backlog, víme, co je potřeba udělat.

Nacenění a odhad byznys přínosu pak jde ruku v ruce.

Ve firmě máme oblasti, kde je byznys case jasný. Rozhodnutí někdy je udělat věci rychleji, i když kompromisně, protože přinesou hodnotu.

Naopak jsou i věci, které žádnou hodnotu nepřinesou, a tam je naopak potřeba být zodpovědný.

Projekt je veliký a víme, že zanedbat malé věci se dříve či později vymstí, proto musíme být pečliví.

Vždy je to čistě byznysové a ekonomické rozhodnutí.

K byznys case: nějaké rady, jak je počítáte? Je to věda? Používáte na to nějaké speciální metody? Nebo je to jako kvantitativní finance?

Nenahlížíme na to jako na moc sofistikovanou vědu. Používáme metodu RICE nebo ICE (Impact, Confidence, Effort), kdy nejprve vytvoříme backlog věcí a podle té metody je seřadíme.

Řazení nevypočítá byznys case přímo, ale alespoň oddělí věci, co jsou prioritní a co ne.

Poté se podíváme na top prioritní položky a strávíme čas u byznysu — povídáme si o tom, co konkrétně se má udělat, podíváme se na výkazy P&L firmy a snažíme se zjistit, jestli přínos tam je, nebo není.

Není to přesná věda, papír snese všechno, ale máme nějakou intuici a mentální model.

Nemáme šablonu, kam vyplníme data a vypadne číslo, ale je to trojčlenka s dobrými daty a ekonomickým citem.

Nechci jít víc do detailů, ale máme nějaký ekonomický ratio model.

Suverénně.

A když se podíváme hlouběji do dat: říkal jsi, že v celé Alze je asi 50 datových profesionálů, lidí, kteří rozumí minimálně SQL; že polovina je ve tvé organizaci.

Jak jsou ty role rozdělené?

Ano, těch 50 lidí jsou dataři, kteří umí sami pracovat v databázích, psát SQL, vytáhnout data a analyzovat je.

Spotřebitelů dat v Alze je samozřejmě více — asi 700 lidí.

Pokud mluvíme o mém týmu v rámci IT — těch 50 datových profesionálů my nazýváme „Alza Data Community“. Komunita má své centrum, což je IT data tým, tedy můj tým, rozdělený na čtyři týmy.

Tyto týmy slouží komunitě jako centrum — něčemu jako centrum excelence — poskytují platformu, kapacitní a metodologickou podporu.

Ne ve všech odděleních Alzy mají své „dataře“, těm, co je nemají, pomáháme, jak můžeme, abychom také řešili konkrétní use case.

Samozřejmě pomáháme i se spotřebou dat.

Agregujeme data, to znamená, že shromažďujeme nebo centralizujeme data z celé firmy, vystavujeme je do vrstvy datamartů, a právě tato vrstva je ta, na kterou se pak dostávají byznysové datové týmy.

Abychom tento celý tok dat realizovali, máme v zásadě čtyři týmy a čtyři typy rolí. Prvním týmem je tým, kterému říkáme Data Foundations, nyní ho přejmenujeme na Alza Brain Team. Tento tým skutečně tvoří platformu. Máme zde datové inženýry, DevOps inženýry, rovněž matickýho architekta a programového manažera pro Alza Brain, tedy lidi, kteří se zaměřují pouze na to, aby platforma a technologie správně fungovaly a aby se k ní dostala data jako taková – prostě aby data byla k dispozici jako komodita.

Nad těmito týmy funguje už tým nazvaný Datamarts, kde působí BI inženýři. A teď, co je BI inženýr a čím se liší od datainženýra? Datainženýr, jak ho vnímáme my, je člověk, který se snaží přenést data z bodu A do bodu B co nejrychleji a nejefektivněji, přičemž samotný obsah dat příliš neřeší. Jeho práce je v podstatě inženýrská – staví tzv. datové trubky a je o tom postavit je co nejlépe. BI inženýři, kterým občas někdo říká Analytics inženýři (například DBT komunita), jsou ve své podstatě stejní pracovníci, jen kteří pracují s DBT a modelují data. Oni vezmou syrová data a po diskuzích s byznysem, což zahrnuje i znalost daného byznysu, vymýšlejí, jak data skládat do byznysových datamartů, jak budovat podkladová data pro semantické modely a podobně.

Tito lidé rovněž vykonávají inženýrskou práci, která je velmi technická, zahrnuje psaní SQL, Pythonu, DBT a dalších nástrojů, ale zároveň je to více o ekonomické a byznysové logice v datech, už nejde o samotnou komoditu dat. BI inženýři proto mají byznysový náhled, někteří z nich velmi dobře znají specifickou doménu – jeden tým zná hlavně logistická data, jiný marketingová data, další zákaznická data. Znalost dat je zde zásadní, protože tabulky se vzájemně mapují odlišně podle domény.

Vedle BI inženýrů máme tým datových analytiků, kterému říkáme Reporting and Analytics. Tito lidé se zabývají tvorbou reportů a plní tak typickou BI funkci ve firmách – vezmou data z warehouse nebo z některého z semantických modelů a postaví nad nimi reporty. Jsou v přímém kontaktu s byznysem, tedy s koncovými uživateli, kteří často nemají kapacitu či schopnost pracovat se samoobslužnými nástroji, a proto potřebují nějakého specialistu, který jim report připraví a oni se na něj jen dívají a řídí se podle něj. My samozřejmě vítáme, když se na základě dat lidé řídí.

Datoví analytici tvoří i zbytek naší datové komunity. Máme datové analytiky v IT, stejně jako v ostatních odděleních a doménách, kde pracují se stejnou agendou, ovšem organizačně jsou odděleni. Práce však zůstává stejná, a proto všechny tyto týmy používají stejné nástroje i přístupy v našem AlzaBrain BI workspace nebo BI platformě. Není zde rozdíl, že by tým marketingu měl horší nástroje než tým DAD nebo prodejní sítě. Vše je zcela stejné, mění se pouze přístupová práva, protože přístupy k datům shieldujeme.

Pokud jde o semantickou vrstvu, tu má v gesci tým Datamarts, nikoli BI tým. Dnes je to tak, že tento tým buduje všechny samozřejmě enterprise semantické modely, které jsou používány v celé firmě. V budoucnu však plánujeme, že BI platforma bude založená na self-service bázi, takže i byznysoví datoví analytici v rámci Alza Brain BI si budou moci vytvářet vlastní lokální semantické modely. Tento přechod však zatím není v plné produkci ani procesně či v rámci naší „maturity“. Ale očekáváme, že se tam velmi rychle posuneme, jakmile to bude častěji využíváno. Prozatím tedy semantické modely staví tým Datamarts.

Posledním týmem je tým Data Science. V Alze máme i AI tým, který rovněž spadá do IT, ale funguje vedle nás, není pod mým vedením; tam působí AI inženýři. Tým, který je pode mnou, je Data Science tým. Ten má jednu klíčovou roli, kterou nazýváme Data Scientist, ale správně by se mělo jednat o několik různých rolí. Máme lidi orientované spíše na strojové učení, tedy ML inženýry, jimž říkáme Data Scientisti, a dále pak lidi, kteří se věnují optimalizacím a operačnímu výzkumu. Všechny však označujeme jako Data Scientisti, ačkoli každý z nich má odlišné množství kvantitativních nástrojů a proto jsou vhodní pro řešení různých use-caseů.

Pokud se ptáš na poměr velikostí týmů, všechny jsou přibližně stejně velké, což znamená zhruba pět lidí.

Podle toho, co říkáš, zní to, že týmy jsou hodně specializované a rozdělené tak, že to není o jednom člověku, který je „všeuměl“, tedy dělá jeden den modelování a druhý den sestavuje reporty v Power BI, ale jsou v hloubce specializovaní. Ano, snažíme se to takto cíleně dělat, není to náhoda. Snažíme se dobře definovat role a pozice, abychom nalezli vhodný fit na pracovním trhu.

Tato specializace platí hlavně pro naše core týmy, tedy zvané Center of Excellence. V lokálních týmech je to často opačně; tam naopak potřebují spíše generalisty, tzv. „jack of all trades“, kteří si umí sami vytvořit pipeline, aniž by museli jít až ke zdrojovým systémům. Umějí si zprovoznit vlastní pipeline, propojit extrémní data, postavit lehčí report či semantický model. Je to velmi dobře vyvážené.

Jeden z benefitů Alzy je, že aspirující datař nebo někdo, kdo chce být datařem, má u nás mnoho cest – může nastoupit do lokálního týmu, kde se naučí byznys, pozná data v dané doméně a osvojí si širokou škálu nástrojů v generalistickém rámci. Nebo může přijít do centrálního týmu, kde se více specializuje. Každý přístup má svá pro a proti, ale my máme oba světy.

Pokud přejdeme k data science, ta je skutečně jiné zvíře. Často v podcastu říkáme, že jde spíše o výzkum a vývoj (R&D), kdy ne všechno vyjde a je třeba k projektům přistupovat odlišně než k běžným IT nebo datovým projektům.

Co tedy data science u nás řeší? Jaké use-casy jsme implementovali minulý rok? Máš pravdu, že data science je hodně odlišné od engineeringu – v engineeringu víš, co z něj vzejde, tam je méně pokusů a omylů. Data science je kvůli vyšší míře nejistoty méně předvídatelné. I samotní pracovníci se liší, jsou to různé „kmeny“. Všichni jsme sice dataři a jedna rodina, ovšem každý přemýšlí trochu jinak, což je zajímavé.

Máš rád data scientisty, protože jsi z této komunity? Ne, mám rád všechny stejně. Hlavně mám rád lidi v Alze, takže nemám preferenci.

Co se však týče datových vědců, u každého týmu sleduji podíl času věnovaný údržbě, operacím a vývoji. Máme v nástrojích jako Jira definované epiky a rozdělení práce, takže z pohledu „helikoptéry“ vím, kolik hodin je ve vývoji, kolik na údržbě a provozu. U data science týmu je typické, že velkou část kapacit tráví na vývoji, který je mnohdy otevřený a má nejasný výsledek, často je potřeba vyzkoušet více věcí, což komplikuje plánování.

V engineeringu je to jednodušší, protože pipeline je postavená a obvykle funguje. My stavíme vše od začátku, ale věřím, že v budoucnu budeme schopni přesněji odhadnout kapacity, když budeme například dělat dvě stě padesátou data pipeline.

U data science to není tak jednoznačné, a proto je práce více volatilní. To však neznamená, že by se nedala měřit nebo plánovat, jen je tam větší nejistota. Možná jde o větší sázky a větší odměny, proto je potřeba věnovat tomu více času a energie.

My nejsme akademická instituce, takže náš data science tým je pragmatický. Nemáme představu, že by datascientisti byli v práci hlavně kvůli zábavě, vodaři na beanbags a podobně. Například bychom mohli pozvat Káťu, která vede data science tým, aby předvedla, jak u nás probíhají pragmatické diskuze například o ekonomických přínosech.

A abych odpověděl na otázku hlavních use-caseů – jedním z nejvíce propracovaných modelů je náš model predikce poptávky, který již brzy za několik měsíců nasadíme ve třetí verzi. Je velmi přesný a využívá řadu externích i interních dat k predikci, kolik zboží by mělo být na kterém skladu, aby bylo možné doručit zásilku co nejrychleji. To je zásadní pro naši službu „do půlnoci objednáš, ráno máš“, která se jen tak neuskuteční bez precizního rozhodování.

Dále jsme optimalizovali například predikci vyzvedávání zásilek z AlzaBoxů, abychom přesně věděli, kdy se která schránka otevře nebo zavře. Tyto drobné věci přidávají zlepšení o pár procent, ale v měřítku firmy mohou znamenat významný progres.

Dále máme recommendation engines – předpokládám, že posluchači znají Alzu a mají tam účet. Když je uživatel přihlášený, vidí doporučení „ostatní zákazníci, kteří koupili toto, koupili také to“. Tento systém doporučení je postaven na datech a dodává ho náš produktový tým. Zajímavostí je, že Alza funguje jako velká platforma s množstvím menších e-shopů a sekce vypadají rozdílně. Proto máme různé doporučovací modely pro různé sekce, například doporučení pro Lego je jiné než doporučení pro jiný sortiment.

Možná proto cítíš, že zmíněné Lego je v akci, což je asi nenápadná reklama.

Co se týče inovací, například „buy now, pay later“ – když přijde taková novinka, zpravidla ji zachytí nejdříve tým data science. To začíná obvykle situací, kdy někdo z produktového týmu potřebuje odhad dopadu nebo data k rozhodování. Tyto tzv. business insights či taktické analýzy jsou součástí práce našich data scientistů.

Takže data scientisti dělají dva typy úkolů. První je tvorba modelu nebo produktu. Druhý je hledání, kde v byznysu existují příležitosti, podpora taktického rozhodování nebo analýzu, zda má určitý záměr smysl. Spolupracujeme například s týmem Alza Plus na různých eksperimentech a taktice.

Podívejme se dále, jak se data science týká zrodu produktu – nové entity v našem ecommerce prostředí. Produkt zpravidla „žije“ v ERP systému. Poté přichází čas na monitorování, zda produkt funguje byznysově, což je v kompetenci BI týmu. Sběr dat o výkonu produktu se pak ukládá do semantických modelů.

Příkladem mohou být AlzaBoxy – produkt, který generuje data o otevírání schránek, jejich obsazenosti, čímž vzniká úplně nový datový zdroj.

Vrátím se k tomu, co jsi zmínil o...

Tomu rozdělení jako embedded datarů a vašich centrovek SELANS, tak jak to máš rozdělené, tak jako ten ownership toho, tak mi přišlo, že k tobě do toho core teamu vlastně moc juniory neberete, že tam ta laťka je hodně vysoko v tom, jak hluboko v té technologii musíš jít a v té škále, tak vlastně hledáš fakt jako experta, který chce prohlubovat tu zkušenost.

Na druhé straně víc juniornější lidé jdou asi do těch byznysových týmů jako support nebo víc v tom jako BI-ku. Chápu to správně?

Je tam nějaký movement, jako kdyby vlastně mobilita s nimi, to že fakt hledáš top profíky, že z data inženýra se asi zas tak často nestane data scientist a naopak?

Ano, vlastně tím, co tou otázkou mi trochu nahráváš na to, jaké jsou ty typické kariérní cesty nebo jak ti lidé traversují tím datovým světem v Alze, mně přijde, že taková hlavní entry pozice do firmy nebo i do dat, možná kdybych mohl říct svůj názor, tak taková ta entry pozice je prostě datový analytik.

Mně přijde, že když jsou lidi mladí a chtěli by začít s daty, tak podle mě je strašně dobré začít jako datový analytik, prostě osahat si data. A je jedno, že je člověk super skvělý a má perfektní školu a tak.

Já myslím, že když chce být člověk datář, tak musí prostě umět s daty.

Takže u nás to koncipujeme podobně. Datový analytik je entry pozice, na které se dá růst a hlavně se člověk nějakým způsobem rozkouká kolem sebe.

No a pak vlastně v tom mým týmu, kdybych to vzal pozici po pozici, tak samozřejmě u data inženýrů máme juniory a snažíme se pak ty lidi rozvíjet.

Co si budem, moc seniorních data inženýrů na trhu není, ještě s tím naším stackem a tak, takže je to taky jako pracujeme s tím, kde jsme.

Alza je hodně česká firma a máme rádi, když se potkáváme v kanceláři, takže ten trh je taky nějaký a tohle naprosto akceptujeme.

Takže ne všude, ale třeba u data scientistů si moc nedovedu představit entry pozici data science.

Já vím, že se to dělá, a možná tady ten názor, který budu mít, tak nebude vonět úplně všem, ale za mě je data scientist člověk, který protne silnou technickou expertízu s tím, že má nějaké byznysové přemýšlení a má ten metodický background.

A dobrý metodický background můžeš získat ve škole, když jsi statistik nebo máš matematiku a tak, anebo přijdeš jako silný technik, třeba z computer engineering backgroundu, ale stejně ti chybí ten byznysový kumul, to byznysové porozumění.

Jelikož my, jak jsem zmiňoval, ty data scientisty používáme i v tom ohledu, že teď pomoz tomuhle byznysovému týmu, tak je to o tom, že ten člověk přijde do byznysového týmu a musí generovat hodnotu.

To je u lidí, kteří začínají, těžké nebo těžší.

Takže neříkám, že to nikdy neděláme, ale snažíme se u data scientistů, BI inženýrů a i data inženýrů, když to jde, hledat spíš mediorní a seniornější pozice.

Dokonce teď, co máme super seniorní pozice, tak hledáme tech lídra pro AlzaBrain, což by měl být člověk, který zastřeší celý technický stack a bude pomáhat našim DevOps inženýrům, data inženýrům, BI inženýrům s tím, jak správně používat nástroje, které tam už dnes máme, jak jsem vyjmenoval BigQuery, DBT a tak dále.

Zároveň hledáme někoho, kdo by si převzal celou platformu product ownera pro AlzaBrain, což je role, kterou teď zastávám já a ještě si to dělím s pár kolegy, ale systém je už tak velký, že to nestíhám.

Takže hledáme dvě superseniorní pozice.

Co se týče juniornějších lidí, tak doporučuji buď začít z generičtější role nebo z entry pozice datový analytik.

Mně to zní jako, že díky tomu, že máš tu laťku tak vysoko, nebo Alza, že potřebujete mediora, seniora, že je potřeba splňovat víc věcí, i ty byznysové, že vlastně si často nevystačí jen s řemeslem, ale chce to nějaký byznys men, jak jsi to říkal.

Jak nabíráš lidi, jaká je rozhodovací matice?

Chcete se potkávat, jste česká firma, máte super brand, jste v dobré pozici, tak to pomáhá, ale jak se potom rozhoduješ?

Teď, co říkám, mi přijde, že trochu nabíhám na to, co jsem řekl, protože co řeknu, je, že ty všechny věci týkající se technické seniority jsou strašně důležité.

Máme několikeré kolové výběrové řízení, kde máme case study, které pečlivě procházíme, takže to platí, není to něco, co si vymýšlím.

Ale počítání matic nemáme, to tam nemáme.

Je to pro mě až na druhém místě.

Snažíme se najít někoho, kdo zapadne do týmu.

Je nás tam kolem dvaceti, čtyři týmy, ale i mezi týmy ta chemie funguje.

Jsem rád, že jsme to pěkně poskládali tak, že jednou za kvartál máme schůzku, kde se potkají všichni dataři, říkáme tomu celodata.

Vždycky řeknu nějaké strategické věci, které nikdo neposlouchá, a pak jdeme na pivo, takže tak nějak to funguje.

Je tam hrozně dobrá atmosféra.

Každý den, když spolupracujeme, přijde mi, že mezi lidmi v týmu funguje chemie a dbáme na to, abychom si s lidmi sedli.

Stává se, že máme kandidáty, kteří jsou technicky dobří, ale lidsky to necítíme, a pak si je nevezmeme.

Co se tedy týče toho, co hledáme, anebo jaký je ten Alzafit, tak doteď to bylo dost feelingové, že třeba my hiring manažeři cítili, že něco nesedí nebo nevěděli, jak to přesně říct.

Teď nám pomáhají definované hodnoty na úrovni top managementu Alzy a máme archetyp, jaký typ lidí nám sedí.

Nechci uvádět přesné hodnoty, ale v Alze máme rádi pragmatické lidi, kteří jdou za výsledkem, takové ty mentality „živí nás hotové“, jak se říká anglicky „it’s not done until it’s done“.

Mám rád lidi, kteří nemluví o tom, jak by věci dělali, ale prostě je udělají.

A pak je tam hmatatelný efekt, že něco je a funguje.

Diskuze je důležitá, ale je potřeba mít výsledek.

Alza operuje v vysoce konkurenčním prostředí, a byznys je nejkompetitivnější spor na světě, takže je potřeba lidi, kteří na konci dne chtějí výsledky.

Jak jsi zmínil, celá organizace je datově řízená, máme asi 700 interních zákazníků, konzumentů reportů.

Část z nich jsou spíš na úrovni juniorních datových analytiků, kteří si tam provádějí řezy a dělají nějakou vlastní analytiku.

Chápej to jako velkou organizaci, kde se neschováš.

A hlavně uživatelé, to jsem nezmínil, jsou různorodí a jdou napříč firmou.

Je úplně běžné, že i členové boardu ráno přijdou do práce, otevřou Excel a začnou procházet data.

Když to neběží, nebo běží pomalu, je třeba to řešit.

To není jen tak, to se skutečně používá na rozhodování, takže potřebujeme delivery, to nejde vokecat.

To je jedna z věcí, kterou hledáme u lidí.

Alza a my jako dataři, snad to je slyšet i z tohoto podcastu, máme otevřenou kulturu, moc si na nic nehrajeme, všichni si tykáme, v Alze si všichni lidé tykají.

I v datech osobně nemám rád bullshitting.

Jsme dataři, většina věcí je vidět v datech, to šetří čas.

Když nastane nějaký problém, nebo “fuck up”, to se děje, ale je dobré to říct otevřeně.

Co mám rád, je odvaha u lidí říct si: „Jo, teď se něco pokazilo“ nebo „tady jsem selhal“, to je normální.

Autentický přístup, v tomhle nejsme politicky, snažíme se hledat lidi, kteří přemýšlejí pragmaticky, snaží se dělat věci jednoduše a rychle.

Nevždycky to jde, někdy jsou ty principy proti sobě, ale mám rád lidi, kteří z komplexních věcí dělají jednoduché, a ne naopak.

Jak se díváš na titul z vysoké školy?

Je to super základ a pomáhá to strategicky.

Ať přijde cokoli, máš správné modely, i když je musíš ohnout, je to back to basics, které máš a nad tím můžeš stavět.

Jak jsi říkal, „it’s not done until it’s done“, to praktické je důležité.

Lze pracovat s nějakými mockupovými daty, ale dokud nepřijde ten první opravdový špinavý dataset, kde nevíš, co je co, a nemáš jak zjistit, tak se to nedá naučit.

U kterých pozic a seniority?

U data scientistů preferujeme kandidáty ze STEM vzděláním, tedy kvantitativní obory, ale není to irelevantní.

Attitude je před CV.

Ano, děláme výběr na základě kritérií a STEM vzdělání u data science pomáhá.

U datových analytiků to neřešíme.

Důležitější je, co lidi umí.

CV pomůže navnímat, jestli má člověk znalost a jestli to dává smysl pro obě strany.

Nechceme nabrat někoho, pro koho by to bylo trápení.

Máme omezený čas a kapacity, takže chceme dobře vybírat.

Není to ovšem KO kritérium.

Vysoká škola není nějaký kult.

Líbilo se mi, jak jsi mluvil o high stakes, Alza je centrum excelence českého e-commerce nebo evropského a je vidět, že si můžete vybírat.

Jak to máš s tímhle rokem?

Co je pro tebe v hiringu a kdybyste tu byli za rok?

Bude vás dvojnásobek nebo jak to vidíš?

Jaký jsou pro tebe klíčové milníky letos?

Dobře, možná to vezmu přes pilíře.

Začneme lidmi.

Rádi bychom nabrali ty dvě superseniorní pozice – tech lídra a product ownera pro AlzaBrain.

Máme i další otevřené pozice na datové analytiky, BI inženýry a tak.

Pokračujeme v náborech.

Zajímavé je, že za dobu, co jsem v Alze, což je pátý rok, nebyl ani jeden den, kdybychom neměli otevřenou pozici.

I když to nevypadá, že něco inzerujeme na LinkedInu nebo na webu, nikdy neškodí nás kontaktovat na LinkedInu, protože většinou někoho hledáme.

To je tedy co se týče hiringu.

Co se týče platformy, ta je hotová a potřebujeme ji dostat do stavu opravdového produktu, ne jen technicky, ale spíš procesně.

Pracujeme na věcech jako governance platformy, onboarding pro nové uživatele, dotáhnout zbytek dat a začít stavět na tom, migrovat use case ze starého světa.

Takže 2026 bude podle mě hodně rokem dat.

To může znít vtipně, říká to head of data, ale doteď to bylo hodně o toolingu a stavění týmu.

Teď 2026 bude hodně o datech.

Z use case nemohu sdílet vše, ale určitě řešíme Gen AI.

Mým velkým cílem je zavést Gen AI, aby dataři fungovali efektivněji.

Jak na straně datové kvality, datových kontrol, datové governance, tam se to nabízí.

Jsme na začátku, máme novou platformu, takže určitě.

Ale i efektivizace práce lidí.

Zmiňoval jsem naši AlzaGen platformu, kde lze stavět poměrně jednoduše různé agenty.

Plánuji postavit pár takových agentů pro náš tým, abychom lépe zadávali úlohy, psali dokumentaci, aby dokumentace nebyla statickou stránkou, ale agenda, která dokáže komunikovat s uživateli na základě znalosti platformy.

Nejraději bych, aby AlzaBrain neměl statickou Confluence page, ale AlzaBrain agendu, které uživatel napíše a ona poradí, kde co najde nebo jak co udělat.

Takové pomocné věci v Gen AI.

Core Gen AI use case neřeší data science tým, máme dedikovaný AI tým.

Super.

Rado, moc děkuji, že jsme to tu konečně natočili.

Čekání stálo za to.

Doufám, že když jsme tady otevřeli dveře, potkáme se brzy znovu na transformacích, AlzaGen a dalších věcech.

Půjdeme hlouběji nebo přivítám Káťu či jiného team leadera a podíváme se na specifickou doménu.

Díky moc, držím palce.

Děkuji moc za pozvání.

Děkujeme, že jste doposlouchali až sem a díky i našim stálým partnerům, členům Data Talk klubu.

Těmi jsou Saska, TV Nova, Direct Technologies, Good Data, Miton, Colors of Data, Bystreet, Flow, Karl Data Company a Intex.

Díky moc za podporu a nechť vás provází data.

Podcast

Data Talk #169: Radovan Parrák (Alza)

Strojový přepis

Odebírejte Data Talk