Data Talk #50: Martin Kavřík (NOTINO)

Do další epizody Data Talku přijal pozvání Martin Kavřík z NOTINO. Rozhovorem vás provede Jirka Vicherek a Karel Šimánek a probereme, jaká byla Martinova cesta k šéfování dat v NOTINO, proč litoval, že nedával větší pozor na statistice, a jak se naučit neohýbat data tak, aby vám říkali to, co chcete slyšet. Bavíme se o typech predikcí, které se v NOTINO dělají, jak pracují s chybami modelů a jak budují pro datové projekty business casy. Na závěr probereme, jak je to s provázaností BI a Data Science.

Strojový přepis

Dobrý den, mé jméno je Jirka Vychrtek.
Ahoj, tady Karel Šimánek.
Vítáme vás u dalšího dílu Datatolku.

Dnes tady máme Martina Kavříka, představitele jedné z největších e-commerce firem v Evropě, Notýna. Ahoj Martine.
Čau Karle, čau Jirko.

Martin k nám přijel z dalekého Brna a dnes se budeme bavit o tom, jakou hodnotu mají data v e-commerce, jak je správně využívat a jaký je vlastně business case pro data, když jste velká e-commerce firma. A Martin o tom bude mluvit ze své vlastní zkušenosti, protože z pozice prvního analytika v Notýnu se za 6 let vypracoval právě na Head of Data Office, jak je pojmenována pozice v Notýnu.

Než se ale ponoříme do e-commerce a business case pro jak BI, tak data science, Martin, jak ses do Notýna vlastně dostal? Jaká byla tvoje cesta před tím?

Jo, díky za dotaz. Moje kariéra v podstatě začala studiem na Fakultě informatiky Masarykovy univerzity a ten příběh byl poměrně zajímavý v tom, že když jsem odcházel z fakulty, vůbec mi nedocházelo, k čemu slouží SQL, k čemu slouží relační databáze, jaký je jejich businessový přínos. Také mi nevadila lineární algebra, nevadila mi matematická analýza, ale statistika nebyla úplně můj nejoblíbenější obor a základní principy například tahání karet nebo házení kostek mi pořád nedocházely. Takže takový byl stav, ze kterého jsem odcházel z fakulty.

Pak jsem si dal roční pauzu před budováním kariéry na Novém Zélandu, kde jsem se zdokonalil ve sbírání jablek, protrhávání kiwi a cestování.

No a pak přišel okamžik, kdy jsem se rozhodl usadit a začít dělat něco serióznějšího, což pro mě bylo v rámci AXA životní pojišťovny. Tam jsem pracoval jako specialista na administrativu a poprvé jsem se dostal k tomu, jakým způsobem můžeme data využívat pro optimalizaci procesů, sledování statistik a celkové řízení businessu. V rámci té práce jsem měl na starosti práci se SQL, vytváření různých reportů, dashboardů, popisů procesů a jejich optimalizaci.

Z AXY jsem potom přešel do...

Tak tam jsi tomu už tedy rozuměl, což je skvělé.

Ano, tam jsem to přesně pochopil a došlo mi, že to je fakt super, že data takto uložená mají naprosto neocenitelnou pomoc při řízení. Je to obrovský potenciál, pokud je dokážeme správně využívat. Tam se mi to zalíbilo a řekl jsem si, že se tomuto směru chci věnovat dál.

Na škole pro tebe bylo SQL příliš primitivní jazyk nebo framework?

Ne, na škole jsem si upřímně přiznal, že jsem ten efekt nedohlédl. Nedohlédl jsem ho na těch cvičných příkladech, kdy máme školu, učebnice a autory, kteří napsali tyto učebnice, ale mě to vlastně vůbec nenapadlo, k čemu to může být. Přiznávám, že jsem to úplně podcenil a vůbec mě nenapadlo, že bych to mohl chtít dělat. Raději jsem tedy odjel na Nový Zéland.

Martin se však nepřiznal, že tam dokázal sníst až dvě tuny jablek denně.

Těch tun bylo pět, ale bylo to ve dvojici s manželkou. Ale teď si představuji, jak rychle bych jablek mohl nasbírat, kdybych to dokázal nějak matematicky optimalizovat.

To mě zajímalo, jaký SQL bys použil na jablka, ale...

Na druhou stranu, ten sklon k optimalizaci se projevoval i na Novém Zélandu, protože mi velmi rychle došlo, že na vrchol žebříku se chodí s prázdným sáčkem, kde se nasbírá půlka, a pak se dolů v nižších patrech stromu sáček doplní, vysype a jdeš zase nahoru. Takže optimalizace procesů tam byla odjakživa.

Jasně, ale to pokračovalo i dál, že? Protože v AXI ses hlavně naučil SQL, reporty a podobně, ale pak přišla chuť optimalizovat zase něco dalšího?

Ano, v AXA mi začalo docházet, k čemu to všechno může být. Začal jsem se vzdělávat v R-ku, statistické analýze a skriptování, lepší vizualizaci, lepší grafy. Protože takto se komunikuje nejlépe s byznysem – jak ukazuješ, co se děje, jaké jsou posuny. Nemůžu přece vytvářet jenom tabulky v Excelu s milionem řádků, na to se nic neukáže. Postupně jsem se učil, co business chce slyšet a jak informace, které mám v hlavě, předat tak, aby to business pochopil a oceňoval.

Já jsem taky měl takový syndrom, že když jsem na školní statistiku kašlal a byla mi proti srsti, teď jsem ji v praxi opravdu potřeboval a říkal si: Ježiš, kdybych dával pozor.

Já to měl trochu jinak. Byl jsem strašný kretén, ale pak jsem večer studoval, dělal kurzy, četl články a říkal si, že pokud bych jen ty hodiny nepromrhal hraním počítačových her, kde že bych mohl být.

Ale tehdy jsi pracoval v AXA a pak jsi šel do AVG?

Ano, pak jsem šel do AVG a to byl můj první kontakt s e-commerce. Měl jsem tam na starosti business analytiku marketingových kampaní – desktopových aplikací, e-mailových kampaní, mobilních aplikací. Spolu s kolegy jsme výrazně zlepšili efektivitu práce. Z plošného oslovování jsme přešli k využívání celosvětových událostí, reakci na nově objevené hrozby a propagaci funkcí v produktu. Hlavně jsme sledovali, co funguje, co ne, například AB testování a testování předmětů e-mailů (subject lines). Může se to zdát jako malichernost, ale rozdíly v příjmech se počítaly na miliony dolarů podle toho, jakou subject line jsme poslali. A opět – e-commerce, důležité věci v AB testování, což pro mě byl další přirozený krok k pochopení byznysu a využití dat.

A o jakém roce a jakém stacku mluvíme? Co jsi používal?

Vyhodnocování probíhalo především v R-ku, případně kolega pracoval s Pythonem. Šlo hlavně o koncept AB testování, statistických testů, hodnocení statistické významnosti. Byl to opravdu základní, triviální přístup, ne žádné složité modely. Ale bylo důležité ty prvky používat pravidelně a záměrně.

A pak jsi přešel do Notýna?

Ano.

Kdy jsi byl v AVG?

V AVG jsem byl do roku 2017, přibližně 4,5 roku.

A pak jsi tedy přešel do Notýna?

Ano, zaujmul mě inzerát na pozici CRM analytika. Říkal jsem si, že e-commerce se mi líbí, tak zkusím změnu a přinesu marketingovou zkušenost z AVG.

V Notýnu se mi postupně začal odkrývat širší svět – nešlo jen o marketing a kampaně, ale podnikání mělo mnohem širší dimenzi. Bylo třeba odhadovat výkonnost televizní kampaně, výkonnost pobočky, otevírání nových poboček v zahraničí a co to přinese.

To byly marketingová témata jako segmentace zákazníků, sledování výkonu zákazníků – teď se bavíme hlavně o deskriptivní analýze – sledování zákaznického výkonu, i taková jednoduchá RFM analýza, kdy sledujeme, jaké kohorty zákazníků přinášejí kolik peněz.

Mohl jsem sledovat, jestli jsou zákazníci například ti, které jsme nalákali na parfémové produkty, nebo spíš na kosmetiku. Jaký je mezi těmito skupinami výkon a ne jen sumář za první okamžik, protože parfémový produkt je dražší, takže v absolutních hodnotách přinesou zákazníci z parfémů více. Ale sledováním dynamiky v čase, opakovaných nákupů a loajality vůči značkám můžeme lépe cílit marketingové kampaně správnou nabídkou ve správný čas.

Postupně jsme se přes deskriptivní analýzu začali dostávat k prediktivní analýze – předpovídání obratu, počtu objednávek, spotřeby produktů a podobně.

To už byla doba, kdy z marketingové pozice jsem přešel k odpovědnosti za celé Notýno a business case pro data science modely. Bylo to o matematice, statistice, modelování.

Před dvěma lety jsme v Notýnu zavedli centralizovaný tým - Data Office, který sloučil odpovědnost za data, spojili jsme tým data science a BI kolegy, kteří do té doby fungovali odděleně.

Určitě se dostaneme k business case, to bude zajímat naše posluchače, ale ty jsi měl skok z AVG, což byla čistě technologická firma s trochu jinými produkty, do Notýna, který prodává parfémy.

Ano, říkal jsi, že e-commerce je široký pojem a Notýno je e-shop s parfémovou a kosmetickou oblastí. Měl jsi předchozí zkušenosti s tímto odvětvím, nebo jak jsi se adaptoval?

Jaké parfémy používáš?

V Notýnu má člověk přístup k několika parfémům, což je trochu firemní benefit. Nemohu tvrdit, že je to oficialní benefit, ale přístup je snazší než v AVG. Oblíbené mám například Creed, Armani, Prada.

A jaký parfém jsi měl, když jsi odcházel z AVG?

Když jsem odcházel z AVG, neměl jsem parfém. Používal jsem deodorant a základní hygienu – sprchový gel, šampon, zubní kartáček – ale znalost o byznysu Notýna a o značkách jsem samozřejmě neměl.

Pamatuji si, že jsem se na pohovoru s Radkem Ondrašíkem, tehdejším i současným Chief Marketing Officerem, a s ním jsme probírali mou znalost portfolia. Upřímně jsem říkal, že to pro mě bylo jen jméno produktu, znal jsem L’Oréal, protože moje teta je kadeřnice a partnerka L’Oréalu. Pak jsem se dozvěděl, že L’Oréal je jedna značka v rámci výrobce, který vlastní i Kérastase a další, což jsem vůbec netušil. Po čase jsem zjistil, že existují organizace jako Coty a jaké značky a brandy do nich patří a teď už po šesti letech mám v tomto přehled. Na začátku pro mě byly značky jen proměnnou, identifikátorem ve vstupních datech do modelu.

Kolik vás bylo na začátku v týmu, když jsi nastupoval?

Na marketing jsem nastupoval jako první analytik. Radek potřeboval pomoc s deskriptivními metrikami, aby mohl řídit svou oblast. Souběžně fungovali dva kolegové v Customer Care, takže to byla celá analytická složka v Notýnu.

Přemýšlím, jak probíhal pohovor, když ses přiznal, že nemáš zkušenosti s těmi produkty. Kdo zkusí najít předchozí zkušenost s prodejem parfémů a kosmetiky?

Já o Notýnu předtím neslyšel. Po akvizici, která vytvořila nějaký tlak na pracovní pozice, mi došla pracovní náplň a sedět jen u stolu a nemít co dělat mě nebavilo. Tak jsem začal hledat jinou práci.

Co mě na pozici zaujalo, bylo, že chci pracovat s daty a Notýno jako e-shop s parfémovým portfoliem mě zaujal.

Už to bylo Notýno?

V době mého nástupu už ano. V Čechách už proběhlo přejmenování z Parfium.cz na Notýno a toto se teprve čekalo v dalších zemích, jako Rumunsko, Polsko a dalších.

Pak proto jsi to neznal, byl to nový brand.

Ano, a myslím si, že jsem nebyl ani jejich cílová skupina, což mi později kolegové připomínali.

Zmínil jsi, že jsi nejspíše reportoval přímo šéfovi marketingu - byl jsi opravdu pod byznysem, ne v IT. To je důležitá informace do dalších diskusí.

Jak jsi měl volné ruce? Na začátku ti zadávali úkoly, nebo jsi měl iniciativu a dělal věci sám?

Já bych doplnil, že od začátku to byla byznysová práce – i v AXA byla administrativní byznys práce, AVG byla marketingová analytika, takže tam to bylo byznysově vedené. V Notýnu je to také byznys. Úkoly přicházely postupně, ano, ale nechtěl jsem jen sedět a čekat na zadání nebo tikety. Proto jsem hledal příležitosti, kde kolegům mohu pomoci.

Můj první úkol, na který jsem začal pracovat hned v prvním týdnu, byla automatizace stahování dat z Google Analytics a z Mailkitu, abychom měli přesnější deskriptivní pohled na efektivitu e-mailových kampaní.

Předtím si lidé museli data stahovat ručně – přihlásit se do Google Analytics, najít ID kampaně, přepsat čísla do Excelu. A to bylo třeba dělat pro 12 zemí, 12 přístupů v Google Analytics, následně 12 projektů v Mailkitu… A pak ručně přepisovat čísla.

V té době data byly spravovány ručně, což bylo náročné.

[Text končí zde.]

Chodili jsme, nevím, tak 2–3krát týdně do těch 12 zemí, ale i tak je to celkem opruz hledat to manuálně. Říkal jsem si: „Hele, GAčka mají API, tak to můžeme stáhnout, Mailkit také má API, tak pojďme na to a já vám to budu stahovat automaticky.“ Vlastně to byl můj první úkol, který proběhl.

Dá se to takto považovat za jakýsi základ nějakého Data Warehouse, nebo tam už něco takového existovalo? Data Warehouse tam byl, to, co říkám, že vlastně jsem byl v té byznysové části využívání dat, ale simultánně se mnou už Data Warehouse existoval a s mým nástupem se začal poměrně rozvíjet. Pokud si to dobře vybavuji... No, přece jenom to bylo trochu mimo, nechci teď nějak kolegu urazit, ale mám za to, že tomu tak bylo. Rozhodně existoval BI tým, který měl poměrně razantní rozvoj. Ten byl řízený IT? Ano, byl řízený IT. Byl z IT světa a vlastně řízený z jejich strany. V dnešní době to tak není.

Jak jste k tomu dospěli? Šlo o to, že byla z velké míry rozptýlená zodpovědnost. Data jsou špatně. Kdo za to „může“? Tím nemyslím obviňování, ale skutečně se hledalo, čí to chyba je, aby se vědělo, s kým komunikovat a aby se problém napravil. Nešlo o hru na viníky, ale byznys nevěděl, komu má nahlásit, že mu něco nesedí. Byly v tom zmatky a neshodovali jsme se v prioritách. My jsme měli vytvořit nějaký model a potřebovali jsme ho vizualizovat, ale neměli jsme dost kapacity u kolegů z byznysu, aby nám k tomu vytvořili automatizovaný report, a vlastně se všechno natahovalo.

Přišel jsem s vizí spojit to dohromady a udělat opravdu jedno oddělení, které bude zodpovědné za data, za monetizaci dat v rámci firmy a za pomoc byznysu, aby byl schopen dělat informovaná rozhodnutí, aby měl k dispozici včasné a správné informace k řízení své odpovědnosti. Tahle myšlenka se ujala, a tak jsme se spojili a tohle jsme nějakým stylem vytvořili. Vznikl jeden monolit, jeden velký celek, kde máme jednotlivé zodpovědnosti interně rozdělené, ale priority se nyní velmi jednoduše řídí. Říkáme, kdo je za co interně v týmu zodpovědný, a komunikace je mnohem jednodušší.

Ať si to představíme, máme okolo 50 lidí, aktuálně těch 50 lidí máme, navíc právě velmi intenzivně náborujeme, takže předpokládám, že do konce roku nás bude asi 60. Organizace je rozdělená do několika týmů. Ty týmy v zásadě kopírují tok dat, aby byly pokryty odpovídající zodpovědnosti.

Začnu od začátku. Je zde tým BI developerů, kteří jsou zodpovědní za přebírání dat z core systémů, komunikaci s kolegy v IT, aby byla zachována kvalita dat na vstupu a byla provedena kontrola těchto dat. Říkám, že tihle lidé připravují data na takový „stříbrný podnos“. Z tohoto stříbrného podnosu pak data berou BI analytici, kteří zajišťují reporting – aby data byla správně vizualizovaná, aby správně komunikovali byznys metriky, aby v datech nebyly chyby a vše probíhalo dle dohodnutých přepočtů. Kromě toho BI analytici řeší i operativní ad hoc úkoly, například kolik máme zákazníků určitého typu a podobně.

Následuje několik týmů data scientistů, kteří mají na starosti modelování. Využívají data připravená BI developery, spolupracují s BI analytiky, kteří vytvářejí vizualizace modelů. To je klíčová věc pro komunikaci s byznysem, neboť ukazujeme, jak modely fungují, jak nefungují, jaká je míra chyby a podobně.

Týmy data scientistů jsou ještě organizovány podle domén, ve kterých působí. Není možné, aby jeden člověk zvládl všechny jednotlivé případy. Takže je tam tým specializovaný na regresní úkoly, například na časové řady a predikce. Pak je tým specializovaný na doporučovací systémy a optimalizace, tedy na modely pracující s optimalizací, ne jen predikcemi. Máme tam i vyhodnocování webových metrik, tzv. A/B testů. A také tým, který se zaměřuje primárně na mobilní aplikace, e-tail a CRM segmentaci. To dává dohromady asi pět týmů data scientistů.

Posledním článkem v řetězci je tým data inženýrů, kteří přebírají data science modely a jsou zodpovědní za to, aby modely byly 24x7 dostupné přes API služby ostatním IT týmům. Myslím, že je to skvělé, protože jednotliví lidé se specializují na svoji doménu. Samozřejmě musí mít mezioborový přesah, data scientist musí chápat, jak pracuje BI developer. Na druhou stranu už nemusí řešit optimalizaci SQL dotazů do detailu, protože na to máme specializované osoby, které to umí lépe.

Data scientist popíše, co potřebuje, jaký preprocessing dat, vyzkouší si to na nějakém vzorku dat, řekne, co by chtěl, a někdo mu pomůže to efektivně napsat, aby servery neutrpěly a výpočet byl efektivní. Z druhé strany data scientist musí být schopen vytvořit model, který lze nasadit do produkce, ale nemusí jej rozebírat do jednotlivých funkčních volání tak, aby běžel optimálně. To je úloha data inženýrů, kteří školí data scientisty, aby jim připravovali co nejpoužitelnější podobu modelů. Finální rozhodnutí tak dávají týmy data inženýrů, protože jsou zodpovědní za to, aby servery neběžely na hranici, API služba měla dostatečnou kapacitu a databázový prostor byl optimalizovaný.

Jak máte tedy organizaci rozdělenou? Je to opravdu velké. Jsem až překvapený, že máte 50 lidí. Jak velká je datová organizace v rámci vaší firmy?

Notino je velké primárně ve skladu a jako celek má nyní asi 2500 zaměstnanců, samozřejmě na sezónu se to výrazně zvyšuje. Kolegů v IT je myslím kolem 300–400, pokud správně vzpomínám. IT týmy se starají o provoz webu, všech core systémů a dalších částí.

Pro mnoho lidí je Notino jen český e-shop a neuvědomují si škálu, komplexitu a velikost byznysu. Když někdo slyší, že je v datech 50 lidí, pak na firmu s 2500 lidmi to není málo.

Jak máte toto rozdělené? Máte třeba čtyři nějaké triby?

Vše, co jsem popisoval, jsou menší celky, které vede jeden team leader. Každý tým má jednoho team leadera. Ještě jsem nezmínil business analytiky, kteří tvoří poslední tým. Všechny ostatní datové týmy jsou technické, byť se zabývají byznysem. Business analytici pomáhají komunikovat s byznysem, správně porozumět zadání, případně dohledávat, jak proces funguje v jiných odděleních. Chtěl bych je zmínit, protože jsou důležitou součástí.

Každý tým má svého team leadera. Když počet lidí v týmu v dané doméně roste, což je typické u BI analytiků, protože ti dělají reporting a ad hoc analýzy pro všechny složky v Notinu, přišla restrukturalizace. Vytvořili jsme další úroveň seniorních uživatelů, seniorních garantů určité domény, kteří mají několik lidí pod sebou. Tento tým je příliš velký na to, aby ho řídil jeden člověk, proto existuje další organizační patro.

Super, máte tedy hodně pater a mnoho lidí. Jaká je tvoje role? Protože spoustu lidí bude zajímat, zda už to dokázalo fungovat relativně autonomně a ty jsi pouze ten vedoucí, který hlídá lidi, nebo jestli stále vykonáváš aktivní roli v rámci týmu, třeba že chodíš po organizaci a snažíš se „prodávat“ nové věci.

Rozhodně jsem už opustil veškerý vývoj. To říkám na rovinu, už bych to teď nezvládl. Někdy mě to mrzí, ale bylo to rozhodnutí z minulosti, ke kterému se už asi nevrátím.

Jaký je tvůj poslední kód v produkci?

To už je dávno. Nedělal jsem ani ad hoc analýzy ani nevytvářel modely do produkce. V zásadě ta byznysová role byla jeden z důvodů, proč vznikla data office a jednotlivé týmy, protože v době, kdy jsme vytvořili prediktivní model, jsme měli problém ho nasadit do produkce, protože tým data inženýrů neexistoval. Infos IT tehdy říkalo: „Vy jste byznys, tak prostě práva nedostanete.“

Dnešní postupná transformace Notina ukázala, že data analýzy a byznys přináší obrovskou hodnotu, a proto vznikl Data Office, kam jsme dali tyto kompetence. Spolupráce s IT je nyní na velmi dobré úrovni. Tým, který přešel z IT, má znalosti postupů, guidelineů, fungování IT, IT jim věří a garantují, že produkční prostředí bude fungovat jak má.

To byla moje vize, proč Data Office vytvořit, aby se vše narovnalo. Já osobně jsem nikdy neměl práva k nasazení kódu do produkce.

Je skvělé, že ukazuješ, že to byla cesta, která nebyla od začátku dokonalá.

Jak probíhala diskuze o tom, co toto znamená? Z toho, co říkáš, mi přijde, že Notino dává na data velký důraz. Byl tam nějaký pivot, aby byla firma více data driven a v tom viděla velký potenciál pro růst?

Určitě. Data driven je Notino od začátku a růst je přímo spojený s tím, jak přicházely jednotlivé use case a efekt, který se objevil, a jak se akceptovala jejich užitečnost. Čím více projektů odbavíte, tím více ukážete přidanou hodnotu a tím víc důvěry získáte, což umožňuje další rozvoj.

Jak se podle tvé zkušenosti ve firmě „staví“ business case, když přijde nápad?

Nápady není nikdy nedostatek, myslím, že v Notinu jich je dokonce tolik, že se nedají všechny stíhat zpracovat. Přicházejí především od lídrů v byznysu, kteří myslí datově i procesově a hledají věci, které by jim pomohly v řízení, například z pohledu optimalizace, automatizace procesů nebo dashboardingu.

Také já sám z běžné komunikace přináším myšlenky, co by mohlo firmě pomoci. Takto začaly první use case, zejména regresní problémy, kde jsme se snažili predikovat počet zakázek v čase.

Predikce počtu zakázek a obratu pomáhá logistice to optimalizovat – kolik lidí má přijít na směnu, zda jsou potřeba přesčasy. Komerční oddělení potřebuje vědět, zda plánovaná kampaň za čtyři týdny splní plán, nebo zda je potřeba být agresivnější v cenotvorbě.

To jsou efekty jednoho konkrétního modelu.

Dalším modelem je predikce produktů – máme 100 000 SKU a chceme u každého vědět, kolik ho budeme v čase potřebovat. Krátkodobá predikce (týden, 14 dní) je důležitá pro logistiku, která podle toho připravuje skladové prostory a plánuje kampaně, aby byly produkty ve správný čas na skladě a mohl se efektivně odbavovat zákaznický servis.

Střednědobá predikce (4, 12, 16 týdnů) je klíčová pro nákupní oddělení, které podle ní objednává zboží u partnerů, aby se drželo just-in-time principu – tedy nemělo příliš zboží na skladě, ale ani nedocházelo k výpadkům.

Dlouhodobá predikce (až rok dopředu) je nutná pro jednání s partnery o kontraktech na příští rok, aby si rezervovali výrobní kapacity, například na milion kusů parfémů. Pokud by toto neproběhlo, mohli bychom mít problém s dostupností produktů.

Dále je klíčovým projektem dynamic pricing.

Když zůstaneme u těch regresních problémů a predikcí, jak jste je zaváděli v Notinu? Všechno to zní, že to vyžaduje masivní propojení sil ve firmě. Optimalizujete logistiku, ale samostatně, optimalizujete marketing, ale samostatně...

[Text zde končí.]

Statně, ale propojit tyto dva datové sady je složité už čistě technologicky a datově. Takže jste to už měli připravené a nad tím jste začali dělat matematiku?

Ano, složité to je. Myslím si, že vývoj toho ad hoc modelu se ještě dá zvládnout, protože máš většinou jednoho business ownera, který velmi přesně ví, co by chtěl, a velmi jasně dokáže specifikovat, co a proč, takže dokážeš i nějakým způsobem tomu projektu dát směr a řekneš ano, to dává smysl, tomu se chceme věnovat. Jsme v té fázi, kdy udělám jednorázový model, protože využívám data, která mám nějakým způsobem organizovaná v data warehouse. To znamená, že toto se dá.

To, co je potom složité, je, jak ten model udržet v produkci tak, aby ho vlastně business používal. A tam je to vysloveně, protože totální automatizace je nereálná hned na začátku, protože jsou lidé, kteří mají zodpovědnost a prostě nechtějí říct: „OK, dělejte to zcela automaticky.“ Musí tu být nějaká fáze, kdy jakoby doporučujete a ukazujete a nějakým způsobem simulujete a říkáte: „Hele, kdybyste to dělali podle nás, mělo by to takovou a takovou kvalitu.“ A to je nejtěžší fáze, kdy vlastně musíte těm business uživatelům, těm koncovým uživatelům, neustále ukazovat, dokazovat a vizualizovat, že pokud tu automatizaci spustíme, tak se to nesloží, ale může to fungovat.

Máte nějaký konkrétní případ, anekdotu nebo třeba kuchařku?

Ano, kuchařka je jednoduchá v tom, že musí být business zapojen do vývoje od začátku. Musí být jasně nastavená očekávání a musí být jasně definovaná metrika a její měření v rámci cílového stavu. Protože na ní potom ukazuješ, jestli model funguje, nebo nefunguje. Čím dříve tato dohoda vznikne, tím lépe. Ideálně hned na začátku. Velmi často jsme to i u nás mívali podceněné, a potom jsme to doháněli. Ale musí být jasně definovaný cíl a jasně definovaná metrika, na základě které vyhodnocuješ, jestli to funguje nebo nefunguje.

V ten moment, když máš tohle nadefinované, můžeš říct, co je ten milník, aby se to třeba do té automatizace přeplo. Jaké kvality ten model musí dosáhnout, abych já jako člověk, který je za to zodpovědný, věřil. Tato dohoda je podle mě klíčová, stejně jako transparentnost vůči businessu.

Nic si nepomůžeš, když začneš statisticky ohýbat čísla tak, aby to vyšlo, jak chceš. Ono to vždycky potom někde vyplave, a to je cesta do pekel.

Chtěl bych se právě zeptat, protože jsme tu měli Martina Hronce, který mluvil o plánu pečení – predikují, kolik z toho upečou. Říkal, že jim dali nějaká čísla, a oni řekli: „My tomu nevěříme.“ Pak vznikaly koeficienty, kterými své predikce upravovali nahoru, dolů. Pak se ukázalo, že měli správně, a vytvářeli rezervu s tím, že už počítali s tím, že to začnou ohýbat. Stává se vám to taky, nebo ne?

Myslím si, že se to nestává tak, jak jsi to popsal, protože se opravdu snažíme s těmi business ownery pracovat. Samozřejmě, že se nějaké koeficienty na konci přidávají, ale už je to spíš tak, že naše role je udělat co nejpřesnější predikci a transparentně definovat její chybu. To znamená říkat: „Hele, v tolika procent případech se prostě netrefíme, do tolika procent, a netrefíme se o tolik a tolik.“ Já vím, u kolika produktů se to stane, ale bohužel nevím, u kterých přesně. Kdybych to věděl, upravil bych ten model, aby se to nestalo.

To znamená, že já říkám na rovinu, co se stane, když půjdu zcela tou automatickou cestou. Když je to transparentně komunikováno, pak přichází business rozhodnutí. „OK, abychom tomu předešli, nevíme přesně kde, tak třeba budeme držet zásoby déle, což nás bude stát víc peněz, ale eliminujeme tím riziko.“ To už pro mě není koeficient v modelu, ale je to businessový koeficient, abych předešel nějaké ztrátě. Je to řízená úvaha.

To se samozřejmě děje. Vytipováváme produkty, u kterých za určitých situací predikci až tak nevěříme. Náš cíl totiž není automatizovat všechno. Když automatizuji 50 %, je to super. Můžu si dovolit komfort vybrat si portfolio, u kterého automatizace dává smysl, protože neudělám příliš velkou chybu, která by firmu ohrozila.

V tu chvíli na tomto portfoliu spustím automatizaci. Vedle toho jsou produkty nové, případně citlivé na sezónnost, ovlivňované kampaněmi, které třeba spouští partneři, což jsou data, která typicky nemáme. V těchto případech je důležitá spolupráce s business partnery, kde říkáme, že lidský expertní úsudek je naprosto klíčový. V těchto okamžicích je člověk lepší než stroj.

Jak to funguje se stabilitou těch modelů? Protože stále se čteme o velkých číslech, investicích do dat a podobně. Business se velmi rychle mění, rychle expandujete, zavádíte nové produkty, kampaně, a tak dále. Model tím asi trpí, jak to řešíte?

Trpí, trpí. Na druhou stranu nové kampaně způsobují chybu, ale čím déle model provozujeme, tím máme větší znalost těch starých kampaní. Ve výsledku se chyba drží na určité stabilní úrovni, protože to, co už je známější efekt, umím lépe zachytit, a nové věci vytváří chyby, které se musím nejdřív naučit rozpoznat.

Celkově je to podobné, ale díky jasně definovanému cíli je výhoda a to, co se mi obzvlášť líbí na datové vědě, je, že je to velmi kreativní prostředí. Můžu si nakreslit ideální svět, vrátit se v čase a dívat se na situace a říci: „Kdybych měl tuto informaci, jak by to zlepšilo můj model?“ Můžu si vytvořit simulace, kterým věřím, že reprezentují realitu, a na nich mohu měnit business proces.

Takto pak jdu k business ownerovi a říkám: „Pokud chceš co nejlepší predikci, super, spočítal jsem, že s těmito informacemi můžu model zlepšit o tolik procent,“ a tak mohu rozhodnout, zda se do toho pustit a jestli investovat čas. To je styl, kterým se nyní snažíme fungovat.

Skvělé. Před tím, než půjdeme dál, zmíním, že za měsíc přijde Lucka Bezlarová, kterou zdravíme, která je autorkou modelu, pokud se nepletu, a myslím si, že o tom můžeme detailněji mluvit.

Určitě, těšíme se na Lucku.

Hodně mluvíš o AI nebo data science modelovací části. Jak si to máme představit? Kolik modelů vám nyní běží? Přijde mi zajímavé, jak moc data science máte rozvinutou, jak máte zajištěný machine learning i celý aparát kolem toho. Znám e-commerce spíš jako heavy na BI, ale heavy na AI slyším poprvé. Jak to vyvažujete podle priorit?

Máš k tomu samozřejmě blíž, protože jsi přišel z oblasti data science, ale jak velkou část diskuze zabírá business as usual a jak velká část je R&D, protože data science je hodně R&D.

Řekl bych, že Notino je heavy data science a heavy BI zároveň. Dokonce si myslím, že BI je aktuálně z hlediska počtu lidí větší, protože musí pokrýt celou firmu. BI a deskriptivní část je pro Notino klíčová a vůbec bych si netroufl říct, že je méně důležitá než data science. Je to velmi důležitá součást, která má obrovský efekt, protože zasahuje velké množství lidí.

Data science se soustředí na konkrétní modely a její význam spočívá v řešení konkrétních problémů. BI dodává včasné a správné informace stovkám lidí ve firmě, aby mohli dělat správná rozhodnutí.

Další věc je, že bez BI by data science produkovala zmetky. Měla by dokonalý model, ale pokud nebude kvalita dat na vstupu, model stále nebude fungovat správně.

Datovou kvalitu garantují lidé v BI – BI developeri, kteří komunikují s IT a řeší datové zdroje, a BI analytici, kteří definují a udržují byznysový význam metrik. Notino rozhodně má obě tyto složky v do značné míry vyvážené a neumím si představit, že by fungovala jedna bez druhé. Navzájem se extrémně potřebují, protože data science umí násobit efekt, který do práce lidé vloží.

Mně přijde poměr také zajímavý, protože většinou bývá BI oddělení mnohem větší a je tam jeden či dva data scientisti. U vás má data science větší význam, roli a dopad.

Jak si můžeme představit velikost a význam? Kolik věcí u vás řešíte modelově a ne klasickými algoritmy?

Poměr je asi 60 : 40 ve prospěch BI. Z pohledu data science aktuálně provozujeme nižší desítky modelů, zaměřených na konkrétní oblasti.

Dostáváme se teď k dalšímu kroku, kterým je propojování jednotlivých modelů mezi sebou, protože výstup jednoho modelu se stává vstupem do dalšího.

Pokud mám predikce produktů, navazuje na to optimalizace skladu – jak nastavit skladové galerie, jaké produkty tam dát, abych dokázal plánovat zakázky. Predikce mi říká, jaké produkty musím přeskladnit mezi distribuční centra, abych neměl přebytek na jednom místě a nedostatek na jiném.

Velkou výzvou je, že velké modely, například predikce SKU, dynamické cenotvorby nebo doporučování produktů, mají obrovský dopad, ale zároveň se navzájem ovlivňují.

Pro správnou predikci potřebuju znát cenu, agresivitu kampaní, které produkty do cenotvorby zapojím. Stejně tak potřebuji model pro zobrazení produktů na webu, protože zvýšená viditelnost zvyšuje prodeje a ovlivňuje predikci SKU.

A hlavně chci vše dělat optimálně s ohledem na byznysový cíl. Někdy jde o maximalizaci obratu, jindy o maximalizaci absolutní marže, nebo o uvedení nových značek a produktů, kde nemusí být obrat prioritou, ale jinými cíli.

Toto je oblast, na které nyní pracujeme – jednotlivé modely, které dnes fungují samostatně, začínáme navzájem propojovat, aby spolupracovaly.

Kolem toho je třeba vizualizace v reportingu, domluvení klíčových metrik, kontrola kvality dat, spolupráce s business ownery.

V současné době vzniká pojem datový mesh, což je podle mě velmi dobrý byznysový koncept, ne IT záležitost.

Je to o tom, jak by to mělo fungovat – bez spolupráce a komunikace mezi jednotlivými „sily“ (business, IT, data) se fungovat nedá.

Musí tu existovat množina lidí napříč firmou, kteří v rámci určité domény spolupracují a mají jasně definované odpovědnosti: business říká, co chce a jak interpretuje data, IT garantuje dodávku dat v dané formě, datový tým vytváří metriky, které business potřebuje.

Klíčová je spolupráce a uvědomění si, že chyba není něčí individuální vina, ale společný úspěch týmu, který chce například zautomatizovat nákup.

Věříme, že je to cesta, jak vytvářet přidanou hodnotu, vyvarovat se chyb a automatizovat, co automatizovat jde, a lidskou práci věnovat tam, kde ji stroj nezvládne nebo zvládá špatně.

Toto je klíčové a podle mě v Notinu probíhá a začíná fungovat tím správným způsobem.

To bylo krásné představení ideálního světa, který se podle mě v Notinu opravdu realizuje a je jedním z důvodů, proč je Notino úspěšné.

Myslím, že je velmi důležité umět se poučit z chyb. I když se stane chyba, protože bylo učiněno špatné rozhodnutí, je podle mě extrémně důležité využít data k monitorování, co se stalo a proč, bez obviňování konkrétního člověka, ale pro vytvoření znalosti, aby se chyba neopakovala.

To zní hezky, ale jak to přenášíte do praxe? Jak probíhají třeba manažerské schůzky, kde řešíte chyby? Všichni víme, že chyba je feedback a chyby jsou správné, protože posouvají a vedou k nápadům mimo zaběhnuté vzorce. Ale jaké jsou reálné kroky?

V datové vědě je selhání naprosto běžná součást procesu. Vytváříš model a opravdu nemůžeš garantovat, že na první pokus bude fungovat.

Naopak, když to b...

Udělat to správně je dobré. Když to splňuje ty byznysové kritéria, tak jsme strašně šťastní a jdeme to slavit. Pro mě je neúspěch naprosto běžnou součástí a vlastně nikdy nebudu hanit člověka za to, že prostě neuspěl, že ten model nevytvořil, protože je to naprosto standardní. To je normální a děje se to opakovaně.

Je naopak nutné zajistit, že „OK, teď si dej prostě měsíc pauzu, zkus dělat něco jiného a pak se na ten model v nové iteraci vrať.“ Možná se ještě vrátím úplně zpátky k té mé roli, když jsi ji zmiňoval.

Moje role v rámci týmu rozhodně není o babysittingu těch lidí, protože většina z nich je po odborné stránce výrazně dál než já a drží si svou doménu. A to je správně, jsem s tím naprosto v pohodě. Mrzí mě to, protože člověk má nějaké své „hračky“ a bavilo ho to, ale beru to jako realitu. Naopak si vážím těch lidí, že na nich záleží a že ony věci drží oni.

Moje role je propojení byznysového světa a vytváření konceptu, jak by to mělo fungovat, jak by měl vypadat ideální svět a jak bychom měli spolupracovat s byznysem. Hlavně se snažím vysvětlovat, proč ty věci děláme, jaký to má přínos, aby ti, kdo činnost vykonávají, chápali proč, a aby věděli, že když tohle udělají, mělo to pro firmu přínos, protože ty věci se automatizovaly, ty věci řídíme lepším způsobem.

Využívám toho, že přebíhám mezi doménami – mezi BI, Data Science – a snažím se informace sdílet mezi lidmi. Oni samozřejmě musí plnit své úkoly a žádosti, nemají čas to dělat na full time, pracují ve svém blízkém okolí a snažíme se tvořit prostředí, kde to mohou dělat. Nemůžou však všichni běhat po firmě, všichni komunikovat, ladit. Někdo musí dělat práci.

I tu práci, kterou dělají, je důležité, aby věděli, proč ji dělají – a to se snažím nějakým stylem sdílet. Sdílím s nimi? Asi hodně s nimi mluvím. Zatím jsem nenašel lepší způsob než hovory a vysvětlování. Vím, že máme vůli tvořit dokumentaci, deskripce, psanou podobu. Vím, že nic není dokonalé, že to u nás ještě úplně nefunguje, ale alespoň ta lidská, mluvící stránka probíhá poměrně dobře a informace se sdílejí.

Znám to i z pohledu náboru? Typicky?

To, o čem mluvíš, bych tipoval, že v rámci vaší organizace hledáte specialisty na jednu doménu či někoho seniornějšího a zároveň komunikativního, kdo vidí do byznysu a může pracovat napříč organizací?

Ano, při náborech hledáme jak seniory, tak juniory. Vždy záleží na konkrétním okamžiku, projektu a potřebách. Hledáme široké spektrum lidí a vždy se nějak domluvíme. Pohledem náboru se dívám na dvě stránky – technické znalosti a soft skills.

Technická znalost odpovídá senioritě: od absolventa jsou očekávání jiná než od seniora. Ale stejně tak jako technická stránka, tak i měkké dovednosti jsou klíčové. Zajímá mě zájem o téma a schopnost formulovat hypotézu. Je mi celkem jedno, jestli je hypotéza správná nebo špatná, ale musíš umět říct, čeho chceš dosáhnout a jak poznáš, že jsi cíl splnil.

Jestli neznáš byznys, tak jako já jsem ho nevěděl v Notinu – ale musíš umět formulovat hypotézu, na konci říct „byl jsem fakt hloupý a ta hypotéza nedávala smysl“. Když však víš, čeho chceš dosáhnout, řekneš, jestli to nastalo. Pro mě je to kreativní myšlení, zájem o věc a schopnost vyjádřit, co chci dělat. Ať už je to dobře nebo špatně, to se ukáže na číslech. Ale musíš to umět popsat.

To jsou pro mě dvě klíčové vlastnosti – z technologií i z pohledu soft skills. A vnímám, že vy máte určitou firemní kulturu, která je podle mě velmi dobře nastavená, jak říkáš – nekritizujete se, naopak dáváte pozitivní feedback a tak dále. To je také součástí náboru. Hledáte někoho sociálně kompatibilního, nezávisle na technologiích?

Určitě. Nechtěl bych tvrdit, že technologie nejsou důležité. Člověk musí mít technické myšlení a ukázat, že umí programovat. Bez toho nelze fungovat.

Co používáte? Podívejme se letem světem na stack a na to, co vaši lidé musí umět.

Doplním otázku – říkal jsi, že v přírodních týmech se snažíte hodně optimalizovat SQL, že jste hodně on-premisní, snažíte se optimalizovat, aby všechno jelo bez problémů. Co používáte za technologie? A s tím růstem a škálováním byznysu jak budete škálovat? Budete najímat nové lidi odjinud? Jak je tohle dlouhodobě udržitelné?

Z technologického pohledu teď běžíme hodně on-premis na Microsoft stacku. Používáme MS SQL databázi, ale už si uvědomujeme případy, kdy tento stack nepokryje naše potřeby. Proto rozjíždíme i Azure a používáme ho u některých případů. Není to hlavní, ale víme, že některé use casy na on-premisu nezvládneme.

Co na Notinu oceňuji, je, že my řešíme byznys – vyřešení byznysových problémů a na základě toho vybíráme technologie, které nám to umožní. Samozřejmě musíš omezit počet technologií a unifikovat přístup, ale pokud jedeme Azure v BI, neznamená to, že pro recommendation system nevyužijeme Google Retail API, Google službu, a pokud se ukáže, že to funguje, jsou dvě platformy v pohodě.

Takže předpokládám, že některé případy pojedete přes Azure, jiné přes Google Cloud Platformu. Díváme se na byznys a hledáme nástroje, které problém vyřeší. Z technologického pohledu Data Science využívá hodně Python. Data inženýři využívají spoustu věcí, například Kubernetes pro výpočty.

Co třeba data warehouse? To zmiňuje každá druhá osoba. Vím, že nejsi technologický specialista, ale...

Možná to nevíš úplně přesně, musel bych se zeptat kolegů.

Jaká je vaše vizualizační vrstva?

Pro nás je vizualizační vrstva Power BI, konkrétně Power BI Reporting Server.

Máš pocit, že jsi něco neřekl? Něco, co by tě mrzelo, že tam nebylo?

Myslím, že jsme to pokryli dostatečně.

Co bych chtěl zdůraznit: nespoléhejte na Big Bang. Určitě doporučuji kolegům v e-commerce postupný, iterativní přístup, protože je to způsob, jak si vybudovat důvěru ve firmě a udržet realistická očekávání, která dokážete naplnit.

To znamená, neslibujte nemožné, držte se iterativních kroků a postupně přidávejte jednotlivé věci. Začněte jedním use casem, přidejte další, pak další, spojte to dohromady. Od začátku řešte BI i data science, protože bez datové kvality se nikam nedostanete. Co nejdříve se domluvte s byznysem, jedni v konceptu data mesh, domluvte se na odpovědnostech a stanovte společný cíl.

To jsou věci, které fungují a postupně to nabaluje další kusy, kvalita řešení stále roste.

Je to skvělé, že v Notinu máte prostor a podporu managementu, to je opravdu super.

A jaké nejnovější kroky plánujete do budoucna? Co vás čeká, co chcete implementovat? Na co se můžeme těšit z Notinovy „kuchyně“?

Nevím, jestli to půjde veřejně, ale velký model, na kterém právě spolupracujeme s několika partnery, je náš Recommendation Engine na webu – systém doporučování produktů. Vidíme obrovský potenciál v tom, abychom to uměli řídit byznysově a nějak ovlivňovat vizualizaci produktů, které chceme zobrazovat.

Říkal jsi, že pro vás je tento systém zásadní vstup do dalších modelů, které významně držíte.

Přesně tak.

Děkujeme moc, Martine. Držíme palce a věříme, že se tady nevidíme naposledy, že Minimálně Lucku potkáme za dva týdny. V Notinu se děje spousta zajímavých věcí a témat, která budou naše posluchače zajímat.

Děkuji moc.

Super, díky za pozvání, mějte se, užívejte léto a…

Krásnou cestu do Brna.

Díky.

A to je všechno. Díky, že jste doposlouchali další díl Datatolku. Díky i našim partnerům: Big Hubu, Vypnoutu, Mantě, Notinu, Atakamě, GeneBeamu, Seznamu.cz a Muse.

Pokud vás zajímají další informace ze světa datových technologií a ze československé datové scény, navštivte naše stránky datatolk.cz.

Nechť vás provází data.

Podcast

Data Talk #50: Martin Kavřík (NOTINO)

Strojový přepis

Odebírejte Data Talk