Data Talk #8: Jan Matoušek (Data Mind)

Do Data Talku přijal pozvání matador české datové scény Jan Matoušek, zakladatel firmy Data Mind, který řeší firmám data science problémy tak dlouho, že se tomu předtím říkalo data mining. V podcastu probereme Honzův pohled na to, jak se datová scéna posunula, jaké to je stavět data science konzultační firmu, jaké jsou jeho best practices a jak to má Data Mind s vlastními produkty.

Strojový přepis

Ahoj, zdraví vás Jirka Vicherek a vítám vás u dalšího dílu DataTalku. DataTalk je podcast s datovými profesionály a já mám tu čest dneska přivítat jednoho takového zkušeného datového profesionála. Tím někým je Honza Matoušek. Ahoj, Honzo.
Ahoj a díky moc za pozvání.

Pro ty z vás, kteří by náhodou Honzu neznali a tím pádem se nepohybovali na české datové scéně v poslední dekádě, tak vám ho přiblížím tím, že má vlastní firmu. Ta firma se jmenuje Datamind. Je to konzultační delivery společnost specializovaná na Data Science. Říkám to správně?
Jasně, děláme analytiku, Data Science a vlastně pracujeme pro firmy většinou, ale občas také pro státní instituce. Snažíme se být takovým průvodcem v datovém světě, podíváme se, kde ta firma je, a rozvíjíme ji po té trajektorii, tedy od reportu k nějakému pokročilému analytickému modelu, k predikci chování zákazníků a podobně.

Já jsem tě vždycky vnímal jako velmi talentovaného člověka na té scéně, který je vždycky o krok či dva dopředu. To znamená, že zatímco ostatní řešili B.I.K.O., ty jsi byl první na českém trhu, který mluvil o Data Science, a byl jsi takový ten „data scientist“. Mám pocit, že ten trh tě teď dohnal a že sklízíš plody své práce za ty roky. Každopádně bych se chtěl vrátit úplně na začátek. Jaká byla tvoje cesta k datům, k DataMind, k tomuto fascinujícímu světu?

Děkuji moc za ta hezká slova. Vlastně pocházím z humanitní rodiny, a tak jsme se s mým otcem rozhodli, že půjdu studovat sociologii. Na sociologii, která je z velké části nedatová, mě zaujala datová větev – učitel Hinek Jeřábek vedl datovou větev s názvem Metody sociologického výzkumu. Ta větev byla asi z třetiny o datech, měl jsme tamhle kluka z Berkeley, který nás velmi přísně vedl, a každý týden jsme museli mít domácí úkol. Já jsem si říkal, že takové ty sociologické řeči mě tolik nebaví, ale že bych chtěl dělat data.

Potom samozřejmě byla křižovatka, zda dělat data akademická, nebo komerční. Tu jsem vyřešil docela rychle, protože jsem měl dítě a nebylo možné jej uživit z nějakého akademického příjmu, takže jsem šel hned do komerčního výzkumu. Tam se používaly dotazníky, které jsem uměl, ale říkal jsem si, že je to takové… do komerčního sociologického výzkumu, respektive marketingového výzkumu. Tam jsme byli pod tlakem, protože jsme měli například zadání udělat rozhovor s 500 CEO, které samozřejmě nebylo možné získat na pohovory. Navíc je dělali velmi nekvalifikovaní operátoři. Na jednu stranu se mi líbilo, že jsem se naučil programování a trochu datového řemesla, ale na druhou stranu jsem si říkal, proč se nezbavit těch dotazníků, protože ta data samotná byla pro mě už kolem roku 2000 tím tématem, které by mě mohlo uživit lépe než dotazníky.

Dotazník je komodita a je neustále pod tlakem klientů a nerealizovatelných cílů, například „navoláte 500 šéfů“ – to prostě nejde. Agentury jsou neustále pod tlakem a my datové agentury jsme na tom asi o chlup lépe, protože nemusíme dělat rozhovory s lidmi.

Takže počkej, ty jsi vystudovaný sociolog?
Ano. Metody sociologického výzkumu znamenají umění napsat dotazník, zpracovat data a udělat nad nimi statistické testy, například zjistit, jestli jsou muži lepší než ženy, nebo obráceně. Takové testy jsme dělali; a i mnohorozměrné statistické metody, které se potom začaly nazývat data mining, a dnes se jim říká data science. Samozřejmě těch metod je mnohem více, ale princip je stejný.

A kdy ses zbavil té humanitní části a šel jsi naplno do technologií?
Myslím, že relativně záhy. Hned, co jsem nastoupil do práce, mě přidělili programovat katisystém, což je systém na programování dotazníků s určitou logikou, s přeskakováním, plněním cílů – což je primitivní programování.

Byl to asi druhý měsíc po nástupu, když mi bylo dvacet, a přitom jsem ještě školu dodělával. Už jsem měl denně hlavu půl v datech a půl v programovací logice. Takže humanitní disciplínu jsem tak trochu opustil. I když jsem přečetl spoustu knih, to je asi všechno, co jsem v humanitní oblasti udělal.

No, a tvoje kariéra pak pokračovala do korporace?
Pokračovala, protože mi kolegyně doporučila firmu jménem Ogilvy, což byla obrovská reklamní agentura, která měla tehdy velké ambice vstoupit do datového světa. Jelikož jsem byl v té době agilní a plný chuti do nových věcí, řekl jsem si, že to budu dělat já.

V roce 2003 jsme získali velkou zakázku pro Eurotel (dnešní O2). Zakázka spočívala ve vytvoření churn modelu, tedy modelu pravděpodobnosti odchodu zákazníků, a zákaznické segmentaci. Měli jsme k dispozici příšerné vybavení, například počítač s kapacitou 500 MB – pro mladší řeknu, že to je půl giga – a měli jsme na něm zpracovat terabajt CD-R s telefonními záznamy. Kdokoli zavolal komukoli, vznikl jeden řádek, a těch řádků byly miliony, tedy celkový objem dat byl terabajt.

Bylo potřeba to rozumně rozdělit, naučit se vzorkovat a efektivně využívat stroj, což dnes už tolik neprobíhá. Byla to rozhodně užitečná škola.

Modely jsme dodali s určitým zpožděním a bylo kolem toho hodně nervozity, ale nakonec fungovaly několik let, než v O2 nastartovali vlastní vnitřní data science tým. Toto téma – startování data science ve firmách – je mi doteď blízké. Vstupuji do firem, které s data science mají málo zkušeností, vytvoříme první tři generace modelů a když se zjistí, že tam jsou velké peníze, pak si firma dříve nebo později založí vlastní oddělení data science s více lidmi.

To se stalo i v O2, která nyní má velmi profesionální a rozsáhlé oddělení s vlastním brandem. Jsem rád, že jsem mohl být na začátku.

To jsi dělal v rámci Ogilvy, takže jsi byl zaměstnanec Ogilvy?
Byli jsme tam na body leasing, tedy půjčení, takže jsem se v Ogilvy fyzicky nevyskytoval – seděli jsme přímo v Eurotelu (dnešní O2) na Budějovické a pracovali na modelech každý den až do večera. Tehdy bylo normální neodcházet z práce dříve než v osm večer. Za mě musím říct, že jsem rád, že toto období skončilo.

Jak pokračovala tvoje kariéra dál? Jak vznikl vlastně DataMind?
Poté jsem se nechal na chvíli najmout přímo do O2, což byla rozsáhlá korporátní struktura. To mě moc nebavilo – mít nad sebou čtyři vrstvy nadřízených, kteří se občas hádají a člověk ztrácí kontakt s tím, pro koho se věc vytváří. Proto jsem si řekl, proč dělat data science na vlastní noze.

V roce 2005 jsem proto nastoupil na živnostenský list. Zakázky jsem získával i na živnost, ale vždy mi chyběl nějaký vlastní brand či značka. Některé projekty se prodávaly pod Ogilvy, některé pod kamarádskými agenturami, a viděl jsem v tom velkou nevýhodu – nemít vlastní značku.

Proto jsem v roce 2009 založil DataMind s investicí 200 000 Kč. Nikdy jsme neměli angel investora a nikdy jsme neusilovali být miliardovou „raketovou“ firmou. Jde nám spíše o to být rovnocennými partnery korporátů, aby nás mohli přizvat do tendrů samostatně, bez prostředníků.

Práce mě stále baví a potřeboval jsem ji mít pod vlastním firemním štítem. Pak se začali nabírat další lidé, protože všechno se nedá zvládnout ve dvou nebo třech lidech. Dnes nás je osm.

Kdy považuješ DataMind nejen za brand, ale za firmu, které se věnuješ a kterou řídíš a posouváš?
Asi při příchodu lidí a větších zakázek. Tak kolem let 2012, 2013 už bylo jasné, že to musí být firma, ne jen nálepka. Musí tam být lidé, kancelář, větší kapacita než tři čtyři lidi. Část mě na tom těší, část je bolestná. Kdo je šéf firmy, musí věnovat asi 20–30 % času propagaci, komunikaci s lidmi, kontaktům.

Na druhou stranu s tím souvisí benefity, jako je větší prestiž a vyšší příjmy. Celkově jsem šťastný.

To mě těší. Doufám, že jsou šťastní i vaši klienti. Jak ses k nim na začátku dostával? Pokračoval jsi pod jinou značkou? Bavíme se o letech 2013–2014. Jaké problémy jsi tehdy řešil? Je tu nějaký posun nebo řešíš stále stejné data science problémy, jen s lepšími nástroji a u většího počtu firem, které tomu věří?

Tohle bych rozdělil na dvě věci. První je obchodní část. Nevyhýbám se tomu prodávat projekty i pod jinými firmami – tak to vždycky bylo. Najímali jsme obchodníky, někteří fungovali velmi dobře, jiní špatně. To je část, která jde po svých křivkách.

Druhá část je, že projekty stále děláme lépe, ale v zásadě řešíme problémy pro marketing. Přibližně 80–90 % projektů je zaměřeno na marketing a 10–20 % na neziskovou sféru, například jsme pomáhali Greenpeace s modely.

Zákaznický business je vždy uprostřed. Když přijdu do firmy, vždy je zákazník profilovaný transakčními daty jeho chování – je to zlato, které je často vytěženo z 10 %, jindy z 70 %, ale obvykle mnohem méně než potenciálně jde.

Vytěžit zákaznickou databázi rozumným targetingem, soustředit se na nejlepší zákazníky a vědět, co budou potřebovat, kdy a jak budou nakupovat, kolik a za kolik, to je jádro, které mě pořád baví a kde vidím prostor pro další vývoj.

Modely jsou stále větší a dostávají se k nám rychleji. Zákazník je náročnější – už mu nestačí jedna odměna ročně. Napojení modelů přímo do komunikace je extrémně důležité.

Potřebujeme marketing, který modely vezme a bude s nimi úspěšně pracovat, správně cílit, doporučovat správné produkty a komunikovat se zákazníky správným kanálem.

To mě vrátilo zpět ke korporacím, protože ne každá střední firma je na to připravená. Dnes děláme zhruba 80 % práce pro korporace – ty mají potřebnou infrastrukturu, datový marketing a vydělávají na něm.

Myslíš si, že se to změní a že se potenciál modelů a dat odemkne i pro stále menší firmy díky dnešním nástrojům? E-shop si dnes založí každý a databázi také má. Lehce se to posouvá.

Myslím, že pro malé a střední firmy budou existovat produktová řešení a konzultanti na trhu. My máme třeba tři velké korporace a deset menších klientů. U malých firem je to střídavé – projekt skončí a oni se snaží zlevnit provoz modelů tím, že si najmou někoho, kdo tomu rozumí aspoň trochu a dokáže provozovat model, ale nedokáže jej vytvořit nový.

Je to taková sinusoidální situace v malých a středních firmách. Pro ně data science existuje a bude existovat.

Funguje jim data science i skrze nástroje jako Google nebo jiné reklamní platformy, ale ne každý má kontrolu nad algoritmy. Někteří chtějí používat data science jako produkt, a myslím, že produkty jsou přesně to, co potřebují malé firmy.

Dobře, vraťme se k tvému typickému zákazníkovi. Když tě tedy poptají, přijdeš a stavíš, jak jsi říkal, jsi ten průvodce, vykopávač těch prvních tří generací modelů a potom si firma postaví vlastní oddělení data science.

Jaké jsou první věci, na které se ptáš, co chceš vidět, kam potřebuješ přístupy? Co řešíš jako první? Máš nějakou strukturu nejčastějších problémů, na co se díváš přednostně?

Když přijdu do firmy, zaměřuji se na transakční data, tedy data o nákupech a chování zákazníků.

Zajímá mě, zda firma využívá jasné metriky dobrého zákazníka – věrného zákazníka s vysokou pravděpodobností opakovaného nákupu. To je takové to nízko zavěšené ovoce, které je největším přínosem.

Když je toto vyřešené, zaměřuji se na webová data a ostatní relevantní zdroje dat.

Z hlediska infrastruktury je potřeba, aby firma měla databázi a marketingové oddělení. Pokud ne, navrhujeme i potřebné kroky k vybudování infrastruktury.

Nejsnazší je navrhnout kaskádový systém s databází, analytickým prostředím a konektory. Pokud má firma nějaký starý systém, který je hodně prorostlý, pracujeme i na zákaznických stanicích. Umíme pracovat s Oracle, Microsoft SQL, Teradatu a dalšími databázemi.

Odbočím: korporace pomalu přecházejí do velkých cloudů, pomalu se přesouvají na Azure, AWS, Snowflake. Už existují projekty, které běží na jejich specifických cloudech.

Z hlediska hodnoty, kterou získáváme z dat, se například povedlo u autobazaru s názvem Ačka vytěžit z webových lídů skupinu uživatelů s 12násobnou konverzí. V lidské řeči to znamená, že jsme identifikovali skupinu lidí, kteří tam skutečně chodí auta kupovat, na rozdíl od těch, kteří jen sledují ceny svého stávajícího auta nebo prohlížejí luxusní modely, které si nemohou dovolit.

Tento rozdíl se dobře pozná například hloubkou návštěv, přednákupními signály, například jestli si zákazníci čtou podmínky prodeje. Model nemusí být extrémně složitý, aby měl obrovský přínos.

Jde především o to správně napojit marketing, využít vhodný kanál komunikace a potom se dosahují obrovské návratnosti, jak jsme si ověřili i v praxi.

No a ještě když jsi mluvil o korporacích a velkých firmách, které se pomalu stahují do…

Klaude, když se podíváš na situaci, kdy tvůj potenciální klient má Teradatu jako datový sklad versus to, že data umístí do cloudu, jaký je pro tebe rozdíl například v časovém horizontu pro dosažení hodnoty (time to value) nebo v něčem jiném?

Osobně mám Teradatu docela rád. Má sice takové poněkud nepřátelské uživatelské prostředí, ale když se to člověk naučí, tak to relativně šetří čas. V roce 2003 to byl nejrychlejší systém na světě, byl skvělý a prakticky neměl žádnou konkurenci. Ovšem samozřejmě je tu otázka financí, protože ta technologie byla extrémně drahá a v dnešní době asi není úplně ospravedlnitelná, zvlášť pro firmy střední velikosti. Pro banku stále ano – cena se ještě vyplatí vzhledem k unikátním vlastnostem řešení.

V roce 2003 byla prémiová cena v pořádku, protože Microsoft SQL Server tomu nemohl konkurovat, stejně jako Oracle a další – prostě tehdy neměl konkurenta. Ale s příchodem Snowflake to už tak nevychází, protože cloudové databáze pomalu dosahují výkonu srovnatelného s tradičními systémy, a přitom stojí třeba desetinu ceny. Dnes už nemohu doporučovat takové obrovské a strašlivě drahé systémy, která se sice mohou vyplatit bance, ale například autobazaru nebo jiné střední firmě se vyplatit nemohou.

Rozumím, moje otázka byla spíš, jak když přijdeš do firmy a vidíš jejich technologický stack, jak to prodražuje nebo mění vaši práci na začátku projektu. Předpokládám, že často data nejsou čištěná, jsou rozprostřená na různých místech, mají různé problémy…

Když se člověk se systémem seznámí, celý projekt se násobně nezdraží jen tím čištěním, protože jsme zvyklí pracovat v různorodých prostředích. Umíme se rychle napojit a spolupracovat s klientem, aniž bychom mu diktovali, jaké technologie má používat.

Některé firmy jsou sebevědomější a řeknou: „My vám uděláme vše na Azure,“ nebo „na Google Cloud Platformě,“ případně „na Databricks,“ nebo na Kebuli, to je jedno. My se spíš zeptáme a hledáme cestu nejmenšího odporu. Když tedy uvidíme, že klient má Oracle databázi, která bude ještě sedm let fungovat a na ní můžeme model nasadit do půl roku, tak ho prostě tam nasadíme.

Pokud to prodražuje nebo přináší nějaké vyšší náklady na obou stranách, jsou to drobné záležitosti. Například některé firmy pro nás nastaví rozsáhlé prostředí – například službu, kde máme jako vzdálený přístup k deseti virtuálním počítačům, které musí klient nakonfigurovat a propojit s interním Oráklem. Máme tam takovou virtuální kancelář, kde sedíme jakoby přímo tam, ale ve skutečnosti pracujeme u nás. To samozřejmě není vždycky nejefektivnější řešení a je to finančně náročnější, ale některé firmy stále chtějí držet svá data interně v infrastruktuře, kde jim stojí skříně se servery.

Jiné firmy nám dají notebooky, které pak díky vzdálenému přístupu fungují jako virtuální zařízení „u nich“. Takže některé korporace stále preferují, že data jsou na jejich systémech a nechtějí je dát do cloudu. Ale tyto velké korporace se postupně migrují. Například velká kosmetická firma už přešla do Snowflakeu. My jsme je při tom přechodu podporovali a testovali, že je přechod do cloudu v pořádku.

Myslím, že přesun dat do cloudu je nevyhnutelný, ale má obrovskou setrvačnost, daleko větší, než jsem čekal. Sám jsem v minulosti brzdil přechod do cloudu, což byla chyba. Teď některé velké korporace pracují na přechodu celá léta, což je škoda, protože by už všichni mohli být v cloudu.

Takže bys doporučil zvažovat cloud co nejrychleji?

Myslím, že to bude jedna z konkurenčních výhod nebo nevýhod na trzích s malými maržemi. Bude to rozhodovat o existenci či zániku firem na těchto trzích.

Například trhy s parfémy, automobily nebo elektronickými výrobky, kde se obchoduje s obrovským objemem a nízkou marží, a kde každá chyba může být osudná.

Samozřejmě to nepoloží banku typu české Komerční banky nebo ČSOB, protože tam jsou dostatečné finance. I když udělají chybné nebo suboptimální rozhodnutí, tak to nemůže banku zničit. Ale na trzích s velmi tenkou marží si takovou chybu dovolit nemůžeš, například platit třeba desetkrát víc za to, že si někdo stará o svoje servery.

Pojďme se vrátit k tomu tématu, které z tebe dělá odborníka. Modelů a firem jsi dělal spoustu. Jaký je tedy způsob, jak efektivně vydělávat peníze?

Toto téma mám asi nejraději – peníze jsou v zákaznících, kteří skutečně nakupují. Takže propensity to buy model (model pravděpodobnosti nákupu) má téměř 100% šanci být úspěšný a vydělat peníze.

Dělali jsme modely pro velmi různá odvětví: od sexuálních pomůcek, zubařských křesel, energetiky, aut, jídla, bank, léků – prakticky vše, co si lze představit.

A všude propensity to buy model bez zaváhání přinesl peníze. Musím si často dělat advokáta, protože když přijdu do nové firmy, řeknou: „Bude to fungovat i u nás? My jsme přece hrozně specifickí – prodáváme parfémy nebo hudební zboží.“

Ale je to tak, že to funguje vždycky. Pokud modeluješ pravděpodobnost nákupu a pak nabízíš těm, kteří už mají určitou propensitu nakoupit, tak jim to vlastně podstrčíš a oni nakoupí u tebe, místo u konkurence.

U tebe taky kanalizuješ zákazníka? Shodujeme se s mnoha lidmi, že táhnout zákazníka od úplného nezájmu k tomu, aby nakupoval, je velmi bolestné. Ale kanaizovat jeho chování – například jestli si koupí Colgate nebo jinou zubní pastu, nebo jestli to koupí u konkurence či u nás – je velmi jednoduché. Proto má tento přístup obrovskou návratnost a zaručený zisk.

Netáhneme tedy „mrtvého“ zákazníka bez zájmu přes několik fází zájmu, ale věnujeme se těm, kteří už jsou v tom rozhodovacím procesu. Nabídneme jim správný produkt – třeba pěknou kytaru, parfém, nové auto – a jsme tam. Jedním tahem.

Jakou máte návratnost v takových případech?

Pro Pepsi to byl první model, který jsme zkoušeli. Model má vysokou návratnost, což je hezké, protože díky tomu získáš důvěru klienta, že zkrátka pracuješ efektivně a můžeš dělat větší věci.

Ano, nejdřív jim získáme peníze – což je pro firmy zásadní. Pokud mají návratnost například pětinásobek investice – což tento model téměř vždy dosahuje v prvních dvou kampaních, tedy v prvních dvou měsících oslovení – pak se dál bavit. Následně se diskutuje implementace na systém a další prvky.

Tyto modely jsme schopní udělat také „ve vzduchu“, bez té infrastruktury – jednoduše vyšleme kampaň, zajistíme návratnost a pak se teprve řeší složitější implementace, která by měla běžet pravidelně a automatizovaně. Tento přístup se asi třikrát nevyplatil, ale zhruba třicetkrát ano – protože pokud firma uvidí výsledky, až potom investuje dál.

Počkej chvilku – když jste přišli do firmy, dodali jen modely, tak jste jim vlastně poslali CSV soubor se segmentovanými zákazníky, bez nějakých historických dat?

Ano, může to fungovat i takhle. Často jsme absolvovali i tři měsíce vytváření targetingů, scoringů a rozjíždění procesů. Pak jsme teprve nasměrovali data do infrastrukury zákazníka – buď do jejich Oracle databáze, nebo jsme navrhli vlastní řešení.

Pokud jsem nyní manažer ve firmě, která by měla o toto zájem, jaké jsou první kroky kromě zavolat tobě? Jak o tom vůbec začít přemýšlet, co je potřeba dát dohromady a jaká je první úvaha?

To je no-brainer, skutečně potřebujeme jen transakční databáze – třeba data o objednávkách nebo smlouvách – a můžeme hned druhý den začít, protože tam není co řešit.

Samozřejmě kromě případů, kdy jsou data úplně rozbitá nebo marketingové oddělení nedokáže tyto informace zpracovat. To jsou tři z třiceti případů, kdy tento jednoduchý trik nefunguje.

Druhé případy nefungují, když my dodáme data, ale marketingová část řekne: „Co s tím? My budeme pořád jenom lepovat billboardy. Potřebujeme přímý marketing – někoho, kdo umí cílit, udělat remarketing, rozeslat obálky, poslat informace do callcentra nebo jet nějakým kanálem.“

Co v takovém případě děláte?

Řekněme, že affinity model (model podobnosti zákazníků) už funguje a klient byl spokojený s nimi získanými finančními výsledky a chce pokračovat.

Jak pak pokračuje projekt po získání důvěry a peněz?

Druhá generace modelů bývá už nasazena do systému a běží samostatně – třeba každou noc nebo měsíčně. Obvykle řekneme: „Dobře, tato metoda funguje, pojďme ji vylepšit.“ Místo 60 proměnných testujeme třeba tisíc a strávíme nad tím více času.

Návratnost je tím pádem absolutně vyšší, a díky tomu se dostáváme do lepších a lepších modelů.

Vedle toho začínáme vyvíjet složitější modely typu „next best offer“ (nejvhodnější další nabídka), které integrujeme do systému doporučování zboží.

Pustíme se také do tzv. černých modelů, které jsou náročnější na marketing, protože kanibalizují některé zdravé zákazníky.

Je známé, že pravděpodobnostní model z definice obsahuje i „zdravé“ zákazníky, tedy někdy se stane, že zdravý zákazník je špatně klasifikován jako rizikový a naopak. Je obtížné dát takovému zákazníkovi správnou nabídku tak, aby se operace vyplatila i přes ztrátu způsobenou špatnou klasifikací (kanibalizací).

Jde dělat takový černý model ziskově?

Ano, v nadpoloviční většině případů se to daří, ale jsou tam vážné překážky. Musí být k dispozici opravdu dobrá nabídka a matematika, která zohlední kanibalizaci, musí vycházet správně. Je to komplikovanější.

Proč jsou černé modely vůbec tak populární? Například jsem byl na mnoha konferencích, kde se muselo mluvit o retenci zákazníků, o tom, jak je třeba udržet a nepřicházet o ně.

Mám dojem, že je to typicky téma velkých firem – operátorů, bank – kde ztráta zákazníka znamená, že přejde ke konkurenci.

Nejsou to služby, které by přestaly vůbec používat, ale přecházejí ke konkurenci.

Já jsem byl na začátku toho trendu – v roce 2003 jsem svýma rukama dělal první modely.

U modelů založených na předplatném (subscription) třeba u operátorů se černé modely hodí o něco lépe než pro firmy prodávající podprsenky nebo gumičky, protože u operátora jsou náklady do značné míry fixní.

Operátor musí udržovat stožáry, to stojí nezávislé fixní náklady, musí dělat nákladnou reklamu, aby z trhu nezmizel.

Dodatečný zákazník nepřináší vyšší fixní náklady, ale přináší příjmy, takže zachráněný zákazník má velkou hodnotu.

Naopak firmy prodávající fyzické zboží (například knihy) musí zaplatit za balení, odeslání atd.

Tedy matematika je odlišná, a proto se černé modely nehodí úplně pro každého.

Hodí se pro firmy se stabilní zákaznickou základnou, kde většina nákladů jsou fixní.

To se vrací k business case: nikdo nemůže mít nikdy dost cvičení na business case, protože je třeba pečlivě rozmyslet hraniční případy.

Pro středně velké firmy nemusí být černý model vhodný, pro velké firmy však bývá velmi vhodný.

Jaké další modely řešíte?

Zákaznické modely obvykle vedou ke zvýšení ziskovosti.

Ale děláme i velmi netypické modely.

Například na Data Festivalu KPMG budeme prezentovat se Seznamem systém pro detekci anomálií v reklamních systémech.

Reklamní systém s miliardovými obraty má obrovské náklady, a když něco vypadne, je potřeba co nejrychleji zjistit, jestli k výpadku došlo legálně nebo jde o nečekanou anomálii.

Pomohli jsme si asi pěti nebo šesti jednorozměrnými modely, což je netypické – jednorozměrné modely, které mají thresholdy, určující, co je ještě normální a co už není. Potom děláme sumační skóre nad nimi pro celkové vyhodnocení.

Takže máme projekty velmi netypické. Některé klienty máme třeba zbankrotované, kteří chtějí část svého byznysu převést do nového byznysu, a my jim pomáháme oddělit zdravé zákazníky od těch méně hodnotných, aby do nového podniku převedli jen ty zdravé.

Takže děláme i poradenství a projekty na míru, včetně těchto netypických případů.

Co si však myslím, že by každá firma měla mít, je model customer value a propensity to buy – tedy hodnotu zákazníka a jeho pravděpodobnost nákupu.

A pak samozřejmě věnovat se věrnosti a upevňování dobrých zákazníků, to je absolutně univerzální.

Pak mají firmy desítky dalších témat – například start nového produktu, novou distribuční síť, nový prodejní kanál atd.

Mně se líbí, že to trochu vychází i ze světa marketingu, ze světa online marketingu, ve kterém také pracuji.

Tam mě zajímají datové zdroje a data, která jsou použita.

Jde o klasická data z Google Analytics, reklamních systémů a podobně.

Jsou tam i jiné zajímavé zdroje, o kterých si myslíš, že by se v online marketingu měly víc používat, protože jsou dobrými vstupy pro podobné analýzy?

S webovými analytiky nemám stovky projektů, ale desítky určitě ano.

Myslím, že Google Analytics zdarma je pro mnoho firem velkou pastí – myslí si, že to je zadarmo, a měří jen několik jednoduchých ukazatelů jako návštěvnost, kanály návštěvnosti, například jestli je lepší platit za proklik než organickou návštěvnost.

A to je prakticky všechno, co v takových systémech změří.

(Zde text končí nedokončený.)

Jako standard na trhu je situace velmi matoucí, co vlastně Google Analytics udělal s tímto trhem, protože u 80 až 90 % firem nevznikají granulární data. My, když chceme vytvořit kvalitní model, potřebujeme jednotlivé interakce lidí, tedy návštěvníků s webem. Nebudu zabíhat k robotům, prostě potřebujeme zjistit, co tam dělá člověk – klikne sem, klikne tam, musí vzniknout pět záznamů. Pokud máme jen souhrnná data z GA free, například že dnes přišlo pět tisíc zákazníků a z toho dva koupili, je to poměrně špatné.

Z hlediska marketingu je to nevýhodné, protože nemůžeme cílit přímo na jednotlivé lidi a jednotlivé akce. Samozřejmě to podléhá zákonům, zákazník musí být informovaný a dát souhlas, ale on chce, aby mu bylo prodáváno to, co opravdu chce. Když mu nabídneme hodinky, po kterých kouká, je to pro něj příjemné. Kdybychom používali nerelevantní targeting, bude samozřejmě naštvaný. Jde tedy o to zasít semínka v tom, co zákazník opravdu chce.

GA free jsou podle mě obrovská past, pokud nemáte lidi, kteří jsou skuteční profesionálové a dokáží pomocí nějakého Google Tag Managera ohnout měření tak, aby skutečně zaznamenávalo jednotlivé interakce. Například Marek Leciany je skvělý profesionál, který dokáže nastavit věci tak, aby vznikala opravdová data, i na GA free. Nicméně 80 % firem je v pasti, že velká data nemají na dostatečné úrovni.

Jaká je alternativa? Alternativou je server-side logging, tedy sledování událostí na straně serveru, což může zvládnout i interní programátor firmy. V některých velkých firmách to tak také funguje. Druhou alternativou je GA 360, za který se platí vysoké sumy, ale pro velké firmy se to velmi vyplatí. Třetí možností je špičkový konzultant, který pomůže k dokonalé implementaci Google Tag Managera a upraví GA free tak, aby opravdu posílalo kvalitní data.

Problém je také v tom, že většina firem svá data vůbec nevytěžuje. Většina z nich prostě nechá běžet GA free na úrovni kanálů, což je více méně nepoužitelné nebo použitelné jen pro alokaci marketingového rozpočtu – tedy rozhodování, kolik peněz vložit do jednotlivých zdrojů. I takový přínos samozřejmě existuje, například když je pěti milionový rozpočet, pak lze ušetřit třeba půl milionu tím, že peníze dáme správným webům, odkud přicházejí lidé.

My jsme ale zvyklí spíše na detailní data o interakcích, jednotlivých návštěvách a návštěvnících, což většina firem nemá, protože těch možností není mnoho. To je také důvod, proč se firmě Datamind daří – můžeme vybírat nejnáročnější, nejekomplexnější zakázky, tedy crème de la crème. Je to tak?

Přesně tak. Na druhou stranu to vnímám i jako překážku, protože firmy nemají nasbíraná data z webu v takové formě, která by byla použitelná pro cílený marketing nebo skutečnou komunikaci na webu. Je paradoxní, kolik konferencí se věnuje webovým datům, a přitom jak povrchně se tato data ve firmách zpracovávají. Proto se snažíme zaměřovat i na data mimo web, protože ta webová nejsou v mnohých firmách dostatečně podrobná.

Vidíš nějaký trend nebo posun, že si firmy začínají těchto věcí všímat? Nebo že cloudové platformy mají lepší možnosti napojení na webová data? Mění se nějak přístup tvých klientů?

Určitě začínají mít o data větší zájem. Na druhou stranu ale přišla přísnější legislativa ohledně souhlasů se zpracováním dat, což však je normální téma. Data se začínají sbírat a myslím, že tento trend bude pokračovat, ale bude ještě pár let trvat – tři až pět let, než bude běžné mít kvalitní data z webu.

Co podle tebe bude normální na datové scéně za tři až pět let?

Momentálně se zaměřujeme na AutoML řešení, která máme rozjetá v prototypu. Některé korporace jsou ochotné za tuto službu zaplatit, protože jim můžeme ukázat tři kroky dopředu a používat modelovací nástroje, které samy vybírají algoritmy, provádějí přípravu dat, vytvářejí několik testovacích datových pipeline a v ideálním případě dokonce i deployment pipeline z nejlepšího modelu.

To mohou být nástroje jako H2O, DataRobot nebo na AWS také SageMaker, které umí vytvořit několik testovacích datových pipeline od přípravy dat až po model. Vyzkouší například deset datových pipeline, přidají k nim testovací modely, vyhodnotí nejlepší a výsledný model pak prezentují navenek a většinou umí i zajistit jeho nasazení do produkce.

Tyto nástroje ale často vedou k lehkému vendor lock-inu, kdy model by měl zůstat v prostředí, ve kterém byl vyvinut. Co si o tom myslím já? Stoprocentně se domnívám, že přesně sem se bude trh v následujících dvou letech posouvat. Firmy, které taková řešení nebudou využívat, budou ztrácet na konkurenčním trhu.

Ne každý business case nám však vyjde. My například vždy srovnáváme ručně vyrobený model s modelem vytvořeným pomocí AutoML. Díky zkušenostem našich datových vědců, třeba Martina Kavalce, který má obrovské zkušenosti, dokážeme vytvořit kvalitní model za cca 100 hodin práce, což může být srovnatelné s tím, co AutoML zvládne samostatně.

Nyní je otázkou, kolik bude AutoML stát; na některých platformách je velmi drahý, jinde je cena rozumná. Dalším problémem je, jak jednoduše se takový obří model implementuje oproti modelu rozumných rozměrů. Zatím nám obchodně AutoML tolik nevychází ve prospěch, ale jak se bude snižovat cena výpočetní kapacity, bude AutoML nevyhnutelně levnější a efektivnější než práce analytiků.

Není jiné cesty, kromě pokračujícího zlevňování výpočetních kapacit, ačkoliv ceny energií mohou způsobit určité výkyvy. V dlouhodobém horizontu ale bude nutné AutoML přijmout, takže budeme tato řešení vyvíjet a nasazovat firmám.

Když mám zájem proniknout do AutoML a chci být jedním z prvních, kdo bude připraven na budoucnost, jaké vidíš první kroky?

V Azure je například možnost, že si člověk může nejprve hrát s něčím zdarma. Důležité je začít s něčím open source. Například H2O nabízí AutoML přístup, jehož jedna větev je zdarma a druhá placená. Doporučuji začínat právě u open source řešení a postupně experimentovat i s placenými.

Na cloudových platformách je zvláštnost, že se člověk může snadno překvapit náklady, když si to nepohlídá nebo nerozumí detailně tomu, jak je to postavené – může se stát, že se najednou spustí velké výpočetní stroje, za které se platí vysoké částky. Proto doporučuji být opatrný s výpočetní kapacitou.

Kam se vlastně odbornostně zaměřuješ v této oblasti?

Pokud jde o podnikání a budoucnost Datamindu, tak náš byznys je normální v tom smyslu, že pořád děláme nabídky, oslovujeme zákazníky, obsluhujeme je, odvádíme dobrou práci. Organicky rosteme, máme čím dál více klientů a zakázek, a s tím jsem spokojený. Nikdy jsem se neprofiloval jako rychle rostoucí podnikatel, organický růst mě osobně těší a vyhovuje mi.

Nikdy jste neuvažovali o tom, že z Datamindu vytvoříte startup s produktivizovaným řešením?

Tato myšlenka zde je, ale nemáme v úmyslu nafouknout firmu a prodat ji Google, Amazonu nebo českému investorovi. Tato myšlenka tam nikdy nebyla a ani nebude. Myšlenka vyvinout produkt se několikrát objevila a aktuálně se k ní opět vracíme.

Proč nejsme produktová firma? Vidím mnoho firem, které na poli produktů neuspěly. Příběhy úspěchu slýcháme jen o těch, co uspěli, například Recombi je extrémně úspěšná firma. Mnozí naši známí ale zkrachovali u produktově orientovaných firem, protože na tomto poli je daleko snazší zkrachovat a daleko těžší uspět.

Produktový trh je velmi konkurenční. Když jdete do Ameriky, děláte typ modelů, které s vámi pravděpodobně dělá i někdo jiný, a šance úspěchu je relativně malá, ale pokud se úspěch dostaví, je obrovský. Proto mladí zakladatelé do tohoto trhu vstupují.

Na trhu jsou i velké firmy, jako Adastra, které uspěly s custom řešeními na míru korporátům. Je ale i mnoho produktových firem, které neuspěly. Navíc existuje určitý bias v prezentaci trhu – propagují se především úspěchy a může se zdát, že každý, kdo založí produktovou firmu, uspěje, což není pravda.

Já jsem v tomto ohledu opatrný. Produkt budeme vyvíjet, ale bude to vždy druhá kolej; tou první zůstane vývoj pro klienty a individuální řešení.

Můžeš prozradit, kam bude váš produkt směřovat? Bude to black box s proprietárním modelem?

Ano, už tento model máme. Je nasazen na Kubernetes a je to model pro Pensy Titu Bay, který máme v produktové verzi – osekaný o neesenciální funkce, ale přitom dobře fungující. Testovali jsme ho na reálných případech.

Co nám ale úplně nevyšlo, byla propagace tohoto produktu. Myslím, že produkt je funkční a chceme ho dál vyvíjet, ale snažit se ho lépe prodat než doposud.

Děkuji moc za tvůj čas, přeji hodně štěstí s prodejem produktů, klientskými zakázkami i v tom, aby Datamind bylo i nadále skvělým místem k práci. Děkuji, že jsi dnes přišel.

Já děkuji, bylo to velmi zajímavé. Děkuji všem, kteří doposlouchali podcast Data Talk až sem. Jak se vám tato epizoda líbila? Co byste na našem podcastu zlepšili? Koho bychom měli pozvat příště? Dejte mi prosím vědět, co si myslíte. Můžete mi to říct osobně na příštím Datamesh meetupu nebo hned nyní na e-mail jirka-zavinac-datatalk.cz.

Pokud se vám epizoda líbila, doporučte ji prosím dál. Klikejte na srdíčka, na hvězdičky, odebírejte náš kanál, aby nám svítily zelené dashboardy, křivky dělaly hokejku a všichni stakeholdeři schvalovali extra rozpočet. Ještě jednou děkuji.

Poděkování patří také mým kolegům Nikovi a Iris, stejně jako členům našeho partnerského klubu: Big Hubu, Deep Note, Atakamě a Mantě. Pokud máte návrh, tipy na hosty nebo témata, pořádáte vlastní akci, nebo chcete datovou komunitu podpořit jinak, určitě mi dejte vědět. Díky a nechť vás provází data.

Podcast

Data Talk #8: Jan Matoušek (Data Mind)

Strojový přepis

Odebírejte Data Talk