Data Talk #113: Markéta Patáková (Knihobot)

V tomto díle podcastu Data Talk přivítali Jirka a Šimon do studia Markétu Patákovou, která vede Data & BI tým v Knihobotu. Jaké jsou datové výzvy, kterým rapidně rostoucí společnost čelí? Proč musí Knihobotí katalog obsahovat i knihy, které nemá fyzicky k dispozici? V jakých případech fungují LLM dobře a v jakých naopak ne? A proč by mělo slovo “vědozpyt” být vaším novým nejoblíbenějším slovem? To vše a víc v nejnovějším díle Data Talk.

Strojový přepis

Zde je opravený text s opravami gramatiky, interpunkce a stylu pro lepší plynulost:

Dobrý den, moje jméno je Jirka Vešery, já jsem Šimon Porhajský a vítáme vás u nového dílu podcastu Datatalk. Dnes si tady přivítáme Markétu Patákovou z Knihobotu. Vítej, Markéto.
Ahoj.

My jsme si tady Markétu pozvali, protože Knihobot je velmi zajímavá firma, která velmi rychle roste, a určitě budou mít spoustu zajímavých datových případů. Markéta je první datový člověk v Knihobotu a nyní řídí celý tým. Než se dostaneme ke Knihobotu a tomu, co tam vlastně dělají a jak se jim daří takhle růst, pověz nám, jak ses dostala k datům, do IT a právě do Knihobotu?

Tak já sama se k tomu příběhu dostala trochu náhodou. Moje první opravdová práce byla ve firmě Atos IT Solutions, což je takový obrovský korporát, o kterém skoro nikdo neslyšel. Nastupovala jsem tam na projekt, který se točil kolem dokladů s biometrickými prvky – typicky pasů, na kterých jsou uloženy otisky prstů. A já od té práce vůbec neměla velká očekávání. Jediné, co jsem chtěla, bylo uživit se do doby, než dokončím studium. To se mi povedlo, ale zároveň mě ta práce začala hrozně bavit.

Úplně na začátku jsem začínala na technické podpoře, což nebylo jen o tom brát telefony, odpovídat na e-maily a říkat lidem, aby něco restartovali. Psala jsem hodně skriptů, hlavně pro vzdálenou správu těch tisíců pracovišť, na kterých se tyto doklady vyráběly – třeba různé batch soubory nebo PowerShell skripty. Potom jsem se posunula více do testerské role a nakonec skončila v týmu, který řešil migraci těchto pracovišť z Windows XP na Windows 10. To byl opravdu velký skok, technologická transformace.

Představte si, kolik zařízení je připojeno na těch pracovištích – tiskárny, čtečky otisků, které fungovaly a měly ovladače pro XP, a my jsme vymýšleli, jak to všechno přenést na Windows 10. To byl jeden z hlavních problémů. Pak samozřejmě migrace samotných pracovišť a příprava softwaru, aby vše fungovalo. Cílovými uživateli byli obvykle úředníci a úřednice, často v pokročilém věku, takže jsme systém připravovali tak, aby byl intuitivní a aby vypadal co nejsimilaritněji s Windows XP, aby pro ně nebyl velký skok přejít na desítky.

Pro mě to byla obrovská zkušenost. Jednak technicky, jednak manažersky. Trochu jsem se našla v roli někoho „napůl technického, napůl byznysového“, což je možná divný pojem, ale myslím mezi netechnickými lidmi – prodejci, právníky nebo projektovými manažery kolem. Přijde mi zpětně trochu neuvěřitelné, že mi tuhle šanci vůbec dali. Byla jsem tehdy 25letá s dredy a ocitla jsem se v místnosti plné vážených lidí z ministerstev, státní tiskárny cenin a významných hráčů z dalších korporací, jako IBM, Deloitte nebo Nixd.

Pokud si přejete, mohu vám text i stylisticky dále upravit nebo zkrátit.

Orf. A vlastně, když jsem byla v té místnosti a mluvila, poslouchali mě a respektovali, což mi dalo hroznou sebedůvěru do budoucna. Takže když mě třeba v rámci datových projektů někdo hodil do vody a postavil přede mnou velkého klienta, měla jsem z čeho čerpat, protože jsem měla takovou hezkou zkušenost z té úplně první práce. A byl to jinak podobný pocit, jako máš teď v těch datech? Když se člověk ohlíží zpětně, hledá tam trochu nitky relevance, ale přijde mi, že používám svalovou paměť teď.

Když pracuji na datových projektech, je to hodně o mluvení, vysvětlování a komunikaci, která se podle mě skrz ty projekty moc neliší. Nemůžeme přeskočit to, že jsi říkala, že to byla tvoje první práce a že jsi studovala – naše velké téma před natáčením bylo, co jsi vlastně studovala. Tak co jsi vlastně studovala? Studovala jsem vědospyt, což je slovo, které používají asi tři lidé v České republice. Pět, s Šimonem jsme si ho zamilovali. Naučila jsem ho další dva. Všichni ostatní o tom mluví jako o teorii vědy nebo science studies dneska už, ale já jsem se takto rozhodla dělat reklamu slovu "spyt", který podle mě člověk může nalepit úplně na cokoliv a znít chytřeji. A myslíš, že bys vědospyt doporučila lidem zajímajícím se o data, nebo naopak studentům vědospytu, aby se zajímali o data? Protože ta průprava může být podobná? Vědospyt člověka výborně naučí přemýšlet, protože hlavně se tam řeší challenge těch předpokladů, těch nevyřčených předpokladů, takže tam nějakou nitku vidím, ale že bych datařům doporučila, ať se vrhnou na studium vědospytu, to by asi bylo trochu na sílu. Na druhou stranu vědecké metody jsou určitá průprava vhodná i do IT aplikací. Jo, to jo, to jo. No a tak jsme tady konečně spopularizovali slovo vědospyt. Bylo na čase. Bylo na čase. „Vědospytkyně“ bude popisek podcastu.

Zpátky tedy k tvé kariéře. V Atosu jsi dostala příležitost, a ty první zkušenosti, které využíváš dodnes. Co tě vedlo z Atosu pryč? Dokončili jsme projekt migrace, což byla hezká tečka. Rozhodla jsem se zkusit něco techničtějšího a nastoupila do Royvenu. Původně jsem si myslela, že nastupuju na juniorskou programátorskou pozici, což se nakonec ukázalo, díky bohu, trochu jinak. Royvenu je datová firma, takže moje pozice se profilovala mnohem víc směrem k data engineeringu. Začala jsi takovou tou webovou analytikou? Ne, ne, ne. Royvenu je datový produkt, jehož vlajkovou lodí je marketingová atribuce. Aby člověk mohl dělat marketingovou atribuci, musí si odmakat všechno předtím. To znamená dělat extraktory na datové platformy, marketingové platformy, na webovou analytiku, potom to nějakým ETL procesem zpracovat, u…

Tady je opravený text:

Dělat tam teda, pravda, nějaký interface, kde uživatel to může zobrazovat a používat, ale já jsem byla spíš na tom back-endu. Psala jsem právě nějaký napojení na externí platformy, připravovala jsem a zkoumala data třeba z nějakých zdrojů, které jsme do té doby ještě neznali, a spravovala jsem to prostředí na cloudu.

No a jaký byl tvůj stack? Co jsi vlastně uměla technicky, když jsi odcházela z Atosu? Uměla jsi nějaké programovací jazyky, věci… říkala jsi PowerShell a tak? Jak pro tebe znamenal přechod do Roivenu, menší firmy, na cloudové věci – co jsi se musela doučit?

Já si myslím, že z toho stacku, který jsem si nesla z Atosu, jsem prakticky nepoužila nic, takže šlo spíš o to, že jsem měla určitě nějaké soft skills a naučila jsem se trochu technicky přemýšlet. Nebyl to úplně přechod bez práce a učení. Já už si vůbec nepamatuju, z jakého důvodu, ale chodila jsem na večerní kurzy C# a jsem přesvědčená, že to byli úplně stejní lidé (stejný ročník), takže reprezentujeme C-sharpisty v dataři. A protože v Roivenu bylo hodně věcí napsaných právě v C#, tak díky tomu jsem tam nepřišla úplně s prázdnou. Ten jazyk jsem tam používala teda v nějaké skromné míře – například pro napojení na datové platformy nebo úpravu nějakých zpracování.

Tam jsem až v Roivenu pořádně začala používat SQL a určitě to bylo pro mě úplně první uvedení do toho, že existuje něco jako infrastruktura na cloudu. Fungovali jsme na Azure v době, kdy možnosti datových pipeline tam ještě nebyly moc rozvinuté, byla to doba před verzí 2 Data Factory. Hodně věcí se dělalo tak, že to bylo vlastně on-prem, ale na cloudu. Měli jsme například virtuální stroje, na kterých běžely SSAS instance.

Vidím v tom, že nejčastější zákazníci budou e-commerce firmy. Je to tak?

Jo, je to tak.

Takže to byl pro tebe krok směrem k tomu, co děláš dnes? Musela to být zase nějaká zkušenost a svalová paměť, kterou teď používáš?

Určitě. Od té doby, co jsem nastoupila do Roivenu, jsem e-commerce prostředí už neopustila. V Roivenu nám dali šanci spousta firem, které se dnes často skloňují, když se mluví o datech. Byly tam Fler, Notino, Rohlík a díky tomu jsem dokázala navnímat celé ty e-commerce případy – od webové analytiky až po práci s interními daty těch firem. Takže to bylo takové klasické cvičení: propojit data dohromady, dát jim smysl a nabídnout uživateli nějaké prostředí, kde to může zužitkovat a dělat nad tím závěry.

Takže o jaké době se bavíme? Bylo to ještě před covidem?

Já jsem z Roivenu odcházela zhruba během první vlny covidu, pokud si dobře pamatuju – myslím, že to bylo v roce 2020. A pak jsem nastoupila do firmy...

Pokud chceš, mohu pokračovat v opravě dalších částí textu.

Zde je opravená verze textu:

v Top4Sport. A to je tedy krok trochu blíže k tomu BI? Jo. Já jsem vlastně tím, že jsem pracovala v Roivenu, tak se mi otevřela část toho, co ty e-commerce byznysy typicky řeší. A tím, že jsem se dostala do Top4Sportu, jsem měla možnost vidět ten celý zbytek a vidět definici toho, co BI všechno může být, která je široká. Mně se líbí, že je stále širší a širší, takže si můžu přičichnout ke stále většímu množství věcí. Když jsme se tedy potýkali s datovými problémy, tak to bylo včetně logistiky a podobně.

Top4Sport je nějaký e-shop se sportovním vybavením?
Jo. Top4Sport je e-shop se sportovním vybavením a co je na něm možná specifické nebo neobvyklé je to, že pro každý sport mají vlastní e-shop. Takže existuje Top4Running, Top4Fitness, pak varianty pro basketbal a házenou a zároveň působí v mnoha zemích. Prostě to jsou desítky zemí, takže když si člověk tohleto pronásobí, a každá země má tyto varianty sportů, tak je to docela komplexní byznys. Teď třeba z pohledu nákladových středisek to bylo docela složité a zároveň rychle rostoucí. Ty shopy tam přibývaly – možná to mám trošku zkreslené, ale řekla bych, že každý měsíc.

Datová struktura či zpracování dat na to v tu chvíli nebyly úplně připravené. Bylo to takové klasické hardkodování věcí a bylo náročné s tím držet krok. Moje hlavní úloha spočívala v tom, učesat to, udělat takové řešení, aby se to dobře škálovalo a abychom dokázali ten růst zvládnout.

To je parádní, takže tobě se vlastně…

Začalo přitichnout v celé horizontální škále datového inženýrství a analytics engineeringu a zároveň k všem doménám – logistice, e-commerce – ještě před tím, než jsi přešla do Knihobotu?

Jo, jo. Já bych skoro řekla, že celá ta zkušenost mě udělala lákavou pro Knihobot. Ale ano, je to tak a já jsem z revenue oddělení, možná jsem byla už trošku unavená koukat jenom na marketingová data, a teď se k nim zase ráda vracím. Ta šířka byznysu mi ale krásně otevřela oči a umožnila mi to všechno propojovat.

A tím se dostáváme ke Knihobotu. Mohla bys krátce popsat, co Knihobot dělá, a možná i jak se jmenuje anglicky?

Knihobot je původně česká firma, která se teď rozrůstá na další trhy, kde působíme pod názvem BookBot. Když to mám rychle shrnout z pohledu zákazníka, co hledá knihy, tak to vypadá jako obyčejný e-shop jako spousta jiných. Ale to, co my děláme – a nechci říct primárně, ale tak, jak fungujeme – je to, že někdo má doma knížky, které už nepotřebuje, má je přečtené, a hledá pro ně dalšího čtenáře. A chce s tím mít co nejméně starostí. Nechce se domlouvat s někým na marketplace, chtít se bavit o ceně třikrát a pak čekat na několik zastávek a…

Pokud chceš, mohu pokračovat a opravit i zbytek textu.

Opravený text:

To je pro punčmekry, kteří nejsou nutně naše cílovka, se zaměřujeme na lidi, kteří s tím chtějí mít práci, nebo pak co nejmíň, a pošlou je naším směrem. Už jen to posílání se snažíme dělat co nejjednodušší, takže v tom nejjednodušším případě člověku přiveze Rohlik nákup, on mu místo toho nabalí tašku plnou knih, která je podepsaná, je tam e-mail, telefon, Rohlik to doveze naším směrem a my se postaráme o všechno ostatní.

A to všechno je docela spousta – každou tu knížku nafotíme, katalogizujeme, pak ji samozřejmě naskladníme, dáme jí tu správnou cenu, postupně si s tou cenou hrajeme tak, aby byla konkurenceschopná, a věnujeme velkou práci celému procesu. Dále knížky najdeme místo v rámci našeho katalogu tak, aby to pro čtenáře dobře fungovalo.

O jaké škále tady mluvíme? Já si myslím, že kdo zná Knihobot, tak si to představuje menší, než to doopravdy je, jako takové roztomilé objevící dobrodružství, kde sedí deset lidí, kteří mají rádi knížky, přeberou je a pak je vystaví. V tuto chvíli je to už docela obří operace – je tam aktivních 800 lidí, drtivá většina z nich jsou lidé, kteří se věnují provozu, což znamená logistiku a správu skladů.

Zároveň jsou tu i práce bezprostředně spojené se zpracováním knih – žádný jiný sklad nemusí nutně řešit, že je potřeba knížky nafotit, zjistit jejich stav, zkontrolovat, zda je to kniha, nebo ne, rozhodnout, jestli má autorské podpisy, a pak ji správně zakatalogizovat v rámci zbytku knih.

Co my nemáme, je jakákoliv kontrola na vstupu těch knížek – když člověk nabalí a dá Rohliku tašku, může tam potenciálně být cokoliv. Proto musí lidé ve skladu od prvního momentu rozhodovat, jestli je to to, co považujeme za nějakou definici knihy. Například: je příručka k ručnímu mixéru kniha? Je vědecká práce kniha? Je hračka kniha? Je kniha, která vydává zvuky a má v sobě elektroniku, kniha? Je kniha, když u toho jsou tarotové karty, ale ve skutečnosti jde jenom o výklad?

Toto jsou největší otázky, které řešíme. Také diskutujeme o tom, co nám chodí uvnitř knih – občas jsou to velké ulovky. Myslím si, že toto je v rámci logistiky naše specifikum.

Vy navíc teď rychle rostete, je to tak? Ano, rosteme úplně všemi směry – do počtu lidí, do množství peněz, díky darům do počtu knih, které zpracováváme a máme ve fyzických skladech, ale také v datových skladech.

Teď máme nové velké sklady, protože do těch stávajících čtyřpatrových jsme se už nevešli, už jsme je přerostli. A kromě nových velkých skladů máte i nový velký datový tým? Ano, máme nový velký datový tým...

Opravený text:

ový tým. Než se dostaneme k tomu datovému týmu, chci potvrdit to, co vlastně říkáš. Pro mě byla Knihobot na začátku jako parta nadšenců, něco jako strkaři u sebe v garáži, nebo dokonce v olíváku, a vlastně mě hodně překvapilo, jak rychle rostete, jak nabíráte lidi a expandujete.

Teď ještě ke škále – kolik nových knížek s vámi projde?

Aktuálně jsme na asi 20 až 25 tisících knih denně. To znamená, že nám přijde takové množství knih každý den, my o nich předem vůbec nic nevíme a do 8 hodin chceme mít všechny informace na webu. Skvělé.

A ještě možná důležité k tomu obchodnímu modelu, to mi přišlo taky jako unikát, že vy prodáváte a ve chvíli prodeje vlastně posíláte původním majitelům nějakou částku. Není to tak, že jim platíte hned, že?

Jo, je to přesně tak. Naši dodavatelé nejsou firmy, je to obrovské množství jednotlivců, kteří se nechtějí zbavit tří set knih, ale třeba jen deseti. Takže my koordinujeme právě velký počet lidí a také si nemůžeme dovolit třeba dělat předobjednávky. My prostě musíme najednou dělat dvě věci: snažit se knihy prodávat a zároveň je získávat. To je úkol marketingu, nejednoduchý. Naše brand manažerka používá analogii s kohoutkem – byla ta fáze jako britský kohoutek, kdy člověk pouští studenou i horkou vodu a občas se opaří, a my se snažíme být čím dál víc jako páková baterie, kdy to mícháme tak akorát, abychom měli dost knih na prodej, ale zároveň jich neměli příliš, aby nebyly vyskládané v kancelářích. Takže to je jeden z těch úkolů, které řešíme.

Zároveň přemýšlíme, jak ty čtenáře, co u nás knihy kupují, a ty, co nám knihy dodávají, nějak propojit, konvertovat z jedné strany na druhou. To spojení těch dvou stran vnímám jako důležité.

Spousta mých kamarádů se do Knihobotu zamilovala a občas se smějí, že všechno, co u vás za knihy vydělají, pak hned dvojnásobně utratí u vás znovu, a že vlastně jste služba, kde se ty knihy pořád točí.

No, to samozřejmě ráda slyším. Zajímalo by mě, co z vašeho snažení a který fičury motivují dodavatele, aby u vás nakupovali knihy?

Snažíme se dodavatele motivovat, aby u nás knihy kupovali. Ne vždycky se to povede. Občas ulítávají doporučovací mechanismy, kdy prodávajícího motivujeme, aby si u nás i knihy koupil. Ale pokud je jeho první kontakt s námi posláním knih, pak si asi umíte představit, že pošle knížky a pak sleduje na webu, jak se jim daří, a jak jsou hodnoceny. Tím má hodně interakcí právě s těmi vlastními knihami.

Občas se stane, že mu během měsíce pošleme e-mail s výběrem knih na míru a doporučíme mu, aby si u nás koupil některé z těch deseti knih, které nám před měsícem poslal.

Pokud by měl second thought, jestli si to rozmyslí, jestli si nenechá některou knihu ještě jednou přečíst, je to spíš výjimka, většinou se nám povede takové případy zachytit.

Pokud bys chtěl, můžu ti s tím pomoci i dál, jestli něco dalšího chybí nebo si chceš být jistý, že celý text je plynulý.

Tady je opravený text s úpravou gramatiky, interpunkce a stylistiky pro lepší srozumitelnost:

I teď, když už byla popsána knihobot a bookbot, si dokážu představit, že tam je velká škála velmi zajímavých a nových datových challengerů, problémů a věcí k řešení. Na začátku jsme tě představili jako někoho, kdo vlastně vykopl a buduje ten BI a datový tým v knihobotu. Kolik je vás dneska? Jak vypadá tým, který se o tohle všechno datově stará?

Já jsem nastupovala jako takový první výkop datového týmu s plánem ten tým vytvořit a nabrat další lidi. Když jsem nastupovala, už tam byl můj týmový kolega, který se zabývá právě katalogem knih — celou knihobničnou kolem toho, co my řešíme. Ostatní členové týmu se připojili až později. Aktuálně máme jednoho datového inženýra, dva datové analytiky, kteří jsou ale velmi inženýrsky zdatní, právě toho kolegu, který má na starosti veškeré práce kolem zpracování knih a jejich katalogizace, dále data scientisty a teď i machine learning inženýra.

Zároveň bych chtěla říct, že firma obecně je velmi datová, takže spousta těch datových věcí probíhá i mimo náš tým. Máme tam výborné lidi ve financích, kteří jsou chytrí, a mnoho věcí původně vznikalo mimo náš tým. Nechci, aby to vyznělo tak, že dokud nenastoupila Markéta, tak všichni jen seděli a čekali, až se začne něco dělat s daty. Datové věci tam probíhaly vždycky, jen nebyly centralizované do jednoho týmu. IT tedy odvedlo obrovský datový kus práce a zároveň tam byli velmi schopní lidé, kteří si dokázali poradit, jak nejlépe uměli.

Výsledkem je, že skoro každý druhý člověk ve skladu umí SQL a... Ale zároveň váš datový tým má tedy velmi široký záběr, ne? Neděláte jenom knihosped.

Děkuju. Ne, v tuto chvíli zastřešujeme všechna datová témata a problémy, které knihobot řeší. Řekněme, že asi polovina z nich jsou právě BI případy, které obsahují velmi podobnou škálu úkolů jako v jakémkoliv jiném e-commerce byznysu. Druhé velké téma, které ostatní většinou neřeší, je právě katalog knih — což je jakýsi nabubřelý, hrubý produktový katalog.

Kdybychom si udělali průřez, tak je to podobné jako u e-commerce, ale se specifiky katalogu knih. Takže řešíte zase aliasování, sledování nějaké webové analytiky, performance marketing, atribuce modelování a tuhle online vrstvu — ta je jedna část, kterou zvládám. Druhá část je logistika a optimalizace procesů, kde vnímám, že knihobot má obrovskou hodnotu. Denně vám přijde 20 tisíc knih, a tak každá optimalizace pár vteřin nebo jiné části procesu dává smysl. To je také datová úloha, které se věnujete?

Jo, určitě. Myslím, že s těmi vteřinami to vůbec není přehnané, protože v počtu lidí i knih se to strašně rychle nakumuluje. Když to stručně shrnu, cesta té knihy je taková, že když nám ta kniha přijde, tak ta...

Pokud chcete, mohu vám pomoci dokončit text nebo jej ještě více stylově upravit.

Zde je opravený a upravený text, který je srozumitelnější a plynulejší:

Knížku nejdřív vyfotíme, potom se v ideálním případě naskenuje nějaký čárový kód, tedy nějaký identifikátor, například ISBN. Poté data směřují jednak do katalogizace, ale zároveň i do fyzického skladu. Tento proces obsahuje několik kroků. Každá knížka totiž nemůže být považována za úplně unikátní produkt, protože s takovým přístupem by se data špatně zpracovávala. Proto je nezbytná fáze katalogizace, která probíhá v rámci našeho stávajícího katalogu.

Dále je potřeba knížku také nacenit, což znamená, že ji musíme správně identifikovat a najít pro ni konkurenceschopnou cenu. Tu určíme buď podle našich předchozích prodejů, kdy víme, za kolik bychom danou knihu chtěli dnes prodávat, anebo se podíváme na ceny na konkurenčních webech. Čím více jsou tyto procesy automatizované, tím lépe. Právě v automatizaci spočívá obrovská snaha našeho týmu, aby všechny tyto procesní toky (pipeliny) běžely co nejvíce automaticky a zásah člověka byl třeba jen u výjimečných případů (tzv. edge cases).

To všechno vyžaduje relativně hodně specializovaných aplikací, které programuje výhradně náš vývojářský tým, protože nikdo jiný tento problém neřeší. Vyvinuli jsme tedy vlastní aplikaci na fotografování, správu katalogu i na cenovou tvorbu. Proto se považujeme za technologický startup, protože vytváříme velké množství softwaru na míru.

Tento přístup mi připomíná Rohlík – kde je hodnota v infrastruktuře, která představuje duševní vlastnictví. Není to jen obyčejný komoditizovaný software, ale systém, který může být znovu využit.

Když mluvíme o těchto nástrojích a aplikacích, můžeme si to projít i z hlediska architektury a toku dat – tedy jak virtálně "následujeme" tu knihu, nikoliv fyzicky. Většina tohoto procesu je pod správou IT. Abych to interpretoval co nejpřesněji, není snadné si představit, že zpracováváme přibližně 20 tisíc knih denně, z nichž každou třikrát fotíme. Množství vytvořených fotografií je tedy enormní. Tyto fotky jsou uložené na Amazon S3, kde je následně pomocí lambda funkcí ořezáváme, komprimujeme a přesouváme dále.

Celý tento proces je samozřejmě real-time, protože knihy musí být zpracovány co nejrychleji. To znamená, že i analýza dat (analytika) je buď v reálném čase, nebo velmi rychle aktualizovaná.

Když říkáme real-time reporting, máme na mysli, že v momentě, kdy kniha prochází jednotlivými kroky procesu, vytvářejí se různé fronty, které pak jsou zpracovávány podle podmínek, které daná kniha splňuje. Real-time reporting je zde klíčový, protože právě na něm stojí celá logistika…

Pokud potřebujete text ještě více upravit nebo zkrátit, dejte vědět.

Určitě, zde je opravený text s lepší srozumitelností a úpravou stylistiky:

Velké televize mají reporty, podle kterých například sledují, jak to běží na skluzu — tedy kontrolují v pětiminutových intervalech, jestli se stíhá postupovat v různých fázích zpracování knihy, a podle toho pak operují. V tomto smyslu tedy určitě pracujeme s real-time daty. Také se snažíme co nejvíce směřovat k tomu, aby když k nám knížka přijde, byli jsme na ni připravení. To znamená, že...

V těch knihách, které nám prošly rukama, jsou zhruba miliony titulů, ale náš datový katalog je v tuto chvíli násobně větší — právě proto, aby když přijde nová kniha, mohli jsme ji ihned přiřadit k nějakému našemu bibliografickému objektu. Tím pádem můžeme přeskočit všechny potenciální manuální kroky. Zároveň musí probíhat i real-time proces hledání ceny. Váš datový katalog tedy obsahuje nejen všechny knihy, které máte skladem, ale i všechny knihy, které byste mohli mít? Přesně tak. V tuto chvíli máme v katalogu například asi 180 milionů knih, které bychom potenciálně mohli mít.

Když už se dostaneme ke „srdci“ – a tím je určitě nejzajímavější katalog – tak které z těchto věcí jsou podle vás typické úkoly e-commerce? Z mé zkušenosti s Top4Sport a Royvenue jsou to klasické věci, jako logistiky skladu, trochu cenotvorba, marketing. To jsou oblasti, které řeší prakticky každá firma, která působí v online prostředí a s těmito tématy se určitě někdy setkala. A které věci jsou úplně nové? Předpokládám, že to bude právě oblast, kde se setkáváte s nabíráním a logistikou. Taky ten knižní katalog – tedy rozhodování o unikátnosti jedné knížky od jednoho autora versus variantách téže knihy.

Určitě. Neznám jinou firmu, která by se musela potýkat s tímto problémem okolo knih tak, jak my. Možná jsem si tím odpověděl sám (smích).

Podívejme se tedy na katalog knih. Je katalog něčím, co jste museli vymyslet od základu, nebo je to v nějaké míře už vyřešený problém? Všichni, kdo prodávají knihy, přeci nějaký katalog mají, takže jste jen vytvořili nějakou specifickou verzi, kde řešíte třeba míru použitelnosti té knihy?

Ne, určitě to není zcela nový či neřešený problém. Je to úkol, kterému se věnujeme každý den, a různými přístupy se snažíme dospět k tomu ideálnímu finálnímu produktu. Samozřejmě víme, že nejsme na začátku, produkt funguje a stále roste. Něco tedy stavíme na existujícím základu a něco máme vyřešeno. Ale jako často bývá, vidíme víc oblastí, kde by to mohlo být lepší než těch, kde to už velmi dobře funguje. Tohle tedy máme možná trochu zkreslené, ale snaha o vylepšování je hlavní součástí naší každodenní práce.

Zároveň víme, že nežijeme v nějakém vakuu a nesnažíme se nutně vymýšlet kolo znovu, ale právě teď myslím tu strukturu katalogu a jeho fungování...

Pokud chceš, mohu text ještě více zestručnit či přeformulovat, abychom udrželi zaměření na konkrétní témata.

Tady je opravený text:

V katalogu je náš případ přece jenom specifický. Knihovna, když přemýšlí o kategoriích, nemusí řešit, jestli jsou ty kategorie funkční z pohledu SEO. Naopak, když se podíváme například na knihkupectví, to nemusí mít obavy z toho, že jim přijde kniha z roku 1850 v čínštině nebo nějaký úplně nezvyklý typ knih, které musí být připravené řešit. Myslím si, že náš katalog je z tohoto hlediska skutečně specifický.

Taky ne každý, například ani knihovna, nemusí řešit cenu – pro ni je jedno vydání jako druhé vydání. Pro nás však ano, protože cena dělá z každé knížky úplně jiný produkt. Jeden z příkladů je první vydání Harryho Pottera – těch prvních výtisků je málo, protože nikdo nevěděl, jaký úspěch ten příběh bude mít. Mají trochu jiný font, protože ještě nebyl schválený. Harry Potter má na hlavě jiný klobouk než v pozdějších dotiscích. Pro knihovnu je to stejné vydání, tudíž to vnímá jako jeden produkt, ale pro nás nemůže být stejné, protože ty první kusy mají několikanásobnou hodnotu oproti ostatním, a to musíme rozlišovat.

Všechna tato rozlišení vznikla během vývoje katalogu, nepřišla jako hotové řešení od začátku. Určitě to nevzniklo tak, že by se skupina lidí zavřela do místnosti a vymyslela, jak bude katalog vypadat, dokud nevyšel „bílý kouř“. Vznikalo to postupně – úplně na začátku to bylo manuální, přišlo malé množství knih, které se daly ukočírovat, a katalog postupně vznikal. Lidé postupně řešili produktové otázky: co chceme, aby byla kniha, co chceme, aby byl titul, jaké nadřazené skupiny knih k sobě patří.

Například nějaký titul může mít víc vydání, a my chceme z analytických a produktových důvodů, aby to na webu vypadalo hezky a člověk si mohl na jedné produktové kartě vybírat mezi vydáními. Taky ta kniha může být v různých jazycích – my chceme mít možnost poznat, že jde vlastně o jednu a tu samou knihu v různých jazycích. A pak přicházejí další jemnosti, jako jestli komiks „Stařec a moře“ patří pod obecný titul „Stařec a moře“, a ještě navíc v různých jazykových verzích. To jsou věci, které se postupně rozhodly a odladily během vývoje katalogu.

My na to teď navazujeme a vytváříme katalog trochu už s ohledem na automatizace a budoucí rozměry, na které chceme být připraveni.
Můžeš dát nějaký konkrétní příklad velkého architektonického rozhodnutí v tomto ohledu? Že v tuto chvíli to třeba takto nedává smysl, ale ve chvíli, kdy budete působit v pěti zemích, už to bude potřebné?

Tady je opravený text s vylepšenou srozumitelností, interpunkcí a úpravou stylistiky:

Am potřebujete mít. Ptám se, protože tam musí být hrozně těžké to rozhodování – do jakého detailu, do jaké skupiny, za prvé co všechno za data budeš sbírat, jak moc toho budeš třít? Fotku knížky, kterou jsi prodala jednou před pěti lety? A tohle je optimalizace na jedné straně a na straně druhé… Tam je nekonečně přístupů a problémů – jak to konsolidovat nebo jak to rozšířit. Jak se v tomhle rozhodujete a můžeš dát nějaký příklad takového rozhodování?

Tak tohle jsou přesně témata, která my řešíme aktuálně, takže že bychom byli úplně rozmyšlení, to nejsme. My těch dat skraipujeme relativně obrovské, nezanedbatelné množství. Myslím, že teďka se pohybujeme v nějakých desítkách terabajtů – a to nepočítám fotky. Takže náš přístup je o nějakých kompromisech. Můžeme si natahovat úplně všechna data, co máme, ale potom je zpracování o to komplikovanější. Je to mnohem náročnější z pohledu infrastruktury – storage, query nad tím, nějaké zpracování.

Takže co děláme teď? Ten úplně nejjednodušší přístup, který nám zatím fungoval, je ten, že katalog knih existuje v produkční databázi, která má k němu rychlý přístup. Tady už se ale začínáme bát, že narážíme na nějaké limity, takže vytváříme rychlé databáze vedle, nad kterými potom vystavíme infrastrukturu, otevřeme produkční prostředí tak, aby nemusela být všechna data přímo v katalogu na úrovni produkční databáze, ale máme cestičky, pipelines,

které nám umožňují v reálném čase doptávat se na zdroje, které máme předpřipravené jinde – ať už jsou to S3, nebo aspoň trochu normalizovaná data v databázích mimo produkční.

No a když o tom mluvíš, když říkáš produkční databáze, tak je v ní ten katalog knih teď, nebo sedí vedle?

Katalog knih je abstrakce. Trošku záleží na tom, co člověk do toho počítá. V té produkční databázi je vlastně oficiální verze, a v předchozích datových skladech jsou data čím dál méně očištěná, až nějaké roldata, ze kterých můžeme čerpat, ale rozhodně to není v reálném čase. Takže v tomto slova smyslu máme vlastně hodně katalogů, ale když bych mluvil o roldatech, o knížkách někde na S3, tak to katalog není.

A na čem to běží, teda S3?

Ano, na AWS běží věci, které se hodně týkají práce právě s těmi knihami, ale zároveň máme na Google Cloudu velký datový sklad, kde jsou především data webové analytiky – ta zpracováváme Dataformem. Aby toho nebylo málo, na businessové případy máme v tuto chvíli Kebulu, kde se sbíhají různé typy dat a vytváří podklad, datový sklad pro reporting.

A datový sklad, na kterém běží Kebula, je Snowflake?

Ano, je to Snowflake – multicloudovou variantu, to musíš teď neopakovat říct.

Pokud chceš, text můžu ještě dále upravit nebo zestručnit.

Tady je opravený a stylisticky upravený text:

Máme impozantní CV, všechno tam je. Spousta zkušeností. Jaké hlavní výzvy vás v tomhle multicloudu čekají?

V našem multicloudu jsou výzvy hlavně co se týče potřebného týmu a textů, které zpracováváme. Snažíme se sjednotit práci tak, abychom byli méně „téčkoví“ a zároveň odborníci na to, co potřebujeme nejvíc – tedy na pravidla, algoritmy a modely, které nám pomáhají řídit vytváření katalogu knih.

A právě tvorba katalogu knih má své vlastní výzvy, že?

Určitě, mnoho výzev. Práci na katalogu vede můj kolega Mikuláš Valeš, který mě neustále fascinuje tím, kolik různých typů problémů musí žonglovat. Především pracujeme s daty různých typů – jak už jsem zmínila, máme tu knihovny, nakladatelství, knihkupectví, ale i komunitní weby, kde lidé knihy hodnotí a označují štítky. Tyto různé zdroje jsou typy dat, které sbíráme, jsou různorodé a my se je snažíme kombinovat do jednoho smysluplného celku.

Každý zdroj však má jiný přístup k uspořádání dat. Jako příklad uvedu autority – to je téma, kterému se teď hodně věnujeme. Jeden autor může mít například druhé jméno pouze s tečkou. Někde najdete Jackie Rowling, jinde zase Joanne Rowlingová. Navíc u autorů, jejichž jména nejsou původně psaná latinkou, například Dostojevskij, existují různé varianty podle zeměpisné oblasti. Rozpoznat a automatizovat, že například Dostojevskij psaný jedním způsobem a jiným patří ke stejnému autorovi, není vůbec triviální. A zároveň rozlišit, že Petr Krejčí a Petra Krejčí, kteří napsali jednu knihu, jsou dva různí lidé.

To jsou obrovské a složité datové problémy, a to mluvím jen o vyčištěných datech.

Práce s daty jde samozřejmě ruku v ruce s jejich čištěním – užíváme různé metody klastrovaní a další techniky, abychom data uspořádali. Variací, jak lidé nebo organizace chápou data, je neuvěřitelně mnoho – například co je titul a co je podtitul; může být autorem třeba i Červený kříž, tedy autor-organizace, což je časté třeba u galerií. Ilustrátor je také typ autora, překladatel další. Existují tisíce různých přístupů, které organizace volí.

Co se týče čištění dat, zabývám se tím už nějaký čas a prošla jsem stovky čištění, aby data ve finále dávala smysl. Ale čištění přirozeného textu je opravdu vyšší dívčí. Náš kolega, který se posledních pár týdnů zaměřuje na kvalitu autorů a jejich čištění, nám na stand-upech vypráví o stále nových a nových problémech – například některé knihovny mají ve zvyku uvádět datum narození a úmrtí autora v závorkách…

Pokud chcete, mohu vám text ještě více rozčlenit nebo doladit.

Zde je opravená a gramaticky upravená verze textu:

Takže on se snažil vyčistit názvy od čísel, ale existují lidi, kteří mají legitimně číslo v názvu knihy. Občas se stane, a je to chyba, že u autora je omylem špatně zapsaná hodnota té knihy – to znamená, že je tam nějaký kód, a on to teď začal čistit. Zjistil ale, že to není tak jednoduché, protože narazil na případy, kdy mají názvy reperů v sobě dolarové znaky a další podobné problémy. Já čekám, až se nějaký autor rozhodne psát pod pseudonymem Null nebo něco podobného – například “Sdrhneme do kebony”, “Drop table authors”.

Takže vlastně s každým dalším krokem se musíme rozhodovat, jak chceme katalog uchopit, a postupně se tím prokousáváme. Jak se rozhodujete, který z těch problémů budete řešit? Máte nějakou škálu nebo prioritizaci práce? Například jestli chcete co nejvíc zrychlit těch 60 % knih, které se často opakují – třeba třeštíková díla – protože ta se točí kolem určitých titulů a dělá největší objem práce. Je tam nějaké rozhodování na základě peněz, třeba že nejčastější tituly chcete zpracovat rychleji a okrajové případy neřešit? Nebo naopak, že právě ty okrajové případy mohou být vzácné antikvariátní knihy za mnohonásobnou cenu, a proto nechcete přijít o to výnosné „upside“?

To je pro mě složitý – máme sedm lidí a nekonečno problémů vertikálně i horizontálně, a k tomu ještě business. Některé okrajové případy jsou opravdu výjimečné a drahé knihy, to je fakt těžké řešit. V tuto chvíli jdeme mnohem víc po škále a zaměřujeme se na to největší a nejpřínosnější z našeho pohledu – tedy na úsporu manuální práce. Takže se soustředíme na množství knih, které máme předpřipravené, ale čím víc je těchto knih připravených, tím více se zhoršuje problém s duplikáty. To je ale určitý trade-off. My se mezi tím snažíme tomu nějak čelit na jedné straně a dohánět druhou věc na straně druhé.

Určitě jdeme víc po škále, koukáme na statistiky z webové analýzy – které knihy jsou nejnavštěvovanější a o které je největší zájem. To se samozřejmě velmi mění v čase – když vyjde nějaký seriál podle knížky, kompletně se to přeorganizuje.

Taky máme nějaké mechanismy, jak nám uživatelé dávají zpětnou vazbu. Za prvé velmi rádi komunikují s naší zákaznickou podporou, což je první zdroj produktových informací. Když k nám přijde zákazník a nakupuje knihu, vidí možnost navrhnout nějakou úpravu – třeba že máme knihu špatně přiřazenou v kategorii. To je způsob, jak získáváme vstupy k prioritizaci – jestli lidé upozorňují více na špatné ceny, nebo špatně identifikovaný jazyk, nebo nesmyslné kategorie.

Když se podíváme na jednu konkrétní knihu, pokud vám pošlu svou knihovnu a tu jednu knihu – jak je ta moje kniha zahrnuta v databázi? Je tam pouze jeden řádek a…

Pokud chcete, můžu za vás text doplnit nebo upravit ještě víc, například stylisticky nebo formátovat pro lepší čitelnost.

Opravený text:

To, že se to propíše, je podkategorie v tom katalogu. Máme katalog a těchto knížek máme tři různé v této kvalitě? Nebo jak se to řeší v datovém světě? My máme každý produkt právě jednou, takže úplně nejnižší úroveň v databázi jsou konkrétní knihy, tím myslím ty konkrétní exempláře, které mají nějaký konkrétní stav – možná nějaký flek, podtrhané věci, vyznačené zvýrazňovačem, nebo třeba autorský podpis. Některé jsou pozitivní, jiné negativní, a hlavně tam máte vazbu na konkrétního člověka, který nám ji poslal. Nad tím potom existují z hlediska struktury ještě tři další vrstvy: první shrnuje knihy do stejného titulu, pak do clustru titulů, a nakonec je vrstva, která kombinuje všechny jazykové varianty pod sebou.

Ještě jsi zmiňovala, že kategorie podléhají tlakům z prodeje. Znamená to, že kategorizace není definitivní, že ji testujete metodou A/B testů, a není jasné, do které kategorie kniha patří, dokud nevíte, jak dobře se prodává? Teď sice používám slovo „kategorie“, ale myslím tím například žánr nebo demografii – třeba žánr je detektivka a jiný typ kategorie mohou být knihy pro děti. Přiřadit toto, když člověk o knize nic neví, není úplně jednoduché. Část z toho proto zajišťují lidé, kteří ty knihy zpracovávají podle svých znalostí – jsou totiž už velmi dobře obeznámeni s danými knihami, prošlo jim jich relativně hodně rukama, koukají na fotky a snaží se využívat i nějaké externí zdroje, aby to určovali co nejpřesněji. Je to pro nás takové poslední řešení, jak to má vypadat, a proto velkou část informací bereme právě z různých externích zdrojů, které navzájem porovnáváme, kombinujeme a snažíme se co nejlépe charakterizovat kategorii těmito procesy.

Když jsi popisovala tým, říkala jsi, že tam máte machine learning inženýra a čistého data scientista. Které z těch problémů řeší právě oni? Na čem konkrétně používáte machine learning a kde máte nastavená pravidla? Protože spousta věcí, o kterých jsme mluvili, působila spíš pravidlově – že je potřeba si nastavit pravidla pro katalog knih na několik let dopředu a pro několik zemí, a hodně rozhodování tam probíhá. Kde vám tedy pomáhá tradiční machine learning?

Aktuálně je velkým úkolem našeho machine learning inženýra porovnávání a identifikace stejných knih na základě jejich fotografií. Máme nasazený první proof of concept systému, který pomáhá identifikovat knihy, jež nejdou rozpoznat jednoduchými způsoby, právě na základě přebalů. Tam je ale spousta nástrah – například knihy nemusí mít přebal, jedna ho má, druhá ne, a tak dále. Těmito věcmi se aktuálně zabývá on.

Co se týče ostatních systémových prací, tak... (pokračování textu nebylo k dispozici).

Není to jednoduché, protože je to trochu jako případ hada, který si žere vlastní ocas. Když se snažíme rozpoznat, které knihy k sobě patří, jedním z parametrů, na které se můžeme zaměřit, je, zda mají stejného autora. Pokud mají stejného autora a dostatečně podobný název, hodně se opíráme o podobnosti a řekneme si, že k sobě patří. Naopak, když mají dvě knihy stejný název a dostatečně podobné jméno autora, řekneme si, že jde pravděpodobně o téhož autora. Parametrů, tedy features, které do toho vstupují, může být relativně hodně. Mohou to být kategorie, anotace, roky vydání, nakladatelství a další. Ale všechny tyto jednotky trpí podobnými problémy, takže cílem je vytvořit relativně složitý model a strukturu, která to všechno bude schopná zachytit a zpracovat.

To je srdce knihobotu – knihovní katalog, který je jádrem knihobotu. Vše se sbíhá k našemu katalogu, k vašemu datovému uroboru – rovněboros.

A teď máme poslední téma. Když už jsem otevřel NLP, v tomto podcastu ještě nezaznělo Generative AI, což v roce 2024 nemůžeme tak nechat. Spousta věcí, o kterých mluvíte, má jazykový charakter, takže si myslím, že u vás dávají smysl jazykové modely. Některé z těchto úkolů není třeba řešit vlastní neuronovou sítí, ale mohou je řešit velké modely. Jak to máte s LLMs?

My se samozřejmě snažíme hledat příležitosti a možnosti, jak tyto modely využít, ale zároveň se snažíme být relativně střízliví a používat je tam, kde si dost věříme, že výstup bude kvalitní. Naše výhoda je, že škály nejsou úplně obrovské. Když tady Jan Cibulka z Českého rozhlasu mluvil o tom, že LLM neumějí dobře shrnout texty – umějí je sice zkrátit, ale když jde o novinářskou práci, je to zásadní problém, protože shrnutí dlouhého článku do jednoho odstavce může být provedeno třemi různými způsoby a každý bude říkat něco jiného. U nás nejsou tyto škály tak vysoké, takže si můžeme dovolit nechat LLM zkrátit anotaci třeba o polovinu nebo výrazněji. V knihovně může být anotace i tří normostran vědeckého abstraktu, kterou je potřeba redukovat, a psát to ručně by bylo šílené. To je hezký příklad místa, kde to dává smysl. A když výstup není stoprocentní, není to tragédie – buď dostaneme zpětnou vazbu od člověka, že tam je nějaká halucinace, nebo máme nastaveny kontrolní mechanismy, aby to nebylo úplně špatné. Věříme, že je lepší mít důstojnou anotaci než žádnou, protože absence anotace je pro uživatele to největší odrazovadlo.

V čem vám třeba velké jazykové modely nepomohly, a očekávali jste, že pomohou?

My jsme zkoušeli, nebo stále zkoušíme, pracovat s AI implementacemi od třetích stran, což pro nás znamená určitou černou skříňku, což je leitmotiv této...

Tady je opravený a upravený text:

Ale vyprávění, že si děláme, co můžeme, tak si děláme sami. A protože tahle třetí strana nemůže dobře rozumět našemu případu a tím pádem ani nějakým vzorcům.

Náš případ je totiž specifický. Možná... Pochopili jsme to, možná, ale zase ne úplně, protože to máme docela složité. Není snadné například zkombinovat katalog 20 nebo více firem či značek v oblasti oblečení a poznat, že všechny produkty jsou třeba fotbalové ponožky. U nás mi to přijde o něco složitější. Když se pak snažíme použít LLM na nějaká data, která nemáme dostatečně prozkoumaná a očištěná – neproběhla tam poctivá práce s daty, která by už byla odladená – tak to nepřináší dobré výsledky.

V tomto ohledu tedy nejsme příliš odvážní a snažíme se k tomu přistupovat s opatrností a porozuměním. Teď mě napadlo jedno spíše anekdotické použití AI, ke kterému nakonec stejně nedošlo. Typickou součástí našeho brandu Knihobot je právě fotka knihy, kterou drží ruce člověka, když ji fotí. CTO pak navrhl, že u těch knih, které ještě nemáme skladem – tedy nemáme jejich fotku – bychom mohli nějakým způsobem například fotku vzít z externího zdroje a ten obrázek nějak zakomponovat do našeho vizuálu. Ne že bychom obrázek vytvářeli přes AI, ale spíš bychom to naroubovali.

Jenže zároveň nechceme, aby to vypadalo, že je to ten skutečný výtisk. Chceme být jasní, že když člověk kouká na fotku, tak se jedná o skutečný výtisk. A právě ruky AI neumí moc dobře vyfotit – často jsou to nějaké zkřivené ruce s devíti prsty v křeči, které drží fotografii. Takže to byla spíš taková kuchyňková diskuze.

Ale data, která nejsou očištěná, skutečně nefungují dobře. Naší výhodou je to, že některé procesy probíhaly manuálně – máme tedy aplikace a rozhraní, se kterými lidé pracují a dávají zpětnou vazbu algoritmům – zda výsledek je správný nebo ne. Když nasazujeme tyto věci, jako například rozpoznávání knih na základě jejich přebalů, můžeme mít Proof of Concept nastavený tak, že lidé nejdřív ty výsledky odsouhlasí, než systém necháme běžet samostatně.

Máme jednoduchou aplikaci ve Streamlitu, do které posíláme varianty modelů podle toho, jak se párují knihy podle různých modelů. Ti, kteří mají zkušenosti a know-how, nám pak zpětně hodnotí, co bylo úspěšnější, kde jsou problémy, a poskytují zpětnou vazbu, co funguje a co ne.

V tomhle ohledu si myslím, že máme drobnou výhodu oproti ostatním. Věřím, že jiné datové týmy si tyto tréninky musí dělat sami,

Pokud chceš, můžu ti s tím pomoct dál, například text strukturovat nebo zkrátit.

Jasně, tady je opravený text s plynulejším a správným jazykem:

My tam máme lidi, kteří tomu rozumějí a umí to rozhodnout. Že máte ty procesy, fyzický svět a tu zpětnou vazební smyčku, to je super. Ještě jsem se chtěl zeptat na ty anotace, o kterých jsi mluvila, na to zkrácení. Vzhledem k té roztříštěnosti toho stacku, probíhá tohle v GCP, v Google Cloudu, protože to je nejblíž webu? A je to u produktu tak, že když LLM pouštíte na zkracování anotací nebo vytváření nových, kde v tom stacku se to vlastně děje a kam se to propíše?

To je čistě v marketingové, v té poslední vizualizační vrstvě, ne?

Ne, to je právě při těch uploadech, při zpracování těch raw dat do produkční databáze. Takže ve finále s tím marketing pracuje, ale primární účel tohohle snažení je, aby to byla anotace na webu, což znamená, že to končí v produkční databázi.

Takže to je nástupní bod vlastně.

Přesně tak.

Aha, zajímavé.

Ve velké debatě Build vs. Buy, kde je jasně Build, na což asi potřebujete hodně lidí – co jsou další nástroje a výzvy, které budete muset vybudovat, a koho na to potřebujete?

Já si myslím, že potřebujeme lidi, kteří budou součástí té debaty, protože všechny problémy, které řešíme, jsou živé a rychle se vyvíjejí. S růstem byznysu se i mění. Takže nabíráme relativně hodně, řekla bych. Bojím se, že než tenhle podcast vyjde, bude to úplně jinak, takže radši nebudu zacházet do konkrétností. Máme kariérní stránky, kde je teď podle mě vyvěšeno desítky pozic. A povahou toho, co děláme, si myslím, že každá pozice má do jisté míry datovou složku. V rámci náborového řízení teď budeme požadovat od kohokoliv nějaké datové minimum, takže na tom teď pracujeme. Datových a analytických lidí vítáme s otevřenou náručí do různých týmů.

A co je tvoje velká výzva na příští rok? Co je ten hlavní cíl? Zase postupné, kontinuální zlepšování všeho, o čem jsme mluvili, zejména katalogu, nebo jsou tam nějaké další velké výzvy, na které bys pozvala nové kolegy?

Velké výzvy jsou, zároveň se priority relativně často mění. Já bych spíš řekla, že jde o postupné vylepšování a rychlá řešení problémů, které nás aktuálně pálí. Ale některé velké výzvy jsou například zopakování a vytvoření modelů, které nám v reálném čase pomohou identifikovat a zařazovat knížky v rámci katalogu.

Děkujeme moc, držíme palce a věřím, že až se potkáme třeba za rok nebo dva znova, knihobot bude dvacetkrát větší a typ problémů zase o něco zajímavější.

Díky moc, Markét, že jsi nám tady udělala exkurzi.

Díky za rozhovor.

Já děkuju.

Děkujeme, že jste doposlouchali až sem. Díky taky našim partnerům, členům Data Talk klubu, kterými jsou Intex, Saska, Bystreet, Colors of Data, Revolt BI, GoodData, Keboola, Emark, Carl Data Company, Datamind, Notino a Flow. A pokud chcete zůstat v obraze, co se české datové scény a glo...

Pokud chceš, můžu pokračovat nebo text ještě více upravit.

Opravený text:

Co se týče bálních datových technologií, nezapomeňte se zaregistrovat k odběru našeho týdenního newsletteru na datatalk.cz. Nechť vás provázejí data.

Podcast

Data Talk #113: Markéta Patáková (Knihobot)

Strojový přepis

Odebírejte Data Talk