Podcast

Data Talk #17: Jakub Dobiáš & Thomas Stvarnik (11 Hacks)

epizoda#17 |  vyšlo  |  délka  | 605 poslechů |   |  mp3

Hosty podcastu Data Talk byli Jakub Dobiáš, founder & CEO 11 Hacks a jeho kolega Thomas Stvarnik, programátor, který má k datům v 11 Hacks nejblíž.  Hlavním tématem je fotbal, resp. herní a hráčská data. 11 Hacks totiž  fotbalovým týmům, svazům i hráčům nabízí analytické služby, typicky datový skauting. Jak změnila datová analýza nejpopulárnější sport planety? Jak vypadá fotbalový moneyball po česku? A proč chytré týmy nestřílí z dálky a střely z dálky neblokují? To se dozvíte v tomto díle Data Talku!

Strojový přepis

Dobrý den, jmenuji se Jirka Vecherák a vítám vás u dalšího dílu Data Talku. Dnes zde mám skvělé hosty, dva kolegy z firmy Eleven Hacks, Kubu a Tomáše. Ahoj, díky za pozvání.

My se dnes budeme věnovat sportovní analytice, konkrétně fotbalu a tomu, jak analyzovat výkony jednotlivých hráčů, jejich přínos pro tým a jeho hru. Ještě než se pustíme do tohoto velmi zajímavého tématu, které bylo i na Datemeši, kde Kuba přednášel, velice úspěšné a oblíbené, pojďme se nejprve podívat na vás samotné.

Začneme asi Kubou, spoluzakladatelem Eleven Hacks. Jak ses vlastně dostal k takovému oboru, jako je skórování a analýza fotbalových hráčů?

Já jsem náhodou většinu své pracovní kariéry řešil hry a to, co je v těch hrách dobré dělat. V osmnácti letech jsem se rozhodl, že nepůjdu na vysokou školu, a začal jsem se živit pokerem. Jezdil jsem po různých mistrovstvích světa, například na VESOP, což je mistrovství světa v pokeru. V té komunitě bylo mnoho lidí, kteří milovali fotbal, a často jsme řešili, co se ve fotbale děje, abychom pochopili, jaká je ta hra a co je v ní důležité dělat – podobně jako při rozebírání šachu.

Poté jsem přešel do firmy Nanoenergies, kde fungoval podobný princip. Obchodoval jsem na energetické burze, což je opět hra, kde analyzujete informace a musíte je správně vyhodnotit. V roce 2016 nebo 2017 koupila slávistický fotbalový klub čínská firma CFC. Tehdy jsem si řekl, že budou dělat hodně přestupů a budou klub přestavovat, takže jsem jim přišel nabídnout pomoc, aby se dělalo méně chyb při přestupech.

Naštěstí první přestup byl extrémně úspěšný – šlo o hráče Michala Ngadeu. Díky tomu vznikl celý náš obchodní model a tak založili Eleven Hacks.

Kdy se k vám přidal Tomáš? Tomáši, jaká je tvoje cesta k Eleven Hacks a fotbalové analytice?

Moje cesta k fotbalové analytice byla taková, že Eleven Hacks hledali kanceláře a líbil se jim byt, který pronajímá moje maminka. Ta jim nabídla, jestli náhodou nehledají programátora, že bych si tam mohl najít brigádu během školy. Šel jsem na pohovor a tam vás asi může Kuba převyprávět.

Ano, samozřejmě jsme byli trochu skeptičtí, když nám nájemce říkal, že jeho syn programuje a prosí, abychom ho vyzkoušeli, ale řekli jsme si, že nemáme co ztratit. Tomáš pohovor zvládl perfektně, až nás překvapil, jak ve svém věku dokáže řešit složité úlohy, které nikdy předtím nedělal. Jsme s ním nadšení dodnes. Pravděpodobně nejlepší najímání, které jsem kdy provedl na základě doporučení od nájemce kanceláří.

To je skvělé, takové rande naslepo, které dopadlo výborně. Jak dlouho už tedy děláš pro Eleven Hacks?

Myslím, že to jsou tři roky.

Stále ke studiu?

Ano, ještě studuju.

Výborně. A v Eleven Hacks máš na starosti zejména vývoj?

Ano, hlavně přípravu dat a také jak bude fungovat a vypadat platforma, kterou připravujeme.

Dobře, a dostáváme se k Eleven Hacks. Když říkáte, že připravujete platformu, co vlastně Eleven Hacks dneska je?

Aktuálně jsme konzultační firma, naším cílem je stát se softwarovou společností, ale abychom mohli zaplatit programátory, kteří jsou dnes velmi drahí, konzultujeme. Máme klienta, což je fotbalový klub, ten za námi přijde s otázkou například: „Je přestupové okno, co bychom měli udělat za přestupy? Můžete nám doporučit dobré hráče?“ Nebo: „Hrajeme takovou a takovou strategii. Co bychom měli dělat jinak? Jak máme rozehrávat, kde by měli být hráči, jak dostat míč do vápna ve finální třetině?“

My využíváme data, videoanalytiku a děláme analýzu konceptu celé strategie. Doporučíme, co by měli dělat a jaké hráče podepisovat. Zatím jsme tedy konzultační firmou, ale protože tento model není škálovatelný, připravujeme platformu, která tuto práci nahradí.

To je skvělé. Jak jste velcí, kdo jsou vaši klienti a jak si to máme představit?

Máme zhruba pět až šest klubů, například Dunajskou Stredu, spolupracovali jsme se Slavií, Legií Varšava a podobnými kluby této velikosti. Nechceme mířit na kluby Premier League typu Manchester United, protože takové kluby si mohou pořídit desítky analytiků a budovat tým sami. Naším cílem je pomáhat menším týmům, které si nemohou dovolit vlastní analytické oddělení, aby mohly dělat chytrá rozhodnutí a zlepšit svou hru.

Pojďme se tedy podívat na to, jak tento svět analytiky vypadá. Jsem velkým fanouškem filmu Moneyball a Bretta Pitta jako herce obecně, a pro mě byla ta kniha i film velkým hlubokým ponorem do tématu, jak změnil celý tento obor. Přitom se děj odehrává v 80. nebo 90. letech?

V 2000. letech, není to tak dávno.

Ano, máš pravdu. Přesto jsem myslel, že dnes už je toto standard, že všechny kluby v lize přijaly tuto metodu a dívají se na fotbal touto optikou. Jaký je nyní stav?

Jen doplním k Moneyballu, že v baseballu bylo hodně statistik, ale nikdo neuměl správně spojit statistiky, které by ukázaly skutečný přínos pro vítězství zápasu. Hodnotily se například věci, které s výsledkem zápasu nesouvisely. Náš přístup k fotbalu je podobný, my počítáme pravděpodobnost, zda padne gól nebo ne.

Současný stav je stále na úplném začátku. V anglické Premier League jsou příběhy jako Leicester, který díky datům vyhrál ligu, Red Bull Lipsko či Salzburg, a Liverpool, kteří trh mění a upravují strategie, ale stále je to teprve počáteční fáze. V České republice či mezi našimi klienty to není tak, že by někdo zásadně změnil fotbalovou hru a získal obrovskou výhodu. Lidé spíš uvažují v tom smyslu: „Tohle mi usnadní práci, tohle je jednodušší verze starého systému a vyplatí se to finančně,“ než že by se snažili být inovativní a jít po skutečných výhodách.

Jak tedy řeší data? Používají je vůbec?

Mnoho týmů pracuje s běžeckými daty, zejména v Česku, protože máme dobrou fyzickou přípravu. Je to jednodušší analýza – vidíte uběhnuté kilometry, kilometry vysokou rychlostí apod. Ale pokročilá data, která my používáme k hodnocení, kdo je dobrý či špatný hráč, neexistují. Existuje základní model zvaný Expected Goals (předpokládané góly), který například Sky Sports v každém zápase ukazuje, stejně jako německá Bundesliga. V Česku by trenéři asi tři či čtyři dokázali vysvětlit, co to znamená.

Je zřejmé, že vývoj v profesionální Anglii je diametrálně odlišný od situace u nás nebo například v Polsku či na Slovensku, kde je to stále úplný začátek.

Jaký je tedy první krok, když přijdete do klubu na konzultaci? Obvykle se věnujete přestupům?

Většinou jde o řešení konkrétního problému, který mají. Zajímá nás, co v dané chvíli třeba nejvíce ovlivňuje herní výkon.

Pocitově se říká, že za herní výkon je hlavní zodpovědný trenér, ale ve skutečnosti to jsou hráči. Když přijdeme, můžeme například říci: „Máte špatného pravého obránce, který nezvládá bránit, když ho soupeř přehraje. Buď ho musíme naučit, jak na to, anebo musíme najít vhodnějšího hráče, kterého nasadíme proti soupeřům využívajícím jeho slabinu.“ Podle toho pak radíme v prvním přestupovém okně.

Druhým krokem je dlouhodobá strategie, jak by tým měl hrát. V mnoha případech vidí trenéři problémy v taktice – například tým příliš drží balón a hra nefunguje, takže přijde trenér, který zavede starší, jednodušší, oldschoolovou hru, hodně nakopávání míče. Je to však špatně, protože hráči jsou trénovaní na jinou strategii a nová jim nevyhovuje. Je třeba vytvořit týmovou filozofii, kterou bude vlastnit klub, nikoli trenér. Tento systém vydrží deset let a každý trenér pokračuje v jeho rozvoji.

Otázka: Jak tedy poznáš, že pravý obránce pouští za sebe soupeřovy útočníky? Nejsem příliš znalec fotbalu, takže mě to zajímá – kde v datech tyto problémy vidíš a jak data vznikají?

Generujeme si vizualizaci hřiště, kde vidíme, ze kterých prostor klub inkasuje šance. Z toho zjistíme, že například daný prostor se brání nejhůř v lize oproti průměru. Takže data znamenají okamžitou pomoc, bez nutnosti nejprve sledovat video. Vidíme, kde je problém, a pak se podíváme na video, zaměříme se na posledních pět zápasů. S tužkou a papírem potom poznamenávám, například, že obránce nezachytil náběh soupeře a hledám příčiny a následky.

Například Sparta řešila problém, že když tam hrál Michal Kadlec, hráli vysokou obranu s staršími stopery, ale hlavní problém byl ve skutečnosti u pravého obránce Karavajeva, který stál extrémně vysoko, což způsobovalo problémy, jež působily pomalejší stopery nepřipravené a zdáli se nevhodní. Trénink však správný problém neřešil.

Kuba tedy generuje vizualizaci hřiště s daty. Kde tato data vznikají? Tagujete videa manuálně, nebo jak se data do systému dostanou?

My data netagujeme manuálně. Data kupujeme od firmy Wisecout, která je dodává ve základní formě. My si je převádíme, ukládáme relevantní věci do databáze. Některé eventy ukládáme jako CSV soubory do Blob Storage. S daty pak pracuji v prostředí Databricks, kde si je načítám.

Nejprve tato data převedeme do formátu Parquet, což je velmi šikovný formát obsahující dodatečné informace. Pomocí PySpark využíváme statistiky obsažené v tomto formátu. Ten umožňuje rychlejší agregace, například minimum, maximum, protože nemusíme procházet všechny řádky, což je efektivnější než při práci s CSV.

Říkali jste eventy. Co je tam přesně? Jsou to data na úrovni hráče, zápasu, nebo jde o databázi, kde se sledují všechny fotbalové ligy a pak se prodávají?

Tato data vznikají z platformy Wisecout, která je videoplatformou. Když si chcete pustit například všechny driblingy Lionela Messiho za jeho kariéru, jdete do této platformy, kde jsou videa připravená. Aby mohli takovéto video platformy fungovat, musí videa značit (tagovat), tedy označovat události ve hře.

Vedlejším produktem této práce je tzv. scénář celého zápasu – jsou tam případy úspěšných přihrávek z bodu A do bodu B na souřadnicích X a Y. My si těchto scénářů koupíme celé množství a na základě nich pak vytváříme vlastní statistiky a modely.

Co vlastně znamená „koupit si scénář“? Znamená to skutečně toto – první vteřina zápasu, přihrávka z bodu X do bodu Y, úspěšná, průniková, s tagy?

Ano, přesně tak. Celý zápas je popsán touto formou. Je to jako simulace. Když v Matrixu někdo „čte“ děj, my vlastně máme přesný popis zápasu, takže můžeme snadno analyzovat, co se v něm dělo, a pak to dále zpracovávají naši analytici.

Když se vrátím k tomu Parquet file a jeho efektivitě – používáte PySpark pro ukládání a výpočty, pak data ukládáte do relační databáze a následně je načítáte do vizualizací na frontendu.

Ano, děláme to tak. Vizualizace jsou připravené například s knihovnou D3, což dělá data uživatelsky přívětivá. Snažíme se, aby byla přístupná různým uživatelům – scoutům, analytikům, kteří mají různé preference. Někdo chce tabulky, někdo grafy, chceme, aby to byla univerzální platforma, kterou může používat kdokoliv ve fotbalových týmech.

Používáte nějaké indikátory, například semafory?

Máme tzv. signature radar, kde porovnáváme, jak daný hráč daný úkol plní… (pokračování).

Á, ve srovnání se všemi ostatními hráči, které máme v databázi. Takže si tam hrajeme s percentily, vlastně sledujeme, že máš tři střely za 90 minut, ale člověk na této pozici má jich třeba v průměru víc. Takže je tam hezky vidět, jestli ten hráč danou věc dělá více nebo méně. V tom velkém kontextu kluci mají několik metrik a za jejich pomoci určují vlastnosti hráče.

My jsme šli takovým vývojem, že na začátku jsme se snažili dělat naprosto to, co dělaly všechny ostatní konkurenční firmy. To pro nás znamenalo, že jsme vytvářeli software, platformu, která se dá používat, a zjistili jsme zhruba před dvěma až rokem a půl, že se vlastně snažíme o to, co trh vůbec nechce, nebo co chce ten trh, který dělá pro Manchester United a pro takto veliké kluby.

Přišli jsme na přemýšlení ve stylu: jaké je to nejmenší minimum věcí, které musím dát, aby to bylo opravdu jednoduché na používání? Protože celkový uživatel chce, aby to bylo velmi jednoduché. Aby prostě přišel, není to ten hlavní uživatel, který chce v tom hrát, klikat si pětadvacet věcí a najít si přesně vizualizaci, která mu sedí na jeho příběh. Finální uživatel potřebuje velmi rychlou a jednoduchou informaci.

Takže jsme přišli na to, že to uděláme co nejjednodušší, s co nejmenším počtem věcí navíc. U každé věci, kterou chceme přidat, se ptáme, jestli je nutné ji přidat. Jestli to platformu tolik vylepší, že přidáme další atribut nebo nastavení. A opravdu jsme začali hodně zjednodušovat, dokonce jsme zahodili frontend, který jsme dělali dva roky, a začali jsme to dělat znovu. Teď jsme s tím extrémně spokojeni a konečně i cílíme.

Nevím, jak to mají ostatní startupy, ale my jsme dělali spoustu chyb, tomu rozumím. Když mluvíš o platformě a produktu, jak je to teď? Jak často a kdo používá vaši platformu? Kdo má váš home screen zalogovaný a otevírá to každé ráno jako Asanu? Například vidí pohyb hráčů nebo jaký je aktuální use case, to mínimum?

Teď jsme ve fázi, kdy platformu teprve dáváme klientům jako přidanou hodnotu, takže ji zatím nejvíce používáme my sami. Aktuálně je platforma nejvíce postavená pro scouty. To znamená, že když jsem někde na fotbale a koukám na Žižkov nebo Jablonec, vidím, že tam je zajímavý hráč, který udělal dvě zajímavé věci, jak je dobrý. Otevřu si platformu, zadám jeho jméno a vidím, že například umí velmi dobře bránit, je dobrý jeden na jednoho, ale má problém s tím, že brání příliš vysoko. Můžu se rovnou zaměřit na to, že ten hráč dělá něco, co my sledujeme jako problém.

V tomhle je platforma aktuálně nejvyužitelnější. Do budoucna by to mělo být i tak, že přijde trenér, dohráli zápas a chce se podívat, jak zápas vypadal. Na jeden klik mu platforma vytvoří devět vizualizací z daného zápasu – těch nejdůležitějších – a okamžitě tak vidí, co se v zápasu dělo podle datové analýzy a co má dát za feedback hráčům.

Ano, je to relevantní a objektivnější než subjektivní názor.

Přesně tak. Data často fungují jako hypotézy. Ve fotbale je nejdůležitější najít konkrétní situaci na videu. Když hráčům ukážu jen vizualizaci, nefunguje to tak dobře jako ukázání dané situace přímo na videu. Data slouží hlavně jako hypotéza ve smyslu: „Děje se na hřišti toto, nebo máme pocit, že se děje tamto.“ A pak se video analyzuje, jestli se to opravdu děje, nebo co je příčina. Hledáme otázky a funguje to jako nejlepší krok.

To je skvělé. Ve mně se pere odborné know-how a doménová znalost, protože abych mohl říct, že vysoké bránění je špatně – doufám, že to říkám správně – tak to přece musíš vědět. Nesmějte se mi. Nebo to ti vyplivne engine, který ti ukáže, že tohle, co jsi doteď považoval za relevantní strategii, vlastně není správné.

Předpokládám, že vy máte pár konzultačních hypotéz, ke kterým často docházíte?

Ano, hodně toho vyplivne engine, ale člověk musí umět číst vizualizace, což je největší mezikrok. Nejhodnotnější jsou lidé na trhu, kteří dokážou trenérům dobře vysvětlit informace z dat. Proto extrémně zjednodušujeme, aby se informace dala rychle najít a nebylo tam příliš rušivých prvků.

Proto dáváme všude hodně vysvětlujících poznámek. Například u krajního obránce máme popsanou statistiku, jak moc hráč tvoří šance a co to znamená pro danou pozici. Máme přímočarost, případně když je přímočarost vysoká, znamená to, že hráč hodně kopá míče dopředu bez přemýšlení. Když je nízká, znamená to, že hraje většinou dozadu nebo do strany, téměř neútočí.

Takže kritéria jsou nastavena pro jednotlivé pozice?

Ano, přesně tak. Každá pozice má jiné úkoly. Nezastávám názor, aby se hráč zhodnotil jedním číslem. Například krajní obránce, který hodně brání, a krajní obránce, který hodně útočí, jsou různí a je těžké říct, který je lepší, protože každý má jiný úkol.

Moje další otázka směřuje k tomu, že až se produkt podaří a budete ho škálovat, plánujete rozšíření do dalších sportů nebo vertikál? Bude to vždycky něco pro fotbal, protože ho znáte, nebo se pokusíte to univerzalizovat?

Mindset a přístup k analýze sportu jsou přenositelný na ostatní sporty. Některé sporty, například tenis, mají specifika, ale věděli bychom, jak postavit datovou analýzu a rozebrat hráče, kde získává body a jaké jsou jeho silné a slabé stránky.

Bude to tedy použitelná metodika i pro ostatní sporty. Už jsme například byli osloveni na hokej, ale to by bylo úplně jiné podnikání, takže si to zatím nedovedu představit. Fotbal je stále na začátku.

Před třemi lety někdo zjistil, jak zneužít standardní situace, a díky tomu malé mužstvo jako Karviná vyhrálo ligu. Jiní stále mají strategie, které se nezměnily, například Liverpool přestává blokovat střely z dálky, zatímco já jako hráč bych byl ihned vystřídán, kdybych takhle neblokoval střelu. Oni raději ustoupí, aby střela byla co nejméně nebezpečná.

Základní strategické koncepty tedy ve fotbale ještě nebyly výrazně změněny a myslím, že se sport bude dále měnit díky tomuto vývoji, i když nevím, jak hluboké změny přinese.

Tomáši, jsi velký fanoušek fotbalu? Bylo to to, co tě táhlo do oboru?

Úplně ne. Jako malý jsem hrál hokej, takže jsem byl spíš fanouškem hokeje. Ale pozvolna se ze mě stává fanoušek fotbalu, čím víc tomu věnuji čas a jsem v prostředí, tím víc mě to zajímá.

Ptám se proto, jestli si myslíš, že se fotbal stane něčím podobným jako šachy – že se strategie zcela změní a po nějakém čase bude nutné mít k dispozici AI nebo engine, bez kterých nebude možné hrát na špičkové úrovni?

Fotbal je mnohem, mnohem komplexnější než šachy, a proto to nepůjde dělat tak jednoduše. Ani v šachách neexistuje jedna optimální strategie nebo jeden neporazitelný opening, a pravděpodobně taková stratégie nepřijde ani během deseti let díky limitům výpočetní síly.

A je to podobné i u fotbalu. Když se vytvoří jedna strategie, hned vznikne protistrategie, která ji využívá. Proto jsou fotbal a šachy překvapivě podobné.

Je důležité, jak tým drží střed hřiště, protože je to nejcennější prostor. Mezi středem a kraji jsou pak dva mezistřední prostory, které mohou být nebezpečnější než samotný střed díky tomu, jak je hráč natočený.

Co znamená, že hráč je „vytočený“?

Když jsem přímo uprostřed a držím míč, většinou se natočím mírně doprava nebo doleva, takže vidím přibližně polovinu hřiště. Pokud jsem o deset metrů víc nalevo a otočím se doprava, vidím celou bránu a větší část hřiště. Tento prostor je proto nebezpečnější než samotný střed, kde je držení míče podle dat nejhodnotnější.

Ačkoli ze středu je to nejblíže k bráně, takže držení míče tam má největší hodnotu.

Dnes je strategie často „hrávejte co nejvíce středem“, ale na mistrovství světa vidíme, že to nejde, protože týmy jsou extrémně kompaktní a blízko sebe. Proto se strategie mění a týmy musí hrát přes strany.

Každá strategie má také svoji protistrategii. Guardiola například přišel s extrémním držení míče a krátkými přihrávkami – často má 75 % držení míče v zápase. Na to přišel německý pressing, který se snaží tým rychle vypresovat pomocí intenzivního běhání a tlakové hry.

Tyto strategie často jdou proti sobě. Nemyslím si, že přijde dominantní strategie, spíše to bude znamenat, že hráči musí být stále chytřejší v tom, kde mají být a jak se rozhodovat.

To si myslím, že bude další trend.

Kdy přichází k hráči samotnému výsledky vaší práce?

Funguje to tak, že v rámci strategie trenéra začnou používat data, nebo má hráč vlastní profil, kde sleduje, na čem pracuje a co má hodnotné rozvíjet? Funguje to i takhle?

Ano, funguje. Spoustě hráčům děláme konzultace, často zavolá agent hráče a žádá o analýzu. Podíváme se do dat, řekneme, co hráč dělá dobře a co špatně.

Následně hráč dostane i videoanalýzu a řekneme mu třeba: „Ty tvoříš šance, průměrně desetiprocentní šanci na gól za zápas. Chceme, abys to zlepšil na patnáct procent.“ Předáme mu strategie, jak na to. Třeba, že víc přebírá míč dopředu a nehraje konzervativně, nebát se ztráty.

Ukážeme mu na podobném hráči podle dat, který takto hraje lépe. Například ne na Messiho – ten je specifický – ale na někom, kdo hraje podobně.

Pak dostane datový úkol a vidí se s ním ve skupině hráčů, kde je teď a kam se chce posunout. Po dvou měsících vyhodnotíme výsledky, a funguje to skvěle.

V Čechách hráči nedostávají moc feedbacku, protože trenérské týmy jsou poddimenzované. Není čas připravit každý měsíc video a asistovat daty. Obvykle po zápase projdou dva klipy a agenti si platí tento servis navíc, je to velmi úspěšné.

Hráči rychle přestupují výš, protože pravidelný dobrý feedback zlepšuje jejich výkon.

Jak se dostanete k tomu feedbacku? Máte data z API, videozáznamy, data jsou digitalizovaná – co s tím potom děláte? Stačí koupit API?

Ano, a nad tím máme vlastní insight, know-how, vlastní EIP, předpokládám. Co se s daty potom děje? Je to jen vizualizace, nebo máte vlastní model, jak se díváte na fotbal a hráče?

Určitě máme mnoho modelů. Dostáváme základní statistiky, ale občas je upravujeme, protože některé značky v základních datech nejsou dostatečné. Někdy si děláme tagy v datech podle sebe.

Máte nějaký příklad takové úpravy?

Ano, například u získaných míčů. Ve standardních statistikách vidíte, že hráč získá tolik a tolik míčů za zápas. Ale tato informace je často irelevantní, protože tým s nízkým držením míče má více příležitostí míč získat.

Proto musíme tým uměle vyrovnat na 50% držení míče. Pak je informace o získání míče o něco relevantnější.

Dále ale hodnotíme, jak je důležitý ten získaný míč pro tým. Pokud hráč získá balón ve středu vápna, kde je 25% šance na inkasování gólu, je to mnohem hodnotnější než získání balónu u postranní čáry, kde je dopad na šanci gólu jen 1 %.

Tímhle způsobem si vezmeme základní statistiky a upravíme je tak, aby co nejvíc vystihovaly skutečnost ve fotbale.

Nejde jen o náš subjektivní pohled, ale snažíme se dohledat, co opravdu zvyšuje šance na vstřelení nebo inkasování gólu.

Al, který vlastně určuje vítěze. My občas používáme komplexnější metriky, například GPA (Goal Probability Added), která bere v úvahu okolnosti hry, co se předtím odehrálo, a kam míč směřuje. Přisuzujeme tomu určitou hodnotu. Hráč vykoná během zápasu přibližně 300–400 takových akcí a my dokážeme spočítat, o kolik jeho činy a pohyby zvýšily nebo snížily pravděpodobnost vstřelení či inkasování gólu. Takže se nejedná jen o to, že někdo vystřelil třikrát za zápas, ale o komplexnější modely strojového učení a podobně.

Váš model fotbalu je tedy založen na tom, kdo vstřelí více gólů? Připadá mi to trochu zjednodušující nebo „agresivní“, protože se nedíváte na obranu? Je to taková protiváha? Nebo jde o gain-loss funkci? Máte třeba i pojem přihrávky nebo něco podobného? Co je vlastně nejlepší rozhodnutí?

My si rozdělíme přihrávky do osmdesáti typů, například vysoký centr, průniková přihrávka a podobně. Pak sledujeme všechny přihrávky daného hráče a analyzujeme, co následuje, když vykoná daný typ přihrávky. Pokud například hráč odehraje deset přihrávek a osm z nich ztratí, znamená to, že situaci týmu zhoršil, protože ztratil 8× 1% equity. Na druhou stranu dvě přihrávky, které vedly ke dvěma 30% šancím, vyváží tento propad. Tento přístup lze aplikovat na libovolnou herní situaci, takže nás nezajímá pouze, zda hráč vstřelí gól, ale i to, zda přispěje k neinkasování gólu. Vše dopočítáváme směrem k pravděpodobnostem vytváření šancí v daných situacích.

Jak jste tedy dospěli ke klasifikaci těch osmdesáti typů přihrávek? Vznikly manuálně? Je to nějaký standardní úzus, že tento typ přihrávky je definovaný? Vznikají nové typy?

Existují ve skutečnosti dvě metody. První je nechat klasifikaci provést plně automaticky počítačem, který si přihrávky vybírá podle definovaných charakteristik. Druhá možnost je ruční kategorizace. My jsme přešli na kombinovaný přístup, poloautomatický, protože jsme to viděli u kolegů a zkusili to podobně. Nechali jsme počítač označit potenciálně zajímavé vzory a přidali vlastní kritéria důležitá z hlediska taktiky. Například existují typy přihrávek, které trenéři chtějí analyzovat, ale počítač je nevnímá jako podstatné. My jim však podle našeho takticky zaměřeného know-how přisuzujeme velký význam. Počítač tedy hledá „tagy“, zatímco my pracujeme se zónami, kontakty a dokážeme hodnotit detaily.

Je tedy mezi tím, co zaznamenává „machine learning“, a tím, co trenéři považují za důležité, značný rozdíl?

Ano, fotbalová komunita je uzavřená a existuje velký propad mezi tím, jak analytik vnímá fotbal a jak ho vidí lidé, kteří v něm aktivně pracují a mají dlouholeté zkušenosti. Přizpůsobujeme se tomuto jazyku, protože informace musí být pro trenéra použitelné. Museli jsme se naučit jejich terminologii, která stále není dokonalá, a při prezentacích často zvažujeme, jak by bylo lepší to říct trenérům, aby jim to dávalo smysl a mohli to snadno přijmout.

Často jsem o tom přemýšlel, když jsem přišel do Slavie. Na první tiskové konferenci mě představovali jako programátora, což pro ně znamenalo někoho, kdo přijde s Excelovou tabulkou. Rozdíl mezi světem startupů a fotbalem je obrovský, což přináší překážky, ale také skvělé příležitosti. Předtím jsem pracoval v tradingu, kde je dobré zlepšit výsledky o jedno či dvě procenta. Ve fotbale je však prostor pro zlepšení o stovky procent, což je fascinující.

Jak jste to tedy změnili? Jaké máte úspěchy? Čím se můžete pochlubit? Jaký je rozdíl před a po Eleven Hacks nebo algo tradingu hráčů?

Bohužel se ještě nepodařilo změnit strategie, protože od vedení jsme ještě nedostali plnou důvěru – řekněme „klíče od auta“. Přesto máme úspěchy. Když jsem přišel do Slavie, byla na osmém místě. Od té doby jsme vyhráli dva tituly, nějaké poháry a dostali se do Evropy. Byl jsem součástí toho úspěchu, i když samozřejmě díky i finančnímu zajištění a práci týmu.

Ve fotbale se totiž děje stovka důležitých rozhodnutí ročně. Většina týmů udělá přibližně polovinu rozhodnutí špatně. Překvapilo mě, jak moc se klub zlepšil, když jsme dokázali zvýšit počet správných rozhodnutí na 75 %. V tomto oboru je obrovský prostor ke zlepšení, protože lidi zatím nedělají efektivní rozhodnutí.

Často najdeme hráče, o kterém nikdo neslyšel, a ten se pak stane nejlepším střelcem ligy. Nedávno jsme například doporučili hráče Almáši do Baníku Ostrava. První sezónu se stal prvním nebo druhým nejlepším střelcem ligy, což je obrovský úspěch, zejména vzhledem k tomu, že šlo o hráče neznámého na českém trhu.

Dále jsme doporučili útočníka Fortune Bassey do Českých Budějovic. Ten přišel zadarmo z druhé české ligy a o rok později byl prodán za 1,6 milionu eur, což byl největší přestup v historii klubu. Navíc je to velmi dobrý a vděčný člověk, se kterým jsme pracovali na tréninku mindsetu. Z afrických hráčů, které často doporučujeme, protože se hodí do českého fotbalu díky fyzické připravenosti, je znát velká vděčnost a pokora za příležitost. Mají opravdu rád tu pomoc a váží si jí, což je lidská stránka, která je velmi příjemná.

Jak probíhá hledání takového hráče? Je to projekt na dva dny? Spustíte algoritmus na databázi a hledáte podle čtyř aspektů ve hře? Nebo je to složitější?

Princip je takový, že do databáze zadáte priority a vyberete soutěže, ze kterých chcete hráče hledat. Databázi máme přibližně se 120 či 130 soutěžemi, což je méně než dříve, ale pořád dost. Poté zadáte kritéria jako schopnost dávat góly, hrát zády k brance, umět jeden na jednoho, rychlost a podobně.

Systém pak vytvoří seznam hráčů, které si prohlížíte, včetně délky smluv. Vznikne shortlist, který předáte skautům, jež hrají klíčovou roli: podívají se na video, zhodnotí hráče. Ve fotbale se často stává, že hráč dá deset gólů jedním stylem, a když ho přivedete do jiného týmu, kde se nepoužívá stejný herní systém, může být neefektivní. Většina týmů tuto úroveň detailu neprohlubuje. Podívají se, jestli dává góly, a pokud ano, rovnou ho vezmou. Mezi podporou rozhodnutí daty nebo jenom pocitem je obrovský rozdíl.

Co nám data říkají o českém fotbalu?

Češi mají nejméně přihrávek na zápas ze všech lig, které sledujeme. Na druhou stranu jsou perfektně fyzicky připravení. To však vytváří problém, který já nazývám „šebrle“. Hráči umí všechno a mají vysokou fyzickou úroveň, ale technická stránka hry je nedostatečná. Nemáme dostatečně technické hráče, aby kontrolovali balón v rychlém tempu. Když má jeden tým hodně běhavých hráčů, musí soupeř lépe kontrolovat míč, aby mohl tvořit, ale my toho nejsme schopní.

Máme šestý nejvyšší počet sprintů z těch všech lig, což je extrémní. Jsme fyzicky připraveni lépe než třeba některé týmy z Bundesligy. Nicméně technická stránka českých hráčů není dostatečná, protože vybíráme atlety, kteří bohužel technicky zaostávají. Když pak hrajeme v Evropě, máme výhodu v početní převaze a rychlosti, ale pokud by se muselo hrát proti kompaktnímu bloku vyžadujícímu technickou přesnost, je to velmi těžké.

To je velmi zajímavý postřeh, zejména pro někoho, kdo fotbal běžně nesleduje. Co jsou další věci, které člověk nečeká, pokud fotbal nedělá?

Zajímavý je obrovský dopad brankářů na výsledky. Na trhu se za ně utrácí nejméně peněz, přestože jde o specializovanou pozici. Komunita jim však příliš nerozumí, proto se jim nedostává pozornosti. Všichni vědí, že brankář musí umět chytat, ale málokdo umí jeho výkony objektivně vyhodnotit.

Po útočníkovi je totiž pozice brankáře tou, která může nejvíce ovlivnit počet bodů. Rozdíl mezi nejlepším a nejhorším brankářem v české lize je až 16 bodů, což může rozhodovat o titulu nebo boji o záchranu. Průměrný tým se špatným brankářem téměř vždy klesne v tabulce níže.

Mění se situace u brankářů? Vidíte, že jejich platy rostou či se pozice mění?

Vidíme, že týmy, které nejvíc využívají analytiku, do brankářů stále více investují. Například Liverpool koupil brankáře za rekordní částku. Liverpool byl v předchozích letech nejefektivnějším týmem v využívání dat. Měli datového analytika, který se stal generálním ředitelem, Michael Edwards, a šli cestou bourání různých mýtů. Úplně změnili strategii na základě dat.

Jejich styl vycházeli z konceptu, že středy hřiště jsou hodnotnější, ale těžší k obsazení. Proto často posílali míč na strany a pak nakopávali centr do středu. Nebylo cílem dát gól z toho centru, ale získat balón z odražených míčů v dobrých prostorách a ihned tvořit nebezpečné situace. Takže jejich strategie byla uměle vytvářet chaos, ve kterém dominovali díky hráčům schopným okamžitě získávat míč. Takovou strategii před nimi nikdo nedělal.

Vidíte další zajímavé taktiky založené na algoritmech?

Určitě. Standardní situace, třeba rohy nebo auty, byly dřív považovány za okrajové záležitosti. Přitom z nich padá přibližně 30 % gólů, takže by tomu měla být věnována stejná část tréninku. Dříve tomu tak nebylo, trénink autů a rohů tvořil jen jeden až pět procent tréninku, což se úplně změnilo.

Když jsem hrával fotbal před deseti lety, na konci tréninku jsme stříleli z dálky další půl hodiny, což je nejhorší možná věc, protože střelba z velké vzdálenosti má asi 1 % pravděpodobnost gólu. V zápase většinou existují jiné akce, které mohou šanci zvednout o 2–3 %. Například lepší je se pokusit o těžkou přihrávku, která končí střelou z blízkosti vápna místo zdlouhavé střelby z dálky. Jenže střely z dálky „lépe vypadají“ na záznamech, zatímco efektivnější akce tolik vtipně nevypadají.

Vzpomínám si, že jsem toto jednou vysvětloval Radku Černému, české fotbalové legendě, a když hráč vstřelil gól z dálky ve finále mistrovství světa, Černý říkal: „Vidíš? Kdyby nevystřelil, nikdy bychom nevyhráli.“ Ale to je jako nakupovat bez slevomatu – můžeme si stále dělat špatná rozhodnutí, ale obvykle je lepší se podívat na údaje a analyzovat fakta.

Ve fotbale se každý rok posouvá průměrná vzdálenost střel o 70 centimetrů směrem ke kratším vzdálenostem a střely z dálky prakticky mizí. Michael Edwards měl ve svém týmu hráče Coutinha, který byl známý střelami z dálky. Když dal gól z dálky (například za stavu 4:1), začal být frustrovaný, protože věděl, že teď bude střílet 30 nepovedených střel z dálky, které týmu kazí pozice.

Vy pomáháte fotbalovým týmům tyto strategie a poznatky zavádět do praxe. Jak se trendy, které jsi popsal, promítají do naší ligy nebo u vašich klientů?

Funguje to tak, že z naší platformy vytahujeme vizualizace dat. V budoucnu by si trenéři měli tyto informace najít v platformě sami, ale momentálně jim to připravujeme do prezentací, které doplňujeme o video, protože trenéři jsou zvyklí spíše vnímat obraz než pouhá čísla.

Poté představíme konkrétní strategii. Třeba včera jsem měl přednášku pro Fatcher, mladé začínající trenéry, kde jsem vybral tři strategie, které jsou u nás stále málo využívané, například „Cutback“, což je zpětná přihrávka. Ukázal jsem, jak ji využívá Manchester City na nejvyšší úrovni a zároveň jsem zmínil, že naši klienti ji už velmi dobře provádějí.

A takto se o to snažíme my v tom našem jednom Jablonci. A dostáváme minimálně do toho fotbalu aktuálně nějaké nové strategie, ale ten dopad není zas až tak velký.

Já doufám, že třeba někdy dostaneme příležitost vyloženě, že někdo z analytické sféry nebo někdo ze startupové sféry koupí fotbalový klub, protože měl rád ten fotbal, a dá nám od toho auta ty klíče. A my to prostě budeme řešit vědecky, ten fotbal. Už je tady pár adeptů, kteří by si fotbalový klub mohli asi dovolit. Já doufám, já doufám. Já chci Honzu Barta, ale ten se zatím k týmu Bohemians tolik nemá.

Co to asi je pro tebe tam to jako složité? Já chápu, že ta velká bariéra je na té klientské straně, adopce a vlastně implementace vůbec data-driven procesů. Co je tam ta, je tam nějaká technologická výzva? Proč to nikdo jiný nedělá? Je to tak manuálně náročné? Nebo je to moc malý trh?

Tak asi k trhu se nedokážeme vyjádřit, ale jedna z největších věcí, se kterou bojujeme, je vlastně mít ta data neustále všechny uložená ve správné formě, aby to všechno sedělo. Protože ty objemy těch dat, těch výpočtů, tam je relativně hodně. Když chceme implementovat nějakou změnu, aby to všechno sedělo v té percentilové statistice, kterou používáme, potřebujeme mít všechno předpočítané a potom některé věci se dají až vlastně uvolnit (release-nout). Takže my furt bojujeme s tím, abychom si zbytečně nezvyšovali náklady nějakými servery navíc, které musíme platit, ale zároveň zachovat integritu těch dat na frontendu, co vidí uživatel, aby to celé pořád fungovalo.

Takže to je takový náš momentálně největší problém, protože máme stage, máme produkci a řešíme přechod z předchozí verze na novou verzi a chceme to udělat co nejvíc cost-efficient. Další věc, kterou neustále řešíme, je rychlost platformy. Občas je těch dat fakt hodně, protože ten pohled, co uživatel má na hráčském profilu…

Když je uživatel na hráčském profilu, tak tam máme všechny ty vizualizace už načtené v nějaké zmenšené formě a člověk si může kliknout na to, co chce, a vše musí být předpočítané. To je v pohodě, ale spíš je problém natáhnout všechny relevantní data, které potřebujeme. Některá data jsou agregovaná, takže něco je jen o pár řádcích, ale pak jsou tam vizualizace, které pracují se všemi přihrávkami, co ten hráč udělal, s každým duelem, co ten hráč odehrál. Za celou sezonu, nebo člověk si může kombinovat různé sezony, takže občas je těch záznamů opravdu hodně.

Takže neustále se snažíme optimalizovat API a dotazy do databáze a mít to připravené tak, aby to prostě svištělo, když to tak řeknu.

A celé si to píšete sami? Nepoužíváte žádný vizualizační nástroj nebo něco mezi tím?

Ne, vizualizace jsou připravené v D3. Máme frontend v Angularu a používáme D3 a všechno děláme sami.

A používají to scouti? Scouti jsou vaše první cílová skupina?

Ano, scouti jsou cílovka. Má to být pro scouty, trenéry a sportovní ředitele – tedy pro decision makery na sportovní straně.

A plán je mít co nejvíce Jablonců ve střední a východní Evropě, nebo jít na západ do třeba druhé ligy, které mají peníze?

Ten váš masterplan škálovací?

Jo, obecně komunikujeme dobře s ligami kolem nás, tedy Polsko, Slovensko, Rakousko a podobně. Cíl je postupně se rozšiřovat. Mě zajímá dělat víc po ligách, což znamená, že je pro nás jednodušší dohodnout se s jedním klientem, tedy celou ligou, která je motivovaná například od UEFA nebo FIFA, aby využívala co nejvíce dat. Na to dostávají nějaké peníze, takže je lepší dohodnout se s celou ligou než sales club by club.

Postupně tedy rozšiřovat regionálně. Myslím si, že naše cesta bude spíš česká firma na východ než na západ, ale uvidíme. Tam je ten fotbal. Je Afrika, Jižní Amerika, je to čistě o kontaktech. Když se nám podaří sehnat někoho dobrého v Jižní Americe, rádi tam budeme.

Moje asi poslední otázka. Když mluvíte o tom, s jakými daty pracujete a jak víte často o hře daného fotbalového týmu více než samotný tým, proč vlastně tuto službu poskytujete samotným hráčům, týmům, respektive ligám a soutěžím? Proč to není služba pro trading, pro nějaký betting, pro sázkové kanceláře, určování kurzů? Teď jsi vzpomínal na No Energy, já tady měl NGG, který tohle dělá v e-sportu. Proč tedy nejste v bettingu?

Mně je samozřejmě sympatičtější, že pomáháte fotbalu jako sportovnímu oboru samotnému, ale monetizace tady je, fotbal je největší sport na světě, tam se budou točit obrovské peníze v sázení, ne?

Jo, první věc je, že betting je v Česku dost omezený. Hodně lidí říká, že v Česku prostě nepostavíte firmu živící se bettingem, protože by vám to hned zakázali.

Sázkové kanceláře, které se považují za podvodné, mění kurzy. Já jsem se živil pokerem a poker mi přišel jako parazitická záležitost, kde vydělávám na tom, že jsem chytřejší než někdo jiný, porážím podnikatele, kteří se o poker tolik nezajímají a nemají to tak spočítané. Vydělával jsem čistě parazitickým způsobem bez vytváření jakékoliv hodnoty.

Přijde mi, že betting je totéž – určování kurzů. Sázkové kanceláře nemají cíl určit správný kurz, a proto na tom lidé vydělávají. Cíl sázkovek je odhadnout, kde lidi budou sázet, aby vydělaly co nejvíce peněz. Příklad: hraje Manchester United proti Astonville. Manchester není ve formě, kurz by měl být 2 na 50:50, ale dají uměle kurz 1,5 na Manchester, protože vědí, že milion lidí vsadí na Manchester, oproti pár stovkám tisíc na Astonville. Takže ten správný a optimální kurz není jejich prioritou.

V minulosti jsme toto probírali. Dostal jsem zajímavou odpověď od lidí ze sázek. Říkali, že by spíš chtěli metriky, na co sázet, a konkrétní věci, ale problém je, že my dostáváme data den po zápase. Data máme později než živě, to je momentálně jako bolavé místo. Sázejí na to, co se dá sázet realtime.

Ano, přesně tak. A protože jsou realtime data jen na pár soutěžích a většinou kvalita není dobrá, bylo by těžké začít sázet třeba na expected goals (xG) nebo na statistiky, které musí být okamžitě vyhodnocené.

Rozumím. Kromě nového enginu a přechodu na vyšší verzi, co dalšího vás teď čeká a na co se těšíte v příštím roce?

Nám teď končí mistrovství světa. Je to pro vás sezóna, nebo je to jako, že se můžete v klidu podívat a být zase fotbalovými fanoušky?

Máme teď daleko víc přestupové okno, řešíme pro naše kluby, které hráče by měli podepsat, jak pokračovat a upravovat strategii. Fotbal často funguje tak, že si něco připravíte v letním či zimním období a ze šesti měsíců pak přebíráte výsledky.

Teď je pro nás nejaktivnější období, kterému se nejvíc musíme věnovat.

Z toho, co se těšíte?

Hrozně se těším, až budeme posilovat platformu, až budeme dělat celý proces a nabídneme ji klubům. Udělali jsme v tom kus dobré práce. Několik let jsme spíš dělali kroky do strany než dopředu, takže ta platforma bude super věc.

Těšíme se, až kluby začnou platformu využívat a budeme moci měnit i strategie.

Tomáši, kdy budu moci dát kreditní kartu na web a aspoň si platformu prohlédnout?

To úplně nevím. Chápu z vaší strategie, že to asi pro obyčejné lidi moc cílené nebude. I když mě osobně by se to docela líbilo, kdyby si kdokoliv mohl zaplatit a jít se podívat. A lidi, co je to zajímá, by za to asi peníze dali.

Za mě je nyní nejlepší věcí, co nás čeká, týmová stránka. Dokončujeme hráčskou část a začínáme pracovat na týmové části. Myslím, že celá platforma dostane úplně novou dimenzi.

U hráčů musíte docela přesně vědět, po kom jdete, a nedá se to moc procházet jen tak a bádat. Myslím, že s přechodem na týmovou část to nabere novou dimenzi. Mě to hrozně baví, když se něco dokončí a krásně funguje.

Věřím, že to bude skvělé a přinese nové podněty pro trenéry, scouty a sportovní manažery.

Děkuji vám moc, že jste přišli a povídali si o datech ve fotbale. Budu se těšit někdy příště. Držím palce s přestupovou sezónou. Mějte se hezky.

I vám děkuji za pozvání.

Děkuji, díky.

Děkuji, že jste doposlouchali DataTalk až sem. Jak se vám tahle epizoda líbila? Co byste na našem podcastu zlepšili? Koho pozvat příště? Dejte mi prosím vědět, co si myslíte. Můžete mi to říct na příštím DataMesh meetupu, nebo rovnou nyní na mail jirka-zavináč-datatalk.cz.

Pokud se vám epizoda líbila, doporučte ji dál, klikajte na srdíčka, hvězdičky, dávejte subscriby, ať nám svítí dashboardy zeleně, křivky dělají hokejku a všichni stakeholdeři schvalují extra budget.

Ještě jednou vám děkuji. Poděkování patří také mým kolegům Nikovi a Iris, stejně jako členům našeho partnerského klubu Big Hub, DeepNote, Atakamě a Manitě.

Pokud máte návrh na hosty, témata, pořádáte vlastní event nebo chcete datovou komunitu podpořit jinak, určitě mi dejte vědět.

Díky, nechť vás provází Data.

Odebírejte Data Talk

Apple Podcasts Spotify Deezer Overcast Podcast Index RSS Feed