Data Talk #105: Jan Cibulka (Český rozhlas)

V této epizodě přivítal moderátor Hynek Walner hosta Jana Cibulku, datového novináře z Českého rozhlasu. Společně rozebrali začátky datové žurnalistiky, vznik jejich týmu v Hospodářských novinách i přechod do iRozhlasu. Diskutovali o výzvách při zpracování a komunikaci komplexních témat, přičemž zdůraznili vliv implicitních biasů v celém procesu – od sběru dat, která často vznikají pro jiné účely, přes jejich vyhodnocení až po vizualizaci. Věnovali se také vlivu umělé inteligence na žurnalistiku a tomu, proč její implementace vede zatím spíše k negativním jevům. Jan Cibulka navíc popsal společenský dopad projektů, jako jsou data o kriminalitě či otevření dat ČHMÚ, i to na jakém stacku jejich tým běží.

Strojový přepis

Dobrý den všem, moje jméno je Hinek Valner a vítám vás u dalšího dílu Data Talku. Dneska k nám do studia zavítal Honza Cibulka, datový novinář z Českého rozhlasu. Vítej, Honzo. Ahoj. Honza naše pozvání přijal, aby nám poodhalil tajemství pro nás nezvyklého tématu datové žurnalistiky. Musím prozradit, že je to možná poprvé, co toto téma otvíráme v našem podcastu, takže se na to moc těším, co se dozvíme. Honza nás provede celou svou cestou posledních více než deseti let, které tomuto tématu věnuje: jak to všechno začalo, jak tuhle štaci v Českém rozhlasu rozjížděl.

Ale možná než se do toho pustíme, do technikálií a vysvětlíme, co to znamená dělat data v novinách, Honzo, mohl by ses nám trochu představit? Jak jsi vůbec k datové žurnalistice dostal, jaký je tvůj background, kde to všechno začalo?

Já se vlastně pohyboval mezi IT vývojem a novinařinou už od střední školy, takže postupem času jsem doklouzal až k plné novinářské práci, kde ale právě uplatňuju znalosti, které mám z IT. Mám původní formální vzdělání jako geoinformatik, což znamená, že pracuju s mapovými daty, proto například na iRozhlase děláme docela dost map. Skrze to jsem se dostal k datové žurnalistice, což je specifická forma novinářské práce založená na datové analýze a programování, která si sebou nese metodické přístupy na pomezí novinařiny a technologií.

Zmínil jsi, že tě to začalo zajímat už na střední škole, jaká byla ta cesta, jak začít datovou žurnalistiku dělat profesně? Koukals do novin, jestli hledají datový tým, nebo jak to vůbec šlo?

V době, kdy jsem byl na střední, v Česku nic takového vůbec neexistovalo. Datovou žurnalistiku jsem začal dělat asi před dvanácti třinácti lety ve vydavatelství Economia, pod Hospodářskými novinami nebo serverem iHNed, kdy tam došlo k větší změně. Nová šéfredaktorka Lucie Tvarušková chtěla mít datanovinářský tým, vlivem zkušeností ze zahraničí, a najala moje kolegy Petra Kočího a Honzu Bočka. Já jsem se k nim přidal asi o půl roku později a to byl základ našeho datového týmu. Postupem času jsme se rozrostli o vývojářský tým, kterému patřili Marcelášulka a Artur Malý a v tomto pětičlenném týmu jsme v Hospodářských novinách dělali datovou žurnalistiku.

Pamatuješ si, který zahraniční vzory jste měli, nebo co byl v té době standard? Co jste si říkali: „Kdybychom měli tohle, bylo by to skvělé?“

Určitě jsme se dívali na The Guardian ve Velké Británii, kde ale tato redakce už postupně upadá a silná datová redakce tam dnes není. Samozřejmě jsme sledovali New York Times, které v datové žurnalistice pokračují dodnes, dále Politico, Washington Post nebo Financial Times.

A co byla první témata, na která jste se zaměřovali? Zajímá mě, jestli šlo o úvahu, že by bylo hezké například lépe vizualizovat ...

Opravený text:

Vany výsledky voleb nebo udělat větší insighty do tohohle, anebo by bylo skvělé mít opravdu třeba investigativní žurnalistiku opřenou o závěry z dat. Začalo to určitě tou snahou věci ilustrovat. My jsme to samozřejmě na začátku vůbec neuměli, ani technologicky, ani vlastně nějak metodicky, ideově, takže když jsme měli data, tak jsme se s nimi snažili pracovat, snažili jsme se třeba vizualizovat v té době pomocí různých Google nástrojů typicky, protože jsme neuměli nikdo pořádně programovat ty věci. Postupem času se to samozřejmě vyvinulo. Nejenom, že dál umíme ilustrovat věci a dál to děláme, například volby, kdy ukazujeme výsledky voleb v podobě, která je příjemnější pro uživatele, ale zároveň jsme se naučili technologie využívat i v jiných liniích novinářské práce, třeba právě v té investigativní nebo reportážní. To znamená, že jsme rozšířili působnost od toho začátku, kdy jsme hlavně vizualizovali a dávali na web to, co se dalo dát na web.

No super, Honzo, mě by zajímalo, jaká byla dynamika v týmu. Vlastně jste hodně věcí stavěli od znova, od začátku na zelené louce, nebyla tam žádná historická zkušenost, se kterou byste mohli navázat? Předpokládám, že bylo spoustu zaběhnutých postupů, jak to dělat, jak se tohle tam míchalo – jak na to vzpomínáš z té doby?

No, zaběhnuté postupy samozřejmě byly, ale to neznamená, že by nám lidi házeli klacky pod nohy, aspoň já jsem ten pocit nikdy neměl. Spíš nás lidé pozorovali s pobavením a zvědavostí, protože to bylo celé pomalé, divné, občas to moc nefungovalo, výsledky byly takové zvláštní. Žijeme a dnes to používáme jako hlavní motor našeho týmu – takový citát: „Je to složitější.“ To byla naše typická odpověď na jakoukoliv otázku. Noviny obvyklé, zejména v té době, fungovaly tak, že se snažily všechno zjednodušit a podat to třemi, čtyřmi slovy, ale u některých témat, která my zpracováváme nebo zpracovávali, cesta jednoduchá neexistuje.

Byla to otřepaná poučka v žurnalistice, že pokud všechno jde zjednodušit, ale vy to neumíte, je to váš problém. Postupem času jsme však dospěli k tomu, že některým tématům se média vyhýbají právě proto, že je nejde zjednodušit. A to je samozřejmě špatně, protože potřebujeme mít co nejširší mediální debatu. Postupem času jsme si přiznali, že ano, některé věci jsou složitější a bude to trvat déle a možná je to složitější cesta, jak se dostat k výsledku, ale snažíme se ty zkušenosti využít a optimalizovat proces, aby výsledky byly pro naše čtenářstvo nebo posluchačstvo zajímavé a přínosné.

No, jak o tom tak povídáš, přijde mi, že to musela být kontinuální a vlastně náročná cesta, víceméně úspěšná, když se podíváme dneska na téma.

Tady je opravený text:

Ta oblast, kterou pokrýváte v rozhlase – co pro vás byly taktiky, které opravdu fungovaly? Jakým způsobem vlastně změnit tenhle narrativ? Pojďme se zaměřit jen na ty jednodušší věci, protože složité jsou opravdu složité a komplexní na vysvětlení. Jak tam vlastně ta změna probíhala?

My jsme si trochu vypomáhali analogií s investigativní žurnalistikou, se kterou máme společných několik znaků. Tím hlavním je, že naše práce trvá dlouho, výsledek není úplně jistý, což znamená, že je celá činnost dost nákladná. A tohle se samozřejmě velmi těžko vysvětluje manažerům, kteří řeší optimalizace, zejména v médiích, kde peníze jen ubývají. Proto se vždy velmi zvažuje, co je pro redakci přínosné a co je naopak zbytečné. V tu chvíli může být problémové mít tým, který pracuje dlouho na něčem s nejistým výsledkem. My se samozřejmě snažíme mít výsledek co nejjistější, hledáme cesty, jak neohrozit naši práci, ale protože je to stále experimentální postup, k tomu, co nakonec získáme, nemusíme vždy dojít jasně a jednoduše. Během času jsme se však naučili, jak vyprávět i složitější témata, vizualizovat náročnější otázky a být platnými členy novinářského týmu, aniž bychom tam byli zátěží nebo překážkou.

Super. Když jsme se tedy trochu věnovali tomu, jak to vypadá u vás teď, pojďme dokončit tu genezi tebe jako datového novináře. Zmiňoval jsi, že jsi pracoval i v Hospodářských novinách, co se tam dělo potom? Jak to probíhalo?

Hospodářské noviny a obecně celé vydavatelství Economia dospěly k fázi, kdy výrazně osočily personální stav celého vydavatelství, což se v určitých cyklech opakuje dodnes. My jsme v rámci jednoho takového snižování stavů odešli, a velmi krátce potom jsme nastoupili do českého rozhlasu, který nás přijal jako celý datový tým s cílem začít tady dělat datovou žurnalistiku. Postupem času jsme se přidali ke vzniku rozhlasu v podobě, kterou známe dnes, pod vedením Radka Kedroně, a začali jsme pracovat primárně pro iRozhlas, až jsme nakonec byli k dispozici celému Českému rozhlasu.

Tak to skoro zní, že vás – nechci říct – přijali s otevřenou náručí, ale spíš věděli, co od vás čekat a těšili se na to?

Ano, přesně tak. V té době nás do Českého rozhlasu přivedl Tomáš Pancíř, který tam působí dodnes, a měl jasnou vizi, že chce zavést datově podloženou práci, proto si nás tam vybral.

Tak mi možná ještě řekni, jaké bylo vaše první téma, které jste na iRozhlase zpracovali?

Podíval jsem se, první článek, který vyšel, je vidět a podepsaný byl celý zakládající tým. Byla to analýza týkající se voleb, protože jsme nastupovali na podzim před deseti lety a tou dobou...

Pokud chceš, mohu opravit i pokračování textu nebo upravit věty jinak.

Probíhaly volby, takže samozřejmě to je klasická datová oblast – zpracování voleb, volební mapy, volební výsledky, nějaké analýzy.

Super, ono je to možná trošku zajímavé, vlastně jak to teďka u vás vypadá. Tak možná pojďme ještě dokončit tu genezi tebe jako datového novináře. Ty jsi nám tady později řekl, že jsi pracoval i hned o hospodářkách, tak co potom? Jak to tam probíhalo?

Jsou tam nějaké komplexy, které člověk nevidí?

Za tu dobu se ustálila naše práce v této oblasti, stejně tak se ustálilo i to, že my přebíráme volební výsledky od statistického úřadu v průběhu toho volebního sčítání. I tam to vlastně vznikalo na zelené louce, to tam není celých deset let, takže už se ustálily vlastně obě ty strany – už v tomhle směru, co se týče předávání dat a nějaké datové kvality, tak tam už je to stabilní. Nicméně pořád se snažíme hledat nové cesty, jak přinést čtenářstvu, posluchačstvu něco nového.

Typicky trend z poslední doby je dělat volební predikce v průběhu toho sčítání, protože je možné ve většině typů voleb, zejména v těch celostátních, případně prezidentských, sněmovních nebo právě prezidentských, už v průběhu sčítání napočítat velmi pravděpodobně s velkou mírou pravděpodobnosti výsledky volební. To znamená, že veřejnost má tyto informace k dispozici několik hodin předtím, než se uzavřou oficiální výsledky sčítání.

Samozřejmě je to věc, která se hodně přebírá ze Spojených států. V Česku to podle mě zase tak velký význam nemá, protože volby jsou tady sečteny velmi rychle. My zavřeme volební místnosti v sobotu odpoledne a vlastně po půlnoci nebo před půlnocí už je rozhodnuto. To, že chybí sečíst dvě, tři obce, kde se něco zaseklo, na tom příliš nezáleží, protože lidé už mají představu, s jakými výsledky se budou probouzet v neděli po volbách.

Nicméně právě ve Spojených státech, kde sčítání v prezidentských volbách trvá docela dlouho, tyhle predikce mají velký význam, protože lidé samozřejmě chtějí vědět co nejdřív, kdo vyhrál, a nechtějí čekat dny nebo dokonce v některých případech týdny, než se opravdu všechno všude poctivě spočítá.

Mě by vlastně zajímalo, do jaké míry jsi ochotný poodhalit tajemství těchto predikcí. Jak ten model funguje? Koukal jsi na historická data, nebo jak?

Jo, určitě, tohle není nic tajného, tady neříkám nic, co by nebylo známé. Koneckonců to dělá několik redakcí v Česku i v zahraničí, dost se o tom publikuje. Zjednodušeně řečeno, díváme se na předchozí výsledky v daných obcích a sledujeme je v čase během sčítání.

Je potřeba vzít v úvahu nejznámější efekt – pokud se dělají online sčítání, kde se ukazuje, kdo zrovna vede, tak volby začnou a na prvním místě vždycky začínají vyhrávat antisystémové strany. Následně se to pak nějak ustálí, řekněme, k těm demokratickým tradičním stranám. Ten efekt je způsoben tím, že první sečtené jsou ty úplně nejmenší obce.

Opravený text:

A tam stačí, když máme obec o pěti lidech, tak stačí, aby tam dva lidé volili nějakou divnou extremistickou stranu, a najednou máme 40 % extremistů v té obci. Na papíře, v procentech, to pak vypadá vlastně šíleně. Ale je to tím, že obec je malá a malé obce jsou prostě náchylné k extrémům. Protože tam je málo lidí a samozřejmě jak postupují volby, tak se sčítají výsledky větších měst — okresních, krajských, nakonec většinou Prahy. V tu chvíli se to zprůměruje, protože nevolí vzduch, nevolí obce, ale volí lidé v nich. To znamená, že je potřeba mít tu masu lidí. To znamená, že při těch všech predikcích na to musíme brát ohledy. Je také možné dívat se na to, která okresní či krajská města byla ve své historii výsledkem blízko finálnímu výsledku, a taková města pak v predikci mohou mít větší váhu nebo něco podobného.

No super, Honzo. Mám pocit, že když teď porovnáš, kde jsi se svým týmem teď, s tím, kde obecně bylo odvětví datové žurnalistiky před deseti lety, tak těch rozdílů bude spousta. Kde jsou podle tebe ty největší rozdíly?

Očekávání

V celém týmu jsme se posunuli technicky. Umíme lépe programovat, umíme lépe nasazovat různé technologie a využíváme výhod, které nám přinesl posun v IT. Posunuli jsme se také znalostně, získali jsme kontakty ve veřejné správě. Zároveň se veřejná správa hodně posunula v množství zveřejňovaných informací, a my se snažili jsme k tomu trochu přispět. Proto máme k dispozici více informací, umíme je zpracovat rychleji a kvalitněji.

Vytvořili jsme si také doménové znalosti, což znamená, že trochu rozumíme například některým zdravotnickým datům, meteorologickým datům, nebo datům v kriminalitě a díky tomu je dokážeme interpretovat rychleji než dřív, kdy jsme se museli pořád ptát a dělali jsme chyby, protože jsme nechápali, jak se ty informace sbírají.

Typické pro naši práci je, že hodně pracujeme s daty, která produkuje veřejná správa, jež je obvykle sbírá za účelem jiným než pro novináře. Naučili jsme se proto pochopit, co vlastně některé datové sady, které jsou veřejnosti k dispozici, znamenají, protože často jsou sbírané způsobem odpovídajícím jinému účelu. Je potřeba na to dávat pozor, abychom při interpretaci nedělali chyby.

Jak vlastně vypadá takový životní cyklus datového tématu? Od úplného začátku, kdy někoho napadne: „Bylo by super udělat datovou analýzu kriminality v Praze podle ulic,“ až po to, kdy se to skutečně vyvěsí na web a co tím dále probíhá?

Ve chvíli, kdy máme nějaké zadání — někdy přijde od redakcí Českého rozhlasu, jindy si ho vymyslíme sami — snažíme se navrhnout metodiku, podle které bychom mohli postupovat. Když máme návrh metodiky, začneme hledat datové sady, které by nám pomohly...

Opravený text:

S ní pracovat, jak to zpracovat. Pak často, pokud se k informacím dostaneme, tak to většinou není úplně optimální, to znamená, že se díváme na to, jak tu metodiku upravit, abychom vlastně kompenzovali ty problémy, které v těch datových sadách můžou být, nebo prostě abychom kompenzovali, že někam nedohlédneme, některé informace se třeba nezbírají. Následně vlastně postupuje nějaká analýza, výsledky předběžně konzultujeme s lidmi, kteří se v tom oboru pohybují, abychom věděli, že jsme na dobré adrese. Následně dopilujeme tu analýzu, začneme dělat interpretace, následně začne vznikat text a k němu začnou vznikat vizualizace. A to začneme skládat vlastně technicky, řemeslně do té podoby, kterou následně veřejnost vidí. To znamená, ladíme, aby ty věci vypadaly dobře na mobilních telefonech, protože drtivá většina našeho čtenářstva, bavíme se třeba o osmdesáti procentech, prostě konzumuje zpravodajství z mobilu. Takže samozřejmě můžeme hledat do minulosti a říkat si, to bylo krásné, když New York Times dělaly ty velké projekty, které na těch velkých monitorech vypadají dobře, ale dneska už někdo zpravodajství na velkých monitorech nevidí, s výjimkou lidí v médiích, kteří tam pracují. To znamená, že tady je trošku ta past, že to, co vlastně vidí novináři, a často se to projevuje na zpravodajských webech v České republice, když někdo použije nějaký interaktivní widget, mapu, graf, tak je vidět, že ten člověk to prostě navrhoval a testoval na svém počítači, protože pak prostě na mobilním telefonu to nejde otevřít a je úplně jasné, že se s tím trápí úplně všichni čtenáři. Jasně, no.

Dokázal bys vlastně odhadnout, jak dlouho průměrný projekt trvá dát do kupy? Jsou to týdny, měsíce? Jak vlastně dopředu máte třeba pipeline?

Strašně záleží. Strašně záleží. Jsou projekty, kam koukáme a víme, že to třeba teď nejsme schopni udělat, nebo se to posouvá extrémně pomalu. To neznamená, že čekáme a neděláme nic jiného, ale ten projekt máme v merku a třeba se k němu iterativně vracíme a snažíme se ho posunout. Pak máme vložené krátkodobé projekty, je to během jednotek dnů. Někdy třeba během jednoho dne výjde. Tak bychom se třeba teď, v těch počasích, v těch náhlých změnách, tak to jsou věci, které prostě musí jít ven rychle, po víkendu už to asi nebude dávat úplně smysl, protože už se nás za námi nějaká ta teoretická povodňová vlna nedotkne. To znamená, že je to hrozně variabilní. Pak jsou prostě věci, které mají pevné datum - volby, to musí být prostě hned během těch voleb, hned po jejich skončení, protože zase po dvou dnech už to někoho zajímat nebude. Ale pak jsou dlouhodobé projekty, kdy se to opravdu chystá týdny, někdy se to může chystat s přestávkami i měsíce, než se to všechno doladí a vydá.

Vlastně k tomu mě napadá, jak moc je pro tebe ta práce stresující, protože si dokážu představit, že jsou období, kdy je potřeba to rychle udělat a svět na to nečeká. Určitě to množství té práce, nebo množství práce je dost...

Pokud chceš, můžu ti pomoci i s další částí textu.

Opravený text:

Podobně její naléhavost místy stoupá právě třeba okolo voleb, nebo kdy se začne dít něco nečekaného, jako třeba teď ty povodně, anebo třeba kombinace, že se blíží volby a k nim se blíží povodně. Tak samozřejmě tam ten stres maličko roste, ale my jsme se už za tu dobu naučili právě jakoby procesně ty věci zpracovávat, což ten stres odbourává – že prostě máme pevněji v rukou ty nástroje, které používáme, máme pevněji v rukou technologie, které nasazujeme, máme pevněji v rukou i třeba dělbu práce v týmu a víme, co můžeme čekat od našich datových zdrojů, takže už ten stres odbourává to, že to umíme dělat o něco lépe, než když jsme začínali.

Mě by ještě zajímalo – ty jsi vlastně na začátku zmínil a před chvílí taky, že častokrát je to složitější, než se může zdát, a už třeba při sběru dat může tam být nějaký bias, může tam být nějaká podmínka, za kterou ta analýza platí. Jak složité je tohle vykomunikovat čtenáři, vlastně někomu, kdo si jenom vezme mobil, vidí tam nápis datová žurnalistika, nějaký titulek, doskroluje na první graf, podívá se na první číslo a odejde?

Je to pořád složité a pořád se to učíme, a pořád si nemyslím, že to umíme dobře úplně, ale zároveň samozřejmě vidím i u nás i jinde příklady, kde se to povedlo. Ale to neznamená, že se to povede vždycky. Někdy je prostě strašně složité to téma vysvětlit, často člověk vysvětlí jenom lidem, kteří to nějakým způsobem už zajímá. Samozřejmě se můžeme snažit ten zájem trochu vzbudit, povzbudit, vysvětlit lidem, proč je to důležité, ale chápeme, že to není úplně každodenní zpravodajství, že to není něco, co budou konzumovat miliony lidí a budou mít pocit, že je to pro ně naprosto zásadní a bez toho se neobejdou. My většinou dáváme nějaký širší kontext ke složitějším společenským otázkám.

A možná konkrétně – kdybys poodhalil, co je ten tvůj toolkit? Je to lepší edukace, je to vysvětlení textové, je to možná i třeba práce s tou vizuální informací jako takovou?

Je to všechno. Je to samozřejmě – což není úplně překvapivá odpověď – je to všechno. Snažíme se právě kombinovat ty prvky té vizualizace a snažíme si s nimi pomáhat k lepšímu vysvětlování. Na druhou stranu se čím dál tím víc – a pořád se to učíme – snažíme se čím dál tím víc nespoléhat na to, že nejasnosti v tom vysvětlení doženeme technicky, a spíš se snažíme naučit lépe vysvětlovat lidem ty věci, opravdu vybírat to, co je důležité, to, bez čeho se třeba čtenář obejde, a hodně to míchat tak, aby to pro lidi bylo i zábavné ke konzumaci.

Honza tady už vypadl z povídání, že to neděláš sám, několikrát jsi zmínil „my“ a tým. Tak co znamená tým datových novinářů v Rozhlasu? Kolik vás je? Jaké máte role?

Já se nás tam teď dělá šest. Nejsou to úplně plné úvazky, ale je nás šest – já, Petr Končí, Honza Boček, je tam Klára Filipová, Kristýza Kopčanová a Michal Kašpárek. Tak tady v tom týmu vlastně teď vzniká, plus občas si bereme třeba někoho na stáž. A na tomhle půdorysu máme trochu rozdělené role... (pokračování textu chybí)

Tady je opravený text:

TR: Teď Končí víc programuje, hlavně frontend, já řeším backendové věci a občas řeším otázky na pomezí dostupnosti dat a práva, pokud je nezbytné je řešit. Honza Boček je hodně specializovaný na delší vysvětlující články, které jdou více do hloubky, často se týkají například zdravotnictví, dopravy nebo dlouhodobých společenských témat. Máme také kolegyni Kláru Filipovou, která se teď snaží tahat témata z Ostravska a Karvinska, přičemž se věnuje environmentálním otázkám, které jsou zde společensky významné. A Michal Kašpárek je u nás editorem. Kristýna Kopčanová, kterou jsem zmínil, se věnuje vizualizaci dat. To znamená, že naše články doprovází nejen vizuálně pěkné grafiky, ale i takové, které dobře vyprávějí příběh – to je obvykle její práce.

Dá se říct, jaký je běžný profil člena týmu z hlediska zkušeností? Jste všichni novináři, kteří začali mít zájem o technologie, nebo spíše ajťáci, kteří chtěli mít větší společenský přesah? V našem týmu už prošly obě skupiny. Co postupem času vyžadujeme od všech lidí, je určitá technologická znalost – například jednoduchá datová analýza, základy skriptování a základní znalosti webových technologií. Tyto dovednosti ale dokážeme lidi naučit. Na druhou stranu vyžadujeme také ochotu naučit se novinářské řemeslo, pokud to není jejich přirozené prostředí. Nevyžadujeme dokonalý gramatický projev, protože ten se dnes řeší spíše technologicky, ale trváme na tom, aby si každý osvojil základní novinářské etické a profesní návyky. S tím jsme nikdy neměli problém, většina lidí se s tím dobře vypořádá, pokud je téma zajímá a chtějí pracovat v médiích.

Ty jsi několikrát zmínil technologie – někdo se věnuje frontendu, někdo backendu, někdo analytice. Co tedy znamená technologie v rozhlase? Předpokládám, že máte IT oddělení, které spravuje provoz webu, a jste s ním jako sesterský tým, nebo je vše integrované? Je to složitější. Rozhlas má samozřejmě vlastní výpočetní technologie, které s námi takřka nemají společné plochy, protože prezentační vrstvy, tedy to, co vidí veřejnost, jsou oddělené věci, které běží v cloudu. Překvapivě toho s nimi máme společného docela málo, protože naše články, i když vycházejí v redakčním systému Rozhlas.cz, pokud si dynamicky natahují data z Národního institutu umělé inteligence (NINAI), tak běží na naší infrastruktuře. Tzn. jsme relativně odděleni, protože často my od IT oddělení rozhlasu...

Pokud chceš, můžu pokračovat s opravou nebo shrnutím další části.

Opravený text:

Infrastruktury máme velmi specifické požadavky a nechceme vlastně komplikovat tradičnějším vývojářským týmům práci tím, že bychom po nich chtěli nasazovat specifické, zvláštní technologie, které oni obvykle nepotkají, protože dělají jiný typ práce.

A co to konkrétně znamená, ty vaše technologie? Jednou ze zásad, kterými se snažíme řídit, je to, že novinářská práce je specifická v tom, že ve chvíli, kdy vydáte něco nového, přijde hodně lidí, ale velmi rychle tam přestane chodit kdokoliv. Na druhou stranu to neznamená, že to můžete vypnout a smazat.

Snažíme se proto v první řadě udržovat vše bezserverové, aby za to neplatili v době, kdy to neběží nebo když je tam málo lidí, ale zároveň chceme, aby to bylo stále dostupné. Další důvod, proč jsme v drtivé většině případů úplně serverless, je bezpečnostní otázka. Snažíme se maximální množství výpočtů nebo obecně dynamického kódu spouštět na klientovi a nepouštět ho na našich serverech, protože to zvyšuje prostor pro rizika. Jako novináři můžeme být cílem hacktivismu, nechceme proto mít větší „attack surface“ než je nezbytné.

V praxi to znamená, abych vám to dal do kontextu, že používáme AWS, primárně S3, ale klidně bychom mohli používat jakýkoliv jiný podobný flat storage, před kterým máme nějakou CDN, a snažíme se, aby na naší straně byly věci statické. Například pokud se díváte na volební mapy, které se velmi rychle mění, tak mezi posluchačem tohoto podcastu a mnoha programátory si můžete otevřít vývojářskou konzoli a uvidíte, že tam neběhají žádné dotazy na server – stáhnou se statické soubory a vše se počítá na klientovi.

Je to i proto, že jako veřejnoprávní médium nejsme financováni z reklam vůbec, snažíme se proto vyhýbat technologiím, které přenáší informace o uživatelích k nám, protože si myslíme, že soukromí uživatelů je velmi důležité. A ve chvíli, kdy nejsme nuceni byznysmodelem spolupracovat s velkými technologickými společnostmi, které vytěžují data uživatelů za účelem cílení reklamy, snažíme se to nedělat. To znamená, že se někdy ochudíme například o technologie, které jsou k dispozici – třeba nemůžeme nasadit Google Mapu.

Honzo, když se tomuto tématu věnuješ už nějaký ten pátek, vidíš nějaký posun v nastavení společnosti ohledně zpracování dat na internetu? Narážíme na téma dezinformací, mám pocit, že za poslední dva roky toto téma úplně explodovalo. Vy jste ti, kteří se snažíte dát tomu lásku a udělat solidní, erudovaný závěr z dat. Jak hodnotíš tenhle boj? Cítíte to ve vaší práci?

Tématu dezinformací se samozřejmě věnujeme, protože to není záležitost jen datové žurnalistiky, ale obecně se od médií očekává velká role v tomto prostoru a...

Opravený text:

Jakým způsobem vlastně kultivovat tu veřejnou debatu? My to určitě cítíme, protože jsme si prošli vlastně všemi těmi vlnami, jako je ověřování dezinformací. Nakonec, Rozhlas má na to speciální pořad Ověřovna. Snažíme se to nějak kvantifikovat, snažíme se, nevím, vyhledávat a dívat se na šíření. Nicméně možná sklouzáváme k tomu, k čemu v posledních letech žurnalistika měla tendenci sklouzávat dost – a to je předpokládat, že společenské problémy mají technologické řešení. Ono je to způsobeno do značné míry tím, že žurnalistika je finančně čím dál slabší, protože prostě velké technologické firmy vysály velkou část těch reklamních příjmů, které historicky vždycky žurnalistiku živily, a v tu chvíli jsou média slabší. A v době slabých médií je vlastně o to snazší dostat tam nějaký narativ typu: ve chvíli, kdy tady máme nějaký společenský problém, ano, vyřeší ho za nás technologické firmy, vyřeší ho za nás tím, že třeba Google dá nějaký nástroj novinářům, vyřeší to Facebook tím, že bude lépe ověřovat dezinformace a bude je lépe škrtat. Ale možná ta otázka je spíše společenská než technologická, takže bychom byli někde skupinou, která jenom cenzuruje, škrtá, hledá umělou inteligencí, maže, vyvrací a ověřuje. Tohle se asi neukazuje jako řešení nějakých společenských problémů.

Samozřejmě, že to, co se v minulosti osvědčilo, je právě silnější, kvalitnější žurnalistika, která je schopná důvěryhodně informovat veřejnost. Ale to znamená, že ji taky někdo musí platit. A tam se dostává žurnalistika právě do rozporu s těmi velkými technologickými firmami, které mají v mediálním i společenském prostoru silný hlas, a ukazuje se, že možná to, co dřív vypadalo jako přirození spojenci, se teď mění v antagonismus. Technologické firmy často přinášejí problémy a zároveň berou novinářům prostředky, které by potřebovali k tomu, aby pomáhali řešit problémy ve společnosti.

Z toho, jak o tom mluvíš, vlastně nevím, jak moc jsi technologický nadšenec, nebo spíš skeptik, ale jak se člověk staví k explozi AI a generativních modelů? Je to něco, co vidíš teď ve své každodenní práci? Zpět tedy k GPT-4: Mohl bys říct, udělej investigativní žurnalistiku o mně? Přesně tak, ale napiš mi to krok po kroku, použij umělou inteligenci a zpětně mi to vysvětli.

Samozřejmě tyto technologie testujeme, protože díky naší technologické znalosti pomáháme rozhlasu experimentovat s těmito nástroji. Zatímco tam, kde generativní umělá inteligence přinesla v novinářské práci značný posun, tak tam, kde to veřejnost nejvíc očekávala, se to prostě neděje. Všichni měli pocit: ano, ta technologie je schopná generovat text, tak je logické, že teď bude psát články, ale realita je jiná.

To, že nějaký text vypadá pravděpodobně, ještě neznamená, že je pravdivý, ještě neznamená, že je dobrý, ještě neznamená, že správně třeba pracuje s prioritami, které p…

Opravený text:

Potřebuje sdělit čtenáři. Takže tady ta věc se prostě neukazuje. Teď další velký problém, o kterém jsme si zase i my, třeba i novináři, mysleli, že to bude role velkých jazykových modelů, jsou sumarizace dlouhých složitých textů – řeknu nějaké jakoby sloučení. Jenže se zatím začíná ukazovat, že – a už jsou na to nějaké poměrně propracované experimenty – které zatím všechny shodně ukazují, že velké jazykové modely nejsou schopné dělat výtahy a sumarizovat. Jsou schopné krátit, ale to jsou dvě různé věci. A to, že něco je třeba častěji, že tokeny jsou zastoupené v nějakém textu, ještě neznamená, že je to významnější, že to vždycky není prostě proxy pro významnost. A tady tímto způsobem dělané sumarizace často trpí opravdu závažnými nedostatky a mohou vést třeba i ve chvíli, kdyby je novinář používal jako vstup do své práce, naopak k významnému zkreslení toho tématu. To znamená, že tady se to vlastně neosvědčilo. A naopak my nevidíme ani s vývojem – že máme tady čím dál větší, výkonnější a rychlejší modely – že by se tam mělo něco změnit, protože i s výkonnějšími modely, kterými se samozřejmě snažíme testovat, a hned tak se k nim nedostaneme přes nějaké API, fundamentální problémy prostě přetrvávají a nejsme schopni je odstranit. To znamená, nevím, Jenny, ty threat retrieval, nebo ten augmented retrieval – že prostě dobře, model naplníme dokumenty, které nám poskytnou lepší podklady pro rozhodnutí nebo pro výsledek. Ani v tomto směru nejsme schopni z těch modelů očistit halucinace, nejsme schopni očistit výstupy od halucinací, nejsme schopni právě zachytit nebo předem eliminovat nějaké biasy, které se tam objevují, ani nemluvě o kvalitě toho výstupu po textové stránce. Takže tam ten posun nevidíme, a v tomhle směru jsem hodně skeptický.

Na druhou stranu přinesl boom generativní umělé inteligence v posledních letech minimálně českým novinářům velké kvalitativní změny v oblastech přepisů textu nebo, respektive, zvuku do textu a v oblasti překladů. Je to něco, co naši kolegové a kolegyně v zahraničí, anglicky či německy mluvící, už měli dlouho – řeknu, ani ne dekádu, ale už řadu let – kdy si prostě nahráli audio z rozhovoru a ono se jim přepsalo ve velmi dobré kvalitě velmi rychle. My to tady úplně k dispozici neměli. Ač rozhlas používá automatizované přepisy poměrně dlouho, výsledky fungovaly spolehlivě jen na vysoce kvalitním zvuku. A najednou tady díky například OpenAI Whisper, což je ještě ke všemu open source model, máme nádherný kvantitativní skok – najednou to funguje i v češtině a velmi dobře. V kombinaci s dalšími menšími modely jsme například schopni provádět diarizaci, takže nám to velmi dobře přepisuje rozhovory pro další žurnalistickou práci. Neznamená to, …

Opravený text:

Není to úplně bezchybné, takže to nemůžeme vzít a vystřelit na internet jedna ku jedné. Ale když má novinář hodinový záznam z rozhovoru nebo telefonátu třeba s nějakým politikem, může si ho během několika minut velmi rychle přepsat pomocí některého z našich interních nástrojů, které právě pracují s Whisperem. Díky tomu v něm může vyhledávat, zjistit, co které částí zaznělo, a udělat si rychlý přehled. Tento skok je veliký, ale není to přesně tak, jak si široká veřejnost představuje v souvislosti se žurnalistikou. Zrychluje to některé činnosti a umožňuje pracovat pohodlněji a efektivněji, ale nejde o to, že bychom „robotem“ nahrazovali novináře. Osobně v tom nevidím blízkou budoucnost.

Jo, jasně, super. Ty jsi několikrát zmínil, jak to vypadá v zahraničí nebo z pohledu zahraničních kolegů. Sledujete tuhle scénu? Jste v kontaktu?

Určitě jsme v kontaktu. Občas jezdíme na konference, takže se s lidmi známe buď osobně, nebo známe jejich práci, a snažíme se dívat do zahraničí. Samozřejmě musíme vždy aproximovat na prostředky, které oni mají k dispozici. Typický problém české žurnalistiky je, že je to pro relativně malé publikum. I kdyby se zítra ráno všichni Češi a Češky rozhodli poslouchat nebo číst ten náš tým, pořád by to bylo velmi málo – deset milionů obyvatel není moc. Naopak pokud člověk pracuje v angličtině, má najednou mezinárodní dosah a může hledat čtenáře i v Česku, protože mnoho lidí už anglicky umí.

Když se ohlédneš za svými posledními deseti lety v rozhlasu, kde se věnuješ datové žurnalistice více než deset let, jaké jsou podle tebe největší překážky, které musíš překonávat? Předpokládám, že to asi nebude technologická nebo lidská otázka, ale...

Technologicky nám nic nechybí. Ten technologický stack, který máme dnes k dispozici jako vývojáři, se hodně posunul dopředu, stojí to v podstatě minimum a funguje to velmi dobře. Jsme schopni dělat velké projekty, zpracovávat a analyzovat obrovské množství dat velmi snadno, levně a efektivně.

Co je ale pořád problematičtější, je to, že protože pracujeme s daty veřejné správy, veřejná správa někdy klade odpor a nechce nám data poskytovat. Často je to z politických důvodů – politik ví, že analýza nemusí vyjít v jeho prospěch, nebo úředníci pochopí, že výsledek nebude příznivý. Proto se snaží informace dál zatajovat před veřejností. My se snažíme tuto situaci různými způsoby řešit... (text pokračuje)

Samozřejmě ideální je, když se k těm informacím dostaneme co nejrychleji, abychom je mohli čtenářům a veřejnosti co nejlépe zprostředkovat. Typicky je stále častější fenomén whistleblowerů, tedy lidí, kteří například pracují na úřadě a vidí, že se tam děje něco nesprávného, a poskytují tyto informace. Naší prací je takové osoby maximálně chránit, aby nedošlo k prozrazení jejich totožnosti, aby nebyly propuštěny z práce nebo třeba soudně stíhány. Máme na to celkem propracované procesy a snažíme se v tomto směru aktivně působit a zajistit ochranu našich zdrojů, tedy lidí, kteří se rozhodnou s námi mluvit.

Samozřejmě, pokud taková cesta není, v některých vybraných případech, pokud usoudíme, že je to důležité, zahajujeme právní spor. Ten vedeme s vědomím, že může trvat i několik let, nyní už jsme si vyzkoušeli i desetileté spory. Následně však dochází k nějaké úpravě praxe, což je něco, co se snažím jako novinář prosazovat – aby moje práce měla konkrétní dopad. V tomto případě jde o správný typ dopadu – když zjistíme, že nějaká praxe je nevhodná a společensky škodlivá na straně státu, jsme schopni ji napravit tím, že o ní píšeme, věnujeme se jí a upozorňujeme na ni. Díky tomu přimějeme stát, aby vyhověl a danou nevhodnou praxi napravil.

Konkrétně se věnuji získávání informací veřejné správy, což má tu výhodu, že když ty informace získám já, jsou zároveň veřejné. To může pomoci dalším novinářům, aktivistům či neziskovým organizacím, které nemají za sebou tak silnou instituci jako Český rozhlas, a proto si nemohou dovolit vést třeba pětiletý soudní spor, protože nevědí, kde budou za tři roky. Myslím si, že je unikátní rola rozhlasu přispívat do veřejného prostoru i novinařiny tím, že to, co rozhlas průkopnicky otevře a co by pro jiné mohlo být náročné, může pak sloužit všem.

Typickým příkladem je situace, kdy se bavíme o deštích a možných povodních. V minulosti bylo velmi těžké a prakticky nemožné získat informace o počasí, srážkách a průtocích. Vedli jsme v této souvislosti dlouhý a komplikovaný soudní spor, díky němuž dnes Hydrometeorologický ústav tyto informace zveřejňuje velmi podrobně. Právě nyní dochází k technologickým změnám, kdy jsou tyto informace zveřejňovány nejen obsahově, ale i technicky tak, aby je co nejvíce uživatelů mohlo využívat. Když se budeme bavit o velkých vodách, třeba nějaký místní nebo regionální zpravodajský web může dnes už poměrně snadno získat a používat data o srážkách. Mně to přijde úplně úžasné, že jsi to zmínil.

Zde je opravený text:

Že to sice může trvat pět až deset let, ale mám pocit, že určitě musíte cítit, že to za to stojí. Jakmile se tohle jednou podaří, ten uplift pro zbytek společnosti je ohromný. Musíme velmi pečlivě zvážit, zda prostředky, které to bude stát – čas i peníze – za to skutečně stojí. Klasické rčení říká, že kdo se vydává k soudu, vydává se na rozbouřené moře. Výsledek se totiž velmi těžko předpovídá.

Už dnes víme, že ve chvíli, kdy řešíme společenská témata, tedy důležité otázky, například jestli by veřejnost měla mít právo znát podrobná data o kriminalitě, počasí či znečištění, tak obvykle se to neskončí u soudů v Praze, ale většinou musí jít až k vysoké justici – tedy k Ústavnímu soudu nebo Nejvyššímu správnímu soudu. V některých případech jsme se teď obraceli na Nejvyšší soud s dalšími otázkami. Samozřejmě je to časově náročné a jsou zde i náklady na advokáta, takže musíme velmi pečlivě zvážit, kam vynaložíme své síly.

Na druhou stranu naše práce je financovaná z veřejnoprávních poplatků, takže bychom neměli s penězi ani časem, který je z těchto poplatků hrazený, nakládat lehkovážně, ale měli bychom je využívat účelně.

Jasně, chápu. Co jsou možná největší záležitosti tvé práce? Na čem jsi specializovaný, na jaké projekty nebo úspěchy kromě dat o počasí?

Myslím si, že – a tím nechci mluvit jen sám za sebe nebo náš tým, ale obecně za Český rozhlas a média – že se media velmi dobře zorientovala v covidové krizi. Začátky byly pro všechny velmi obtížné, reportování zpočátku bylo ze strany médií velmi nekvalitní, ale v průběhu času se média naučila žít s novou situací. V druhé části pandemie už poskytovala poměrně solidní práci – například i tím, že začala vyhodnocovat respondentů podle jejich kvalifikace, protože třeba to, že je někdo „moudrý“, neznamená, že rozumí dané problematice, třeba zubař nemusí být nejvhodnější expert v dané oblasti.

Média udělala mnoho bolestivých lekcí, ale myslím, že se z nich hodně naučila, ačkoliv začátky byly opravdu špatné.

Rozhodně si myslím, že na co jsem pyšný za celý náš tým, je fakt, že se podařilo etablovat datovou práci do českých redakcí. Už to není jen Český rozhlas, ale i Seznam, Economia a další, včetně menších redakcí jako Deník Referendum, které začínají používat tyto metody. Podle mě je to velmi důležité, a na to jsem určitě pyšný.

Snažíme se k tomu já i kolegové a kolegyně přispívat i tím, že učíme začínající novináře na českých novinářských školách – buď formou jednorázových seminářů, ale už máme i předměty datové žurnalistiky jak v Praze, tak v Brně. Snažíme se tak trošku posouvat celý ten prostor dál.

Pokud chceš, mohu pomoci i s dalšími částmi textu.

Tady je opravený text:

Jdeme směrem, že se snažíme třeba předávat naše zkušenosti, snažíme se tomu trochu jít naproti i tím, že drtivou většinu zdrojového kódu, který vyprodukujeme při naší práci, a dat, která použijeme, zveřejňujeme. Pokud ty data samy o sobě nejsou zveřejněná, odkazujeme na ně, ale ten zdrojový kód, který používáme k jejich zpracování, také publikujeme. Trochu si zde půjčujeme metody z reprodukovatelnosti vědeckého výzkumu, protože chceme, aby naše práce byla plně reprodukovatelná. Víme, že děláme chyby, a chceme, aby veřejnost měla možnost naši práci kontrolovat a případně ji využít. Ta veřejnost samozřejmě není úplně pro každého, ale chceme, aby ji měli možnost zkontrolovat a využít i odborníci či jiné novinářské týmy v jiných redakcích. Velmi ochotně jim předáváme informace o tom, jak technologicky něco děláme — nedržíme si to jako obchodní tajemství nebo know-how, naopak to na konferencích ukazujeme a děláme i pro bono konzultace, když někdo požádá. Ukazujeme, jak vlastně nasadit podobné projekty, abychom do veřejného prostoru něco přinesli. Myslím, že právě to je role velkých veřejnoprávních institucí, které jsou na jedné straně financovány z poplatků, jež jsou v uvozovkách povinné pro velkou část společnosti, a je tedy v pořádku, aby přispívaly do veřejného prostoru i tímto způsobem.

Samozřejmě přichází oblíbená otázka: a co dalších deset let? Možná bych to však formuloval jinak, abych tě nenutil věštit z křišťálové koule. Mám pocit, že je to tvoje téma a že pořád máš zápal a vidíš ještě hodně práce, kterou chceš odpracovat, mnoho kopců k překonání. Tak co jsou pro tebe hlavní motivace pro dalších deset let? Na co se těšíš, až budeš za deset let vzpomínat na dvacet let datové žurnalistiky? Na co se budeš rád ohlížet?

Asi bych byl rád, kdyby se nám podařilo některé postupy ještě více etablovat v médiích. Obecně bych přál, aby média tady i jinde našla nové zdroje financování a udržitelnosti, protože dnes vlastně nevíme, jak by média měla být zaplacena, zkouší se různé modely a žádný příliš dobře nefunguje. Samozřejmě uvidíme, jaká bude budoucnost, protože vidíme například v Polsku a Maďarsku, že když se země přikloní k autoritativnímu způsobu vládnutí, novináři tam velmi rychle začínají umírat na útlak. S obavami sledujeme i Slovensko. Byl bych tedy rád, kdyby se v Česku podařilo etablovat a udržet silnou nezávislou žurnalistiku ve všech podobách, tedy jak soukromá, komerční média, tak veřejnoprávní, aby byl veřejný prostor co nejvíce rozmanitý.

Jasně, tady je upravený text s opravami i lehkým stylistickým vylepšením:

Nejlepší je, aby média byla co nejvíc robustní, protože média jsou do značné míry jakýmsi obranným nebo imunitním systémem demokratické společnosti. Je potřeba mít tento imunitní systém hodně silný pro případ, že by se země začala odklánět někam, kam bychom si asi všichni nepřáli. To je rozhodně silná mise. Moc ti přeju, aby se to dařilo. Přál bych to nám všem.

Něco závěrem, co jsme ještě opomněli zmínit? Něco, co bys chtěl zvolat do éteru, aby posluchači šli na Vyběr Rozhlasu, začali zkoumat zdrojový kód nebo hledat tam chyby? To samozřejmě můžou, nebudeme se zlobit. Na webu máme security.txt, takže pokud najdete nějakou chybu přímo na webu, ozvěte se nám. Kdykoliv mají technický problém, budeme za to rádi.

Samozřejmě bych veřejnosti doporučil nedávat úplně jen na politická prohlášení a podívat se, co všechno veřejnoprávní média produkují. Často může člověk být překvapený, že to není jen zpravodajství, ale spousta zábavného obsahu, u kterého se dá velmi kvalitně trávit čas. Určitě tedy doporučuji podívat se třeba na Český rozhlas nebo Můj rozhlas.

Náš přehrávač, stejně tak produkci České televize, kterou veřejnost už docela zná z jejího vysílání. Pokud by vás zajímala víc práce našeho datového týmu, najdete naše články na irozhlas.cz, máme podcast Dataři a můžete si přihlásit i náš newsletter, který se jmenuje Data žurnál. Najdete ho na webu datazurnal.cz, kde vydáváme výběr nejen z naší práce, ale i zajímavé věci ze zahraničí a tipy na zajímavé technologie. Ten newsletter je takový opravdu obsažný, takže ho vřele doporučuji.

Super, Honzo, moc ti děkuji, vážím si toho, že jsi vyskočil z toho volebně-povodňového soukolí, abys zavítal k nám do studia a nahrál s námi tento rozhovor. Přeju tobě i vašemu týmu hodně štěstí, držím palce a snad se tady ještě uvidíme.

Díky moc, ahoj.
Ahoj, mějte se.

Děkujeme, že jste doposlouchali až sem, a díky také našim partnerům, členům DataTalk klubu. Jsou to: Intex, Zaska, Bystreet, Colors of Data, Revolt BI, GoodData, Keboola, Emark, Carl Data Company, DataMind, Notino a A Flo.

Pokud chcete zůstat v obraze ohledně české datové scény a globálních datových technologií, nezapomeňte se registrovat k odběru našeho týdenního newsletteru na datatalk.cz. Nechť vás provází data!

Kdybys chtěl, můžu ještě zkontrolovat konkrétní části nebo text více zjednodušit či formalizovat.

Podcast

Data Talk #105: Jan Cibulka (Český rozhlas)

Strojový přepis

Odebírejte Data Talk