Data Talk #32: Kateřina Lesch (Deloitte)

Do dalšího dílu Data Talk podcastu přijala pozvání Kateřina Lesch, senior manažerka Deloitte v oblasti dat a AI. Karel Šimánek a Jirka Vicherek mluvili s Kateřinou o její cestě z akademie do Deloittu, o NLP, ChatGPT i švédské teorii lásky. Uslyšíte, proč jsou data toxická, a taky o nástupu AI-generated porna.

Strojový přepis

Dobrý den, jmenuji se Jirka Vešerek. Ahoj, tady Károš Mánek. Vítáme vás u dalšího dílu DataTolku. Dnes tu máme ženu – Kateřinu Lež. Katka je senior manažerkou v Deloitu na oblast umělé inteligence a dat. Ahoj, Katko. Ahoj.

Dnes jsme si Kateřinu pozvali, protože patří mezi odborníky na zpracování přirozeného jazyka (NLP) a analýzu velkých textových nestrukturovaných dat. Je to specializace, která se v poslední době stává velmi populární. Mnoho lidí se stalo experty na velké jazykové modely, což jsou věci, s nimiž si Kateřina hrála ještě dřív, než to bylo „cool“. To je jeden z důvodů, proč ji máme tady. Druhý důvod je její střízlivý pohled na celou technologickou vlnu, o němž bychom si chtěli dnes popovídat. Povíme si také, proč jsou lidé více než data.

Než se pustíme do témat, která máme připravená, mohla bys, Katko, pro ty, co tě neznají a nezažili big data meetupy nebo podobné akce, povědět, jaká byla tvá cesta k datům a jak jsi skončila v Deloitu jako senior manažerka v oblasti AI a dat?

Začínala jsem na Matematicko-fyzikální fakultě, konkrétně na Ústavu formální a aplikované lingvistiky, který se přímo věnuje zpracování textových dat, většinou nestrukturovaných. Často se jedná o kombinace obrázků a textu. Tam jsem dělala doktorskou disertační práci týkající se tzv. affective computingu, nebo také sentimentální analýzy – tedy zpracování emocí z textu. To je mimochodem stále velmi zajímavé a náročné téma i s ohledem na technologie, které máme dnes. Výsledkem mé dizertace byl software, o který začaly firmy projevovat zájem.

Ukázalo se však, že transfer technologií funguje složitěji, než jsem si myslela. Předpokládala jsem, že když máme nějaký software, firma si ho od MatFyzu koupí, podepíšeme smlouvu, zaplatí a budou ho moci používat a modifikovat. Problém byl zejména v datech, na kterých se modely trénovaly – šlo o data uživatelů webových stránek, která někomu patřila, a nebylo jasné, komu vlastně patří i práva na výsledná data a software. Univerzita je sice teoreticky považována za open source, ale firmy potřebovaly nějakou licenci, která by jim umožnila vydělávat. Proto bylo výhodnější nechat se zaměstnat ve firmě, která měla zájem o spolupráci. Byla to Atakama, firma zaměřená hlavně na datovou kvalitu. Ta mi také umožnila pořádat big data meetupy, které se tehdy nazývaly Hadoop meetupy, protože zpracování distribuovaných dat bylo ještě v plenkách.

O jakých letech mluvíme? Řešíme období kolem let 2012–2013, možná dokonce ještě něco dříve.

A co přesně ten software z dizertace dělal? Prováděl sentimentální analýzu na nějaký specifický účel?

Hlavně na češtinu, která je specifická například tím, že používáme jinak negaci, máme dvojitý zápor, jazyk je morfologicky bohatý. Mnoho pravidel, která jsme znali z angličtiny, tehdy nebylo možné dostupnými metodami přenést, dnes je to částečně možné díky transfer learningu. Dizertace byla postavena na standardních unigramových bayesovských modelech, tehdy neuronové sítě ještě nefungovaly tak efektivně jako dnes.

Systém přiřazoval pozitivní nebo negativní emoci konkrétnímu aspektu. Tzv. aspect-based sentiment analysis jde o to, že zjišťujete, zda je text pozitivní či negativní vzhledem k nějakému konkrétnímu aspektu. Například u laptopu může být kritika jeho klávesnice. Výrobce potřebuje vědět, že se stížnost vztahuje právě k tomu aspektu. Proto bylo důležité pracovat se syntaxí, vědět, co je ve větě podmět a předmět, aby bylo možné následně agregovat informace – například „hrozný herci, ale skvělá režie“.

Když jsi přešla do Atakamy, pokračovala jsi v podobném projektu, nebo jsi začala řešit jinou problematiku?

Byla to trochu jiná problematika, ale fungující na stejném principu – kategorizace textu. Sentimentální analýza je v zásadě dvoustupňová kategorizace: nejprve se určuje, zda je obsah neutrální, nebo obsahuje sentiment, pak se rozlišuje, zda je sentiment pozitivní či negativní, případně na škále. Pohybujeme se tedy v rámci kategorizace, například bayesovské nebo klastrové analýzy – často hierarchického klastrovaní.

V Atakamě jsme se hodně zabývali klasifikací textu, například jestli e-mail řeší smlouvy, rodinu (např. vyzvednutí dítěte ze školky) či jiné téma. Šlo tedy o klasickou tematickou analýzu, která tehdy byla zajímavá zejména pro banky. Ty se o ni zajímaly pro účely CRM, kdy potřebovaly zjistit, zda klient v e-mailu vyjadřuje stížnosti, nebo například v poznámkách k transakcím – třeba že zaplatil dovolenou. Na základě toho se chtělo nabídnout klientovi např. cestovní pojištění. Hodně se tedy řešil personalizovaný marketing.

Ty jsi mi „utekla“ z té školy, protože Matematicko-fyzikální fakulta, konkrétně ústav, kde ses věnovala textové analýze, má podle mě jedno z mála velmi dobrých renomé v oblasti doktorských studií na toto téma v České republice. Asi moc podobných studií u nás není.

Mě zajímá, jak to tam vypadalo, když jsi dělal unigramové modely, následně éru n-gramových modelů (například bigramy) a jak začal boom transformerů. Jak se to změnilo, například jak studenti dělali doktoráty mezi těmito obdobími, protože to muselo být hodně zajímavé…

Bylo to trochu smutné, protože jsme byli relativně silná generace, která se zabývala strojovým překladem a dopisovala dizertace jako monografie. Profesionálně i moje monografie končila tím, že jsme na poslední chvíli přidávali kapitolu o neuronových sítích, protože v době, kdy jsme strávili čtyři roky prací, se náhle změnilo celé paradigma. Bylo to psychicky náročné, ale vzhledem k současnému vývoji a vzniku velkých jazykových modelů to bylo ještě poměrně v pohodě.

Na ústavu formální a aplikované lingvistiky se pak hodně lidí věnovalo gramatické stránce, například valenci substantiv pro doučování strojů v rámci strojového překladu. Tyto věci uměly technologie dříve vyvíjené lingvisty, ale dnes to umí neuronové sítě naučit samy z textu. To trošku ovlivnilo morálku těch lingvistů, kteří se věnovali čestě jazykové problematice.

Jak to tam vypadá teď? Působíš tam ještě, nebo už to nestíháš kombinovat s prací?

Už to nestíhám kombinovat, ale před 14 dny jsem měla přednášku o forenzní lingvistice na MatFizu. Fakulta se hodně proměnila. Například dnes studenti používají jako první programovací jazyk Python. Dřív se řešilo, jestli začít něčím nízkoúrovňovým. Někteří vyučující starší generace se obávají, že mladí studenti se neučí hlubší znalosti, ale jen „mačkají tlačítka“, posouvají embeddingy, přidávají vrstvy neuronových sítí a čekají na zázrak. Já to vidím podobně, asi jako „old school“.

A jak vypadá teď situace v oblasti zpracování přirozeného jazyka? S příchodem transformerů už není potřeba rozumět syntaxi a gramatice tak detailně, zásadní je spíš „brute force“ přístup založený na datech. Je vývoj v tomto směru stále stejný, nebo se objevují i další směry?

Stále existuje mnoho témat, například z psycholingvistiky, jako je analýza diskurzu. Patří sem třeba coreference resolution, což je detekování entit, ke kterým se text vztahuje. Jde o delší úseky textu, kde záleží na velikosti kontextového okna pro koherenci v jazykovém modelu. Je někdy obtížné udržet text pohromadě a někteří výzkumníci zkoumají, zda a jak model používá inferenci, například když řeknu „jsem unavená, koupila jsem si kafe“, ačkoliv ve větě není explicitně důvod, proč jsem to kafe koupila. To souvisí s pragmatikou jazyka, kam patří i sentiment, což jsou stále náročné úlohy pro velké jazykové modely. Proto je zajímavé studovat strukturu jazyka, aby bylo možné generovat kvalitní výstupy pro modely, jako je například ChatGPT. Jejich výstupy se také ladí a anotují ručně.

To je super, nahrála jsi mi skvělé téma! Zajímá mě, jak by vypadala práce s tvou starou diplomovou prací v porovnání s využitím moderních nástrojů a GPT frameworků. Vidíš zásadní rozdíly?

Určitě. Mnoho věcí jsme tehdy ošetřovali pravidly, například gramatickými a syntaktickými, zatímco dnes neuronové sítě dokáží poznat, že když řeknu „to je pěkně blbé“, není „pěkně“ pozitivní sentiment, ale jen zesilovač, tedy intenzifikátor. To jsme tehdy museli zakódovat explicitně v pravidlech. Emoce jsou stále simulace stavu stroje, který si na základě tréninkových dat vytváří obraz světa, ale nemá fyzický nervový systém jako člověk, takže necítí bolesti ani skutečné emoce.

Když se vrátíme k tvé práci v Atakamě – byla to práce čistě na zakázku pro klienty, nebo se to nějak odráželo i v jejich softwaru věnovaném datové kvalitě?

Datová kvalita byla tenkrát primárně založená na pravidlech – například zda dva záznamy odpovídají, i když se člověk změnil příjmení, ale stále bydlí na stejné ulici. Textová analytika byla nadstavbou. Primární data byla strukturovaná v tabulkách včetně nestrukturovaných položek. Cílem analýzy nestrukturovaných dat je je převést na strukturovaná data, tedy nakonec jde stále o práci s jedničkami a nulami. Práce byla často přizpůsobena konkrétnímu klientovi, protože data se výrazně lišila.

To nás přivádí k historickému okamžiku, kdy jste se s Karlem potkali, že?

Ano, přesně tak. Károš pracoval v Parastře, mateřské firmě Atakamy. Společně jsme úspěšně pracovali na projektech a v té komerční bance jsme dělali projekt na textovou analýzu. To byl tehdy aktuální trend, protože firmy zjistily, že nereaguje dobře, když dělají „kobercové kampaně“ pro všechny zákazníky najednou. Chtěly najít způsoby personalizace, například jestli někdo pravidelně platí nájem a má určitý příjem, je vhodný kandidát na hypotéku.

Katka tehdy spolupracovala s kolegou Tomášem Pračkou, který nyní také pracuje v Deloitu a dále s Kubou Augustínem, který působí ve Švýcarsku v Hitabriksu. Pozdravujeme celou Adastru, Atakamu a Komerční banku!

A teď jsi zakotvila v Deloitu, kde pracuješ několik posledních let. Co tě přivedlo do Deloitu? Poté se dostaneme k velkým jazykovým modelům a současnému stavu NLP.

V Atakamě byla potřeba řešit textovou analytiku do určité míry, hlavně kategorizaci. Dříve nebylo možné snadno využít opensource nástroje potřebné ke zpracování textu. Neříkám, že jsem neměla všechno hotovo, ale prostor pro výrazné inovace nebyl.

Tak přišla nová výzva?

Ano, říká se to tak, ale ve skutečnosti hledala mě. Nikdy jsem aktivně práci nehledala. Na MatFizu jsem byla rozhodnutá pro akademickou kariéru, ale protože to nebylo technicky možné, přešla jsem do průmyslu. Stále mám malý úvazek na MatFizu, ale v současnosti se věnuju…

Dlouholetý šéf, který shodou okolností nedávno odešel mimochodem do Semantic Visions, což je také velmi zajímavá firma z hlediska zpracování přirozeného jazyka (NLP) a textové analytiky, mě přesvědčil, že existuje mnoho možností, jak nabízet a zpracovávat, nebo nabízet zpracování nestrukturovaných dat klientů. V rámci Deloitu je jich hodně, nebo dokonce více. Zejména v té době to byla forenzní analýza, která byla relativně v plenkách, a bylo velmi zajímavé nastavit celý proces analýzy nestrukturovaných dat tak, aby byl automatizovaný.

Deloitte je především, nebo původně byl především auditní firmou, a v rámci auditu se často řešily nějaké podvody, tedy fraudy, krádeže know-how a podobně. Když se například šlo do nějaké firmy, sebraly se všechny notebooky, udělaly se z nich image a prohledávala se textová data, často se to dělalo ručně. Vycházelo se z klíčových slov, ale když někdo chce něco ukrást, nenapíše do e-mailu: „Ahoj Karle, pojď se mnou něco ukrást.“ Takže to často selhávalo, a hlavně to bylo pracné a dlouho to trvalo. Tím pádem to bylo i drahé.

My jsme tu kategorizaci, klasifikaci, nebo v podstatě klastrovou analýzu převážně textu zapojili právě do prohledávání nebo vyhledávání anomálií v podezřelých e-mailech a tím jsme zjednodušili celý proces. Nastavili jsme to tak, že jsme sami viděli, kde jsou výstřední hodnoty (outliery), které jsou pro nás důležité, tedy kde se zaměřit. Z desítek milionů e-mailů bylo potřeba se zaměřit na ty opravdu relevantní. E-maily se totiž musí sebrat všem zaměstnancům, nejen podezřelým, aby se lidé nesnažili dříve uniknout kontrole.

Bylo důležité identifikovat například těch několik set relevantních e-mailů, protože se tam něco děje. Z hlediska slovní zásoby se třeba často během řešení smlouvy najednou objevovala sportovní terminologie nebo jiný podezřelý obsah. Hodně často lidé také používají svou mateřštinu, takže napíšou půlku e-mailu maďarsky a myslí si, že je nikdo nezjistí. Všechny tyto podezřelé věci jsme byli schopni detekovat automaticky v rámci e-discovery.

Byla to výzva, Tomáši, pravdu říkáš.

Taková zajímavá výzva mě tam dovedla. Kromě toho tam byla spousta další práce s textem, ať už šlo o vyčítání textu z faktur, právních dokumentů nebo kategorizaci. Nakonec, v poslední době i přepisy hovorů z call center, což bylo dříve téma, když jsem začínala, hodně v plenkách a moc se s tím nedalo dělat, ale to již tak v poslední době neplatí.

Magina se ptala, na jakou pozici jsi vlastně nastupoval do Deloitte? Předpokládám, že forenzní analytik je obrovský útvar, kde je spousta různých rolí. Ta pozice analytika byla asi jen část z nich. Jaký tým jsi tam vedl, nebo jak jsi začínal?

Ty role jsou generické. Já jsem byla senior konzultant a semantic data science lead, pojďme tomu říkat jakkoli. Když jsme s Karlem začínali, oba jsme byli nadšenci do big data. To bylo všude. Tenkrát někde desítky terabytů dat, což nyní zní nostalgicky. Velká data jsou pro tehdejší notebooky pořádná výzva.

Jak si představit teď tu práci? Jak vypadá tvůj tým, jaké jsou hlavní use cases a jak vypadá tvůj běžný den?

Mluvíme trochu o tom, že lidé jsou důležitější než data, což je nadsázka, ale tým je naprosto klíčový. Jsem ráda, že je složený z expertů v oboru, z lidí nejen od nás z ústavu, kteří pracovali i v zahraničí. Jsou to lingvisté, kteří samozřejmě umějí Python nebo mají programovací základy. Mám tam například Američana Brendona, čistého lingvistu, který je nesmírně talentovaný na jazyky a velmi rychle se učí. Jsem nyní na mateřské dovolené a on v podstatě vede náš NLP tým.

Kolik vás je? Jak si představit tým? Pracujete remote, nebo se potkáváte osobně?

V nových kancelářích Deloitte, ne v parku u Hlavního nádraží, ale v majestátních prostorech s certifikací Sustainable a green smart building, kam každý absolvent chce přijít pracovat. Po covidu jsme si zvykli na práci z domova, ale každý pracuje tak, jak mu vyhovuje. Náš tým čítá asi šest lidí a je mezinárodní.

Získáváte projekty primárně z českého Deloitu, nebo pracujete i na projektech jinde v Evropě?

Jsme zaměření na střední Evropu. Tento trh není příliš velký a mnoho korporací má své vlastní datové specialisty, takže chtějí některé úlohy řešit interně. Máme ovšem projekty po celé Evropě. Zajímavá je práce na projektech souvisejících s češtinou, například na detekci a kategorizaci dezinformací.

To je velmi zajímavé téma. V korporacích tedy lidé chtějí mít své vlastní specialisty, ale v oblasti forenzní analytiky by to vlastně neměli dělat sami, že?

Přesně tak. Forenzní analytika je spíše reaktivní činnost, obvykle neříkáme firmě: „Děje se u vás něco nekalého? Chcete to nechat prověřit?“ Spíše jde o reakci na audit nebo konkrétní zjištění. Není to tradiční konzultingová práce.

Reagujete na RFP, které přichází, nebo je to primárně ad hoc?

Občas přijde RFP, na které reagujeme, ale pokud jde o forenzní záležitosti jako fraud, tak jde spíše o ad hoc záležitosti.

Děláte tedy zároveň i další projekty mimo oblast forenzní analytiky?

Ano, hlavně nyní neforenzní. Každá firma s call centrem se snaží digitalizovat a automatizovat procesy. Máme tým Honzy Heitmanka, který s námi spolupracuje a specializuje se na nasazení robotů, kteří třídí příchozí e-maily podle obsahu – objednávky, technické problémy, stížnosti – a rozesílají je dál. Díky tomu může místo padesáti lidí pracovat jeden, který dohlíží na nezařazené zprávy.

Co se týče stylu vaší práce – máte nějaká prefabrikovaná řešení, nebo všechno vyvíjíte vždy od nuly?

Záleží na firmě. Často to vyvíjíme znovu. Většinou trénujeme neurónové sítě nebo i tradiční metody jako lesní klasifikátory (random forest), podle stavu dat, jejich množství, prostředí, ve kterém běží, zda je projekt jako služba, nebo jestli si klient chce něco dělat sám. Zavedení do procesů je vždy individuální.

Tedy všechno je na míru.

Ano, právě tak.

Rád bych se vrátil k tématu „lidé jsou důležitější než data“. V kontextu současného zájmu o umělou inteligenci a obav o nahrazení lidí stroji – vnímáte na vašem týmu nárůst poptávek? Je práce více ceněná? Častěji se objevují AI a data science modely v RFP?

Myslím, že to tak bylo vždy. AI je módní slovo i před ChatGPT, každý měl rozpočet na inovace a poptávku po AI řešeních, i když šlo třeba jen o klasifikaci textu. Když lidé mohou vidět řešení, které se aspoň vzdáleně tváří jako AI, je to dost dobré.

Práce má i etický rozměr, protože je dobré zajít do zákaznického centra, mluvit s lidmi, kteří e-maily nebo fotografie zpracovávají. Měli jsme projekt, kde lidé kontrolovali například správnost naskenovaných občanských průkazů v bance. Firma tvrdila, že kontrola trvá šest minut, ale ve skutečnosti to bylo dvacet sekund. Robot pak dokázal kontrolu udělat za dvě sekundy. To byl velký rozdíl.

Takže se obsah pojmu umělá inteligence trochu mění, ale poptávky s tímto slovem tu byly dlouho.

Co pro tebe znamenal příchod ChatGPT jako odborníka a výzkumníka v oblasti NLP?

ChatGPT pro mě nebylo překvapení, spíše vyústění evoluce, kterou jsme v NLP pozorovali dlouho od transformerů a vzniku velkých jazykových modelů. Je to další krok ve vývoji, kdy se přidávají další a další parametry.

Nevnímají to jako blesk z čistého nebe, spíše jako pokračování trendu. Neuronové sítě jako princip existují desítky let, jen nyní máme hardware, který to umožňuje táhnout.

Předtím jsme se bavili o tom, že někdy výzkum není potřeba, protože brute-force řešení zvládne úlohu stejně dobře, jen lépe a bez člověka. Vidíte velké jazykové modely jako krok zpět v sofistikovanosti nástrojů? Mohou zabít jiný výzkum?

Myslím, že nyní poslouží hlavně jako dobrý pomocník. Mnoho úloh, které by jinak vyžadovaly složité trénování, může být omluvně nahrazeno využitím předtrénovaného modelu. Například ve strojovém překladu je to jasné.

Takové modely můžou usnadnit přípravné práce a uvolnit prostor na řešení důležitějších výzkumných témat.

Zajímá mě, zda se podle vás bude zlepšovat pravdivost a objektivita informací, nebo spíš přesvědčivost výstupů modelů. Například skok z GPT-3 na GPT-4 – lepší jazyk, lepší myšlení?

Obojí. S vyšším počtem parametrů jsou modely lepší co do struktury, koherence, konzistence a syntaktické správnosti.

Často ale záleží, zda jsou připojené k internetu a na zdrojích dat. Například u první verze ChatGPT na otázku o válce na Ukrajině nereagoval nebo tvrdil, že neexistuje. Reakce se liší podle vstupních dat.

Navíc otázka je, kdo definuje pravdu nebo pohled na informace – to musí udělat lidé a je to vždy subjektivní, často zaujaté.

Například zmínka o Putinovi na Ukrajině může být pro různé lidi vnímána jako skvělá, strašná nebo neutrální zpráva. To souvisí se sentimentovou analýzou a obtížností analyzování emocí v textu.

Proto je těžké hodnotit, zda výstupy generovaných textů jsou pravdivé.

Další zajímavá věc je, co nyní trápí datové vědce a uživatele modelů – výpočetní výkon. Vzhledem k obrovské velikosti modelů není dostupný nebo nedostatečný.

To vede k principům no-code a low-code, kde uživatel potřebuje znát jen rozhraní (API), aby vytvořil hodnotu.

V poslední době také vnímám iniciativy zaměřené na zmenšování modelů tak, aby měly co největší výstupní hodnotu a potřebnou kapabilitu při menších nárocích.

Zajímalo by mě, zda v Deloitte uvažujete o vývoji menšího, doménově specializovaného modelu, který by byl…

[Text končí zde.]

Těch principů je několik, základních, které by třeba mohly odpovídat například bankovnictví nebo jiným oborům. Bloomberg například nedávno uvedl Bloomberg GPT. Ano, Bloomberg GPT, a doménově specifická řešení mají velký smysl a fungují lépe, pokud chceme dosáhnout větší ověřitelnosti a přesnosti referencí. Samozřejmě záleží na konkrétní doméně, ale Bloomberg nepotřebuje, aby model byl trénován na sportovních přenosech.

Myslíš tím, že vezmeme GPT model a na něm provedeme doladění (fine-tuning), nebo že se vytvoří zcela separátní model, který se trénuje samostatně na nových datech? Obojí je možné. U GPT 2 nebo 3 to ze začátku nešlo a výstupy byly hodně ovlivněné, ale od chvíle, kdy jsme mohli začít s fine-tuningem, to fungovalo lépe. Ale stále hodně záleží na doméně. Pokud slovní zásoba není příliš rozsáhlá a jazyk domény je jednoznačně definovaný, stojí za to model natrénovat od začátku. Fine-tuningem totiž do modelu nezískáš znalosti klienta. Pokud mám to know-how správně, což si nejsem jistý, tak to funguje tak, že se tím model jen přizpůsobí způsobu komunikace. Ano, přesně tak se to vybírá.

To znamená, že pokud chceš model opravdu natrénovat cíleně na bankovnictví, je vhodné mít separátní menší model. To nás vrací k tématu, že lidé jsou víc než data. Před natáčením jsme se hodně bavili o tom, jak je kterýkoliv velký jazykový model, zejména GPT, spojený s tím, že čte naše internetové texty a zároveň se doučuje lidskou interakcí. A když se vrátím k Putinovi, pokud bude vrstva učení s člověkem kontrolována proruskými aktivisty, bude i GPT proruské, a není to jeho vina.

Jak se na tuto problematiku díváš? Kde vidíš úskalí a jak o tom přemýšlíte v Deloitu? Mohli bychom říci, že lidé jsou více než data, ale zároveň data znamenají právě lidi, protože odrážejí naši zkušenost a to, jak se projevujeme na internetu.

Je však rozdíl mezi tím, jací skutečně jsme, a tím, jak se projevujeme v psaných textech, na kterých jsou systémy trénovány. Vidíme často, že i rozumní lidé píšou nesmyslné komentáře. Když se zamyslíme, jestli opravdu odrážíme sami sebe, vidíme, že existují různé zdroje dat, jako knížky, různé knihovny a různé lidské projevy. Pravdou je, že data jsou vždy biasovaná, poznamenaná určitým zkreslením, a platí zde princip „trash in, trash out“.

Otázkou pak je, co to o nás vypovídá, když se tak snadno zvrhne jakýkoliv chatbot, s kterým komunikujeme, ve rasistu.

Když jsem toto učila studenty, vysvětlovali jsme, jak funguje rozpoznávání řeči (speech to text) a ISR, a testovali jsme Siri. Ta dostávala otázky vstřícné osobě, třeba „Máš kluka?“ místo jiných relevantnějších dotazů. Znamená to antropomorfizaci stroje? To bych zatím neviděla. Spíše lidé vždy zkouší a provokují technologie.

První lidé, kteří mohli mluvit s GPT-3, mu kladli záludné otázky. Například při tvorbě chatbotů pro bankovnictví se očekávalo, že budou lidé vyhledávat zůstatek na účtu, ale často se ptali, zda s nimi chatbot půjde na rande. I když víme, že se modely trénují na skutečných datech, lidé se snaží je obelstít a otestovat.

Je zajímavé uvažovat o tom, jak chceme jako lidstvo být v datech reflektováni.

Mluvíme o tom, zda má smysl zavést kromě datové kvality i datovou zvídavost (data curiosity) při přípravě dat, aby to nebylo jen vše, co jsme našli na internetu, z čeho pak trénujeme obří modely. Internetová data totiž rychle ubývají a je otázka, jak reprezentativní modely skutečně jsou.

Vidíme, že lidé chtějí zasahovat do dat – například když se někdo zeptá, jak udělat bombu, model na takovou otázku neodpoví. Tedy předpřipravená a vyčištěná data by mohla být reprezentativnější.

Na druhou stranu si myslím, že prostě máme to, co si zasloužíme. Data jsou toxická (data is toxic), což byla vtipná hláška na World Data Congressu, který jsem navštívil.

Jak podle tebe bude vypadat další vývoj? Bude otázka kvality dat hlavním tématem v data science, protože techniku máme už robustní a odemykají se nové use case? Budeme spíš řešit, čím krmíme tyto modely, než jak data zpracováváme?

Ano, souhlasím, budeme řešit více, co do dat modely dáváme, než jak data zpracováváme, protože to je už vyřešené. Důležitá bude i etická stránka věci a společenské dopady, které se zatím objevují teprve v diskuzích.

Chtěl bych se ještě zeptat na GPT. V Deloitu jste před tím používali spíše starší modely, a najednou přišla GPT a další technologie. Změnilo to nějak vaše use case portfolio? Přibyly nové případové studie, které dříve nebyly možné?

Zatím se mi to tak nezdá. Firmy nejsou ještě natolik vyspělé, aby technologii dobře využily, nemají přichystaná data ani na tradiční klasifikaci. Opakuje se princip „trash in, trash out“, z špatných dat nevznikne dobrá analýza.

Nemyslím, že přeskakujeme tento problém. Internet není sice kvalitní databáze strukturovaných dat, ale přesto zpracování se stále opírá o kvalitní knowledge bases.

Diskutovali jsme o projektech, které zpracovávají firemní data – například Google disk, interní dokumenty – a vytvářejí nad nimi produkty. Dříve byla data považována za odpad, dnes mohou být efektivně využita.

Před implementací kategorizace e-mailů byl pro mnoho lidí nepředstavitelný způsob, jak jinak zpracovat velké množství e-mailové korespondence než projít všechny ručně. Tato technologie tedy nové možnosti otevírá.

Nám se doposud nepodařilo pracovat s tak obrovskými datovými objemy, jako je terabajtů nebo petabajtů, protože dřívější metody v clusteru stačily. Jeden z use case byl vytvořit interní knowledge base, kde jsme třídili různé dokumenty typu RFP, NDA apod.

Největším problémem tehdy byla kvalita OCR, která se od té doby výrazně zlepšila, ale již tehdy tato technologie byla použitelná. Data na trénování jsme měli, protože lidé je už dříve řadili do složek a šlo je tedy použít pro klasickou cross-validaci.

Dostáváme se k velmi zajímavému tématu bezpečnosti dat. Pokud modely neběží na vašem IT, ale někde v cloudu, například u Microsoftu, a vy provádíte forenzní analýzu, představa o posílání dat do cloudu může být nepředstavitelná.

Máte s tím zkušenosti? Máte reálné projekty, kde jste využili klientská data a poslali je do cizího prostředí, aby model fungoval?

Ne, to se neděje. Často nesmí data ani opustit zemi, nad kterou probíhá analýza.

Za případný únik dat bychom zaplatili velikou cenu, zejména pokud jde o reputaci. Proto si s tím zatím nehrajem.

Vidím, že banky nechtěly data dávat do cloudu ani u našich projektů. Dnes je to běžnější, ale pořád existuje velké pole působnosti těch, kdo to vidí jako riziko.

V jedné bankovní organizaci, kde jsme spolupracovali, si myslím, že stále pracují dva šedesátiletí programátoři v Cobolu, bez nichž by systém spadl. Právě probíhá transformace, která má být hotová do roka.

Na jedné straně máme technologii, o které někteří „doomseri“ tvrdí, že během několika let pohltí svět, na druhé straně jsou experti na Cobol, kteří kód udržují desítky let bez důvodu cokoliv měnit. Takže asi ještě nejsme tak daleko.

Toto je zcela další úroveň – jde nejen o cloud, ale o třetí stranu, která je nad cloudem a autorizovala ji firma. To zásadně omezuje možnosti těchto modelů.

Je rizikem, že technologie, které drží v rukou jen pár firem někde v Americe, takto fungují mimo kontrolu.

Slyšel jsem, že do ChatGPT, když mu zadáš dotaz, se začíná učit z dat, která mu poskytneš, což znamená, že můžeš doučit model, přidat mu zkreslení (bias) nebo ho zmanipulovat.

Toto se skutečně diskutuje a je to důvod, proč firmy při práci s takovými modely omezují sdílení dat.

Nelze ale použít model, který je veřejný pro celý svět, a zároveň z něj tajně učit data, která jsou privátní a chráněná, aby se pak ta data nešířila dál.

Je to možná největší riziko.

Model data přežvýká, přeuspořádá a extrahuje, ale je anonymizovaný. Přesto může dojít k injekci nežádoucích dat.

Proto je dobře, že existuje podíl lidského dohledu, kdo model doučuje na základě odpovědí.

Často se setkávám s běžnými uživateli, kteří si myslí, že systém funguje zcela automaticky a magicky, ale není to tak.

Revoluce spočívá v tom, že je tato technologie nyní dostupná i laikům, kteří si s ní předtím nehráli. Díky tomu nastal obrovský hype a pocit, že nás umělá inteligence rychle převálcuje.

To, co se děje od listopadu, je spíše kontinuální vývoj.

Je pravda, že s dostupností pro běžné uživatele vzniklo obrovské FOMO (fear of missing out) i rozkvět byznysů, ale také mnoho „samo-proklamovaných“ expertů, kteří se učí během pár dní.

Já osobně dělám na AI asi půl roku a přicházím s určitými výsledky. Vnímám načasování příchodu ChatGPT jako správné.

V naší komunitě si pamatuji, jak jsme chodili na vládu, kde vznikl vládní panel pro AI strategii. Tam jsme diskutovali s odbory a vysvětlovali jim, že AI nevytlačí práci ručních dělníků, ale spíše kreativních profesí.

Je paradoxní, že dlouho se předpokládalo, že pracující u pásu půjdou první, ale svět se ubírá jiným směrem.

Vidím, že nejvíce ovlivněné budou kreativní profese.

Kde vidíš největší přínos AI? Ne nutně konkrétní profese, ale spíše úkoly.

Například při psaní textů – AI opraví chyby, pomůže formulovat odpovědi na základě promtů. Například připravíte si proslov na inauguraci, zadáte prompt a AI navrhne text, který si pak můžete upravit.

Pracuji nyní na přednášce o umění a pornu a o tom, jak jsou lidé vinou erotického obsahu často blokovaní, přitom internet je jím doslova plný. Internet je pro porno.

To je doména, kde očekávám nezadržitelný rozvoj technologie, protože lidé budou stále mít o obsah zájem.

Na druhou stranu jsou zde rizika, například revenge porn – kdokoliv může přidat vaši hlavu k čemukoliv.

Mrzí mě, že nikdo nedělá AI generovaný obsah se mnou jako modelem.

To ale může být záležitost mých dětí.

Je to dvousečné – občas je snad lepší koukat na obsah vytvořený AI, než na skutečné fotky, které někdo neopatrně vyfotil a zveřejnil na internetu.

Vidím v tom určitý pozitivní aspekt.

Je to ale jiná diskuze, kde já osobně věřím, že člověk není zodpovědný za to, k čemu ho přirozené sklony vedou, například pokud jde o pedofilii.

Věřím, že člověk s takovýmto sklony se může integrovat do společnosti a…

Vím to o sobě a chovám se slušně, takže tam není žádný příznak. Narodil ses s jiným extrémem. No, ale toto mimochodem se týká různých preferencí různých lidí, to nemusí být nutně něco, co je považováno za úchylku, ale prostě věřím tomu, že například Černoši z Ohaja mají jiné preference než lidé z Holní Dolní, a ti si to pak mohou naklikat a dokážou si představit, že toto celé skončí nějakým vyloženě personalizovaným internetem, kde američtí katolíci neuvidí kojící matku, kdežto Pepa z Holní Dolní bude mít na první dobrou přístup ke všemu, co ho baví a láká. Bezpečně, aniž by to nutně ohrožovalo jakékoliv živé lidi, kteří na druhou stranu na tom mají založenou živnost. No, to je pak taky otázka – kdy je to dobré a kdy špatné.

Mě taky překvapilo, jak vlastně Myšlenin hacknul jazyk a komunikaci za mě. Já chat GPT a GPT používám denně a změnila mi totálně práci. Moje práce je velmi textová, práce s jazykem a je to nedocenitelný pomocník, který už teď dělá disrupci na mém trhu. Pro mě je to stejné jako překladače. Když odemkli angličtinu a možnost dělat obsah v angličtině, tak když byl Google Translator takový, že jste to museli opravovat, teď už do toho vkládám hrozně málo oprav, takže generuju články, titulky, potom vybírám, ale to zrychlení je neskutečné.

No a zase, ať nezlenivíme, já to taky vidím. Mám tři malé děti a když mi řeknou, že chtějí pohádku o masožravé rostlině, která šla na výlet s růžovým slonem, a mně se zrovna nechce vymýšlet celý příběh o tom, jak masožravá rostlina potkala růžového slona, tak prostě zadám: „Napiš mi pohádku na dané téma,“ a ještě bych tam chtěla figurovat nějaké konkrétní živé osoby. To je zajímavý use case a mám prostě výsledek. To je můj use case taky, na kterém bych se jinak natrápila v nějakém částečném limbu po celodenním odpovídání na otázku „proč?“. Takže za matky je tohle třeba dobré využití, nebo za rodiče obecně.

Mě by určitě zajímala ještě jedna oblast, když teda odejdeme od pohádek, například GPT a porno.

Ještě nedávno se děly docela věci, protože třeba, jestli jsi zaznamenala – předpokládám, že ano – jak teď Elon Musk a lidi kolem něj udělali obrovskou petici, aby to všechno zastavili. Co si o tom vlastně myslíš? Druhá otázka, která s tím asi souvisí: Je tohle cesta k AGI, jak se na to všichni ptají, nebo ne?

Ježiš, no, netlač řeku. Sama nevím, co si ti lidé myslí, že řeknou: „Prosím, prosím, potřebovali bychom trochu víc času,“ mimo jiné se asi individuálně připravit na to, abychom z toho sami také mohli něco mít, a úplně nestíháme se tomu přizpůsobit.

Je pro mě těžké zatím číst nějaký úplně boholibý záměr na záchranu lidstva, spíš to vnímám prospěchářsky a z hlediska, jestli je vůbec možné, když už jsme toho džina z láhve dávno vypustili. Takže si myslím, že je to spíš takový trochu legrační tah.

Nemůžeme to přirovnat k farmacii jako k něčemu, co má být velmi silně legislativně ošetřeno a kde jsou nějaké checks and balances, které prodražují výzkum a prodlužují jej. Samozřejmě, v farmacii to má spoustu negativních dopadů, ale tohle taky může zabíjet lidi, jasně, ono to tam být musí. Ale teď už je to nezastavitelné, i kdyby to podepsala půlka světa, ta věc už si žije svým životem.

Chápu to jako gesto, chápu, že je potřeba legislativa kolem a nějaká regulace, na které se pracuje. To je taky hodně sporná oblast na mnoha úrovních a jasně, případy se už dějí. Teď jsem právě četla, že se nějaký člověk četoval s chatem GPT o klimatické krizi a na konci dialogu se zabil, protože mu to prostě řeklo, jak se věci mají, a on to neunesl. A čí je to vina? To je otázka.

Německo to radši zakázalo, berou to vážně, co jsem někde četla. Bůh ví proč. Ale vymahatelnost je jiná věc. Zakázat si samozřejmě můžeš, ale navíc se tím brzdí všechny ty pozitivní aplikace, které s tím souvisí a mohou mít velký užitek. Třeba teď, souvislosti s obrázky, například v medicíně pro diagnostiku, to bych to nevnímala úplně negativně. Každá technologie je dobrý sluha, ale zlý pán.

Tohle bych nevnímala čistě jako hrozbu. Musíme se s tím naučit žít a pracovat, respektive spolupracovat. Tak to asi je přirozený řád věcí. Tím, že to na půl roku stopneme, si nemyslím, že bychom něco získali.

Co bys navrhovala tedy ty? Co je tvoje uvažování o tom, co by bylo třeba do budoucna řešit? Bavili jsme se tady o datové kvalitě, o biasu, o etickém použití, o diskuzích o tom, co je pravda a kde je kontroverze, o personalizovaném internetu. Co jsou pro tebe priority? Nejsme schopni na šest měsíců to zastavit, co bychom během těch šesti měsíců měli vlastně řešit? Je to právě AGI a AI alignment, abychom neskončili špatně? Nebo je to spíš legislativní rámec ohledně použitých dat a jak s nimi nakládat?

Pro mě je to především edukace laické veřejnosti, vzít to prostě od začátku. Protože tímto bude generovat seminárku každý druhák. A dbát na to, aby i učitelé nebo lidé zodpovědní za vzdělání to nevnímali jako konkurenci, hrozbu nebo zlo, ale uměli se to naučit společně s dětmi, spolupracovat na tom, učit se více dbát na to, odkud čerpáme informace, a ověřovat, zda jsou pravdivé nebo relevantní.

Jak jsme už několikrát zmínili, vše to zní velice plausibilně, ale prostě se to může vymyslet. Já jsem GPT kladla i otázky z historie, kde prostě tam lítali staletí sem a tam, a pokud člověk nezjistí, že ten stroj není spolehlivý, snadno mu to uvěří.

Dále osvětla i stran návykovosti těch technologií a kam může vést komunikace s chatbotem, pokud se člověk zasekne a dostane se do sociální izolace. Už teď vidíme, že lidé mnohdy preferují takovou komunikaci, zatím možná ještě se živým člověkem, ale spousta lidí má paniku vůbec zvednout telefon nebo se osobně setkat, například při online seznamování.

Ten datingový průmysl je stovky let starý problém. Když tam bude dokonalejší předbot, který mě nikdy nesklame, tak se může stát, že lidé tomu začnou propadat. Takže já bych se spíš soustředila na edukaci, na to, jak s tím zacházet, jak se lépe chránit z hlediska digitálního detoxu. Vidím to na sobě, je to návykové, když se s tím člověk pořád baví a napadají ho stále nová témata.

Zároveň vidíme na dětech, že je to něco nového a zajímavého. Oni s tím asi od malička porostou a budou s tím žít. Je ale také možné, že se dostaneme do stejného stádia jako s kouřením, kdy je úplně normální nebýt neustále dostupný na telefonu a během víkendu se úplně odříznout, vypnout.

Myslím, že to půjde tímto směrem, že se budeme víc dívat na to, jak to ovlivňuje komunikaci, kognici a mozek.

Mně osobně se moc nechce tomu věřit, ale líbila se mi tvoje naděje, že každá akce vyvolá reakci. O tom jsme mluvili před natáčením, takže to možná jen shrnu.

Říkali jsme, že by člověk měl mít k dispozici denní penzum informací o tom, kde všude máme svá data, co se s nimi děje, a případně jak s nimi nakládat.

To je jedna část – edukace, díky které si uvědomíme, že data jsou krmivem pro algoritmy, a že to je naše hodnota. V digitálně stále více propojeném světě jsme čím dál více jen vstupními daty.

Druhá část, na kterou jsem narážel, je, že začneme utíkat do lesa, do fyzického světa, protože už máme dost virtuality a prefabrikovaného, podobně jako dnes. Jíme zdravěji, více se hýbeme než před 20 lety, což může být reakce na kancelářský styl života.

Kdybys to mohla rozvést, protože je pro mě těžko uvěřitelné. Mluvila jsem o zahlcení a před podcastem jsem sháněla bagr na chalupu. Vidím, jak dobře dělá koukat do zeleně a mít chvíli vypnuté zařízení a poslouchat potůček za chalupou.

Můj muž je neurovědec, takže podobné hovory vedeme často. On přesně ví, jak dopamin funguje v určitém prostředí, a proto taky drží naše děti dál od technologií.

Jak jsme mluvili, myslím, že to je nezanedbatelná součást psychohygieny a může to být reakce na zahlcenost digitálním světem. Myslím, že se už částečně obracíme tímto směrem.

Například velkým trendem jsou dnes lesní školky a zdravý životní styl obecně, jak říkáš. Asi ani nemáme jinou možnost, protože mám pocit, že nás digitální životní styl fyzicky ničí. Koukání na obrazovku 16 hodin denně zničí záda, oči a dokonce i mozek a paměť hrozně trpí.

Můj muž z pozice neurovědce často mluví o tom, že se přestáváme pamatovat věci. Přijde mi to jako přirozená reakce na zahlcení, ale vnímám to z pozice člověka, který v technologiích žije a dává si na data pozor.

Pamatuju si, jak všichni začali nosit naše prstýnky a analyzovat každý spánek, ale já nechtěla mít žádný takový gadget a telefon pravidelně odkládám. Takže si na data dávám opravdu pozor, ale zároveň tím žiju.

Možná laickou veřejnost teprve čeká toto prozření, že s tím budeme muset chvíli experimentovat, než přijde vystřízlivění nebo znechucení. Možná to nikdy nenastane, podívejme se do Japonska. Možná se společnost opravdu vyvine směrem, který nás izoluje s technologií, a je otázka, co se stane potom.

Je výborný dokument jménem „Švédská teorie lásky“, kde Švédsko klade větší důraz na individualitu než na rodinu. Spoustu věcí mají automatizované – všechny platby nájmů a bankovní příkazy běží automaticky.

Zjistili, že museli zřídit speciální oddělení pro dohledávání rodinných příslušníků, protože lidé umírali a nikdo si toho nevšiml. Potřebujeme se dostat tak daleko.

„Švédská teorie lásky“ – na to se tady s Karlem jistě podíváme.

Co ty si z toho bereš pro svůj každodenní život? Říkala jsi, že vaše děti držíte trochu dál od digitálních technologií a snažíte se jim vybudovat zdravé návyky. Jaké další aplikace tohoto trendu pozoruješ nebo využíváš?

To, co aplikuju ve svém domácím juniorním týmu, se snažím praktikovat i ve starším týmu v práci, kde je potřeba lidi dobře znát.

Chci znát svoje děti, chci se s nimi normálně bavit, aniž by požadovaly jen zapnutí televize nebo pohádku. Čím víc jsem zahlcená technologií, tím víc bábuju po lidském kontaktu.

Související i s pandemií, kdy se všechno začalo dít online. Jsem ráda, že já se teprve vracím z mateřské dovolené, ale v týmu jsou lidé, kteří iniciují například karaoke noc, prostě setkání, kde nebudeme analyzovat data, ale mluvit o běžných věcech – například kdo dostal kopačky, protože člověk nebude chvíli podávat dobrý výkon, a to je v pořádku.

Je důležité zachovat transparentnost a umožnit lidem cítit se dobře. To je zdravé i pro firmu, protože když se lidé cítí dobře, odvádějí lepší výkon než když jsou na vážkách a nikdo o tom neví, protože se jich nikdo nezeptal.

Moc se mi líbí, když to shrnu, že bych chtěla, abychom na stroje koukali jako na stroje sloužící lidem a na lidi jako na lidi, ne jako na stroje. Krása a síla je v té kombinaci.

To slyším a je to sentiment, který mě hrozně těší, že vyplouvá na povrch v každé naší konverzaci.

Je to tak, také jsem za to ráda.

Dnes už bylo asi hodně. Prošli jsme tvůj příběh, GPT, DALL·E, hodně témat, i porno. Porno bude mimochodem titulek tohoto podcastu. Přesně – švédská teorie lásky, všechno máme. A spoustu věcí, které zde neuslyšíte.

Moc ti děkujeme, že jsi tady s námi byla.

A za nás určitě nejsi naposledy v Datatolku, protože to povídání bylo super.

Karel už plánuje speciály pro naše posluchače, tak bychom tě rádi viděli i v nějakém speciálu, třeba i na datameši, pokud ti děti pustí.

Já děkuji za pozvání a ráda přijmu další.

Děkuji moc.

Ahoj.

A to je všechno. Díky, že jste doposlouchali další díl Datatolku. Děkujeme také našim partnerům: Big Hubu, Vypnoutu, Mantě, Natynu, Atakamě, Gene Beamu, Seznamu.cz a A Muse.

Pokud vás zajímají další informace ze světa datových technologií a československé datové scény, navštivte naše stránky datatolk.cz.

Nechť vás provází data.

Podcast

Data Talk #32: Kateřina Lesch (Deloitte)

Strojový přepis

Odebírejte Data Talk