Data Talk #60: Jakub Šuster (elv.ai)

V dalším díle Jakub Šuster z elvAi povídá o řešení dezinformací a nenávistného obsahu online. Poví i o tom, jak založil startup elv.ai, jak jsou postaveny jejich modely, a jak probíhá proces označování a hodnocení nenávistného obsahu. Ukáže nám, jakým způsobem a kolika lidmi řídí své operace, kolik komentářů analyzují měsíčně, a jakou část slovenského mediálního trhu ovládají. Také nám poskytne pohled na to, jak se content moderation provádí ve velkých firmách, a proč je to klíčové pro zvyšování engagementu a růstu počtu followerů. Navíc se ponoříme do toho, jak jsou modely v elv.ai trénovány, aby efektivně zpracovávaly komplexní slovíčka jako „prdel“. Dílem vás provedou moderátoři Jirka Vicherek a Hynek Walner.

Strojový přepis

Dobrý den, mé jméno je Jirka Vicherek.

Dobrý den všem, mé jméno je Hinek Volner. Vítáme vás u dalšího dílu Data Talku. Dnes k nám do studia zavítal zahraniční host.

Přesně tak, už jsme mezinárodní podcast. Vítáme tady Kubu Šustera.

Ahoj, Kubo.

Ahoj, Hinku.

Kuba je zakladatel a CEO slovenského startupu Elf AI. Elf AI je poměrně mladý slovenský technologický startup, který se zabývá vlastně content moderation, tedy moderováním obsahu a nenávistnými projevy na sociálních sítích a internetu, dezinformacemi a podobnými věcmi.

Jakub k nám zavítal, aby nám pověděl, jak to s hate speechem, dezinformacemi a daty vlastně je a jaká řešení nabízí právě Elf AI. Než se dostaneme k tomu, pověz nám, jak se z tebe vlastně stal startupista?

Byla to velká náhoda, protože jsem nikdy neměl ambici dělat tech a podobné věci. Jsem vystudovaný ekonom, politolog a politický marketér. K tomuto oboru jsem přišel, jak se říká, náhodou. Bylo to právě skrze komunikaci a uvědomění si, že společnost dnes čelí obrovskému problému s dezinformacemi a nenávistnými projevy, obzvlášť na internetu, což je problém i na Slovensku, a ten je podle všech ukazatelů jeden z nejrozšířenějších v Evropě.

Když začala válka na Ukrajině, rozhodli jsme se, že s tím chceme něco dělat. V té době jsem pracoval v agentuře New School Communications na pozici executive ředitele, řešil jsem primárně klienty, ale rozhodli jsme se, že chceme dělat něco jiného. Měli jsme na výběr dělat komunikační kampaň, jako většina PR agentur, že podpoříme Ukrajinu a tak dále, ale my jsme chtěli dělat něco, co bude mít skutečnou přidanou hodnotu, co bude řešit reálný problém.

Identifikovali jsme, že média a veřejné instituce v boji proti nenávisti a dezinformacím na internetu selhávají v základní věci, a to je třeba to, že neupravují komentáře pod svými příspěvky. Řekli jsme si, že to je zajímavé, s tím by se dalo něco dělat, a začali jsme to zkoušet. Najali jsme první lidi a začali čistit první komentáře.

Jak k tomu přistupovali? Můžete to představit úplně jednoduše, že jste najali bandu studentů a stážistů, hodili jste jim komentáře a řekli, když ti to bude připadat zvláštní, nenávistné, tak to smaž? Bylo to zčásti tak, ale samozřejmě jsme si uvědomili, že nemůžeš pustit jen tak někoho pod stránku média, aby klikával, co chce, bez pravidel.

Proto jsme vytvořili první manuál, ve kterém jsme definovali, co je v pohodě, a co není, abychom věděli, jak kvalitu hodnotit, a zároveň jsme to klientům ukázali — že toto za nás není v pořádku, vidíte to stejně? Pokud ano, můžeme vám pomoci.

Takže první várka našich „elfů“ byli studenti, hlavně ti, kteří se zabývají sociálními vědami, politologií, psychologií a podobně. Byli jsme velmi překvapeni, když jsme vyhlásili první výzvu a během několika dní se přihlásilo sto lidí, kteří to chtěli dělat. Já bych se určitě nepřihlásil, i když smyslu a misi věřím a také bych rád, aby sociální sítě byly bezpečnější.

Jak to pokračovalo dál? Kdo byl první, u koho jste začali řešit tu moderaci obsahu?

Prvním médiem, které jsme napojili, byly Aktuality. Následně to byla Deník N a Refresher. Začali jsme to dělat a klienti nám začali reálně ozývat, že vidí změnu a že jsme to udělali dobře.

V té době byla témata obsahové moderace v médiích velkým tématem, všechna média se hádala o to, kdo moderuje a kdo ne. Začala nám zvonit telefonní linka a vznikly kolečka lidí, kteří o tyto služby stáli.

V první fázi jsme nekonali žádný prodej, odpovídali jsme jen na zájemce. Původně jsme to celé dělali jako CSR aktivitu, protože jsme v tom viděli smysl. Peníze, které jsme dostávali od klientů, šly přímo lidem, kteří pracovali na moderaci.

Prvně to bylo něco, co jsme řešili večer po práci nebo při kávě s kolegy. Ale jak začalo přibývat klientů, komentářů a práce, bylo jasné, že to roste.

Jak fungovalo to nabírání a následné udržení lidí? Předpokládám, že při rostoucím objemu práce nebylo možné to udržet jen takhle.

Přesně tak. Tento bod nastal někdy v září minulého roku, kdy jsme měli asi 45 elfů a řešili přibližně 250 tisíc komentářů měsíčně. Viděli jsme, že to dál nejde škálovat. Spravovat 45 lidí bylo časově náročné a navíc jsme používali nástroje jako Balazsov Svíra nebo FanPage Karma, které nebyly uzpůsobeny obsahu moderace.

Při rostoucích objemech komentářů se takové nástroje nedaly udržet efektivní. Proto jsme si uvědomili, že je potřeba něco změnit.

V tu dobu jsme narazili na Juraje Bezdeka, odborníka na zpracování přirozeného jazyka (NLP) a na implementaci umělé inteligence (AI). Rozhodli jsme se, že vytvoříme první modely a zkusíme automatizovat tento proces.

Jaká byla první věc, do které jste se pustili?

Prvně jsme si museli říct, jak vnímáme content moderation filozoficky — kde je hranice mezi svobodou slova a cenzurou. Naši klienti jsou média a veřejné instituce, takže je velmi jemná hranice, kterou nechceme překročit.

Všechny modely i nástroje mají své limity a je běžné, že dojde k tzv. false positive (chybné klasifikaci). Už od začátku jsme proto řekli, že do moderace chceme zapojit i lidi, a to v reálném čase.

Nebude jich sice 50 nebo 100, ale někteří lidé musí být přítomní a moderovat ručně.

Pak jsme začali trénovat první modely, data z předchozího fungování jsme labelovali (označovali). Zjistili jsme však, že konzistence lidských anotátorů není tak vysoká, jak jsme si představovali, takže jsme museli všechna data předělat a trénovat model znovu.

Na konci loňského roku jsme tedy byli schopni automatizovat část procesu a škálujeme méně lidmi.

Kdy jste si řekli, že to přestane být jen CSR projekt a stane se z toho startup a firma?

Ke konci roku jsme začali řešit úplně jiné výzvy — software, sales, marketing a všechny věci kolem byznysu. Viděli jsme, že tomu věnujeme hodně energie a že už to nelze dělat jen ve volném čase, po večerech.

Stáli jsme před rozhodnutím, jestli projekt uzavřít jako případovou studii, nebo to oddělit a založit firmu.

Rozhodli jsme se pro druhou možnost, protože vidíme smysl a chtěli jsme tomu dát dedikaci — čas, energii a zdroje.

To znamenalo vytvoření byznys modelu, oddělení od agentury, rebranding, hledání investora, a podobně. V té době jsme ještě netušili, co nás čeká, ale po několika dlouhých schůzkách a kole kafe jsme rozhodli jít do toho.

A z tebe se stal zakladatel a CEO? Nebo kdo měl nejblíže k projektu z tvého okolí?

Já jsem u projektu byl od začátku, znal jsem ho dokonale a bylo přirozené, že jsem jej vedl dál.

I když tehdy jsem ještě moc nevěděl o startupovém životě, tušil jsem, že to znamená pracovat od rána do večera a tím žít.

Nemám rodinu, děti ani hypotéku, takže jsem byl ochoten riskovat. Všichni známe statistiky o úspěšnosti startupů, ale já jsem říkal, že mám čas a prostor riskovat, a chci do toho jít.

Od té doby, co jsme seděli v zasedačce se spoustou kávy a počítačů, uplynulo už hodně času a teď když firma existuje, představ nám Elf AI jako firmu a produkt.

Naše mise a poslání se nezměnily. Stále chceme budovat čisté online prostředí, kde se lidé mohou vyjadřovat bez obav, že budou napadáni nebo že je někdo bude posílat na doplnění.

Současně chráníme z pohledu klientů jejich značku — brand safety. Nikdo nechce mít pod svými příspěvky nenávistný obsah.

Co se ale změnilo, je spousta věcí na pozadí.

Začali jsme vyvíjet nové uživatelské rozhraní, které je klientsky přívětivější.

Zároveň přemýšlíme, zda vytvářet modely speciálně pro jednotlivé země, nebo jeden multilingvální model.

Další velkou věcí byla investice — hledali jsme investora a nakonec jsme jej našli: Milan Dubec, zakladatel Pocket Suezitu, který nám od začátku velmi pomáhal.

Naši primární klienti jsou tedy média a veřejné instituce, kterým pomáháme čistit komentáře pod příspěvky na sociálních sítích nebo webových stránkách.

Prakticky dokážeme integrovat cokoli, co má API.

Jak to tedy konkrétně vypadá z pohledu klienta? Můžeš nás provést implementací?

Pokud jsem klient a chtěl bych moderovat, například mám malé médium a nechci mít pod příspěvky nenávistné komentáře a rád bych moderoval komentáře na LinkedInu pod každým příspěvkem — je to velmi jednoduché.

Získáme přístup k Facebook stránce klienta v té nejnižší možné míře, tedy nemáme možnost publikovat ani vidět nic jiného než komentáře určené ke kontrole.

Poté to zaintegrováme do našeho softwaru a skrze API stahujeme komentáře z Meti nebo jiného zdroje.

Následně první krok kontroluje umělá inteligence, která vyhodnotí komentář jako: jsem si jistý, nejsem si jistý, viděl jsem to, neviděl jsem to.

Pokud si systém není jistý, posílá komentář ke konečné kontrole lidskému moderátorovi.

Právě toto hybridní nastavení AI a lidské kontroly nám dává kvalitu, kterou nakonec chceme dosáhnout.

Říkal jsi, že stáhnete komentáře přes API a AI je vyhodnotí jako první — je to váš vlastní model, nebo používáte chat GPT API nebo open AI API?

My jsme začali s modelovým základem SlovakBert, který pochází z Kinitu. Na něm jsme začali a pak jsme ho doladili (fine-tuning) podle našich dat, která jsme měli z konkrétních sociálních sítí a která jsme označovali pomocí AI i lidí.

Co tě třeba nejvíc překvapilo na procesu označování (labelování)? Máš nějaký moment „aha“ nebo anekdotu, kdy model vyhodnotil něco nečekaně?

Dobrá otázka. Protože nemám technický background, hodně věcí jsem se učil za pochodu.

Například při trénování prvního modelu jsme dali data, která byla dříve označená, ale zjistili jsme, že konzistence (soulad) těchto označení byla velmi špatná.

Bylo jasné, že nelze věřit všem lidem úplně stejně.

Jeden člověk komentář klasifikuje tak, druhý jinak, a AI pak neví, co má s takovým komentářem dělat.

Tato nekonzistence byla pro nás velkou výzvou.

Proto jsme dělali dodatečné školení, kontroly kvality označování a zavedli úplně jiné procesy pro lidi.

Zpočátku jde snadno: sedni k počítači a označuj „dobrý“, „špatný“, ale když role měníš tak, že už trénuješ AI, musíš být velmi pečlivý, protože to, co označíš, se použije k dalšímu trénování.

Špatné označení znamená náklady navíc na přeškolování a kontroly.

Jak dobře se to vlastně dá udělat? Pro mne je to nekonečně složité, definovat, co je nenávistný komentář, co je dobré a co špatné morálně, co tam má být nebo ne.

Máme věci, které jsou naprosto jasné — například komentář obsahuje vulgaritu, nadávky nebo výzvy k násilí typu „jděte všichni do plynu“ nebo „měli byste viset“, tam je to zřejmé.

Pak jsou jasné komentáře, které jsou v pořádku — třeba „mám rád Radia Blička“ nebo něco podobného.

Pak je asi 20 % komentářů, které jsou tzv. šedá zóna, tam se pohybuje snaha lidského moderátora.

Naše pravidlo, které považuji za důležité, je: když si nejsi jistý, nech to být.

Chceme se vyhnout obvinění z cenzury nebo nesprávného zásahu.

Další důležitá věc je politika — ta vyvolává emoce, vášně i nenávist, a to vidíme i v komentářích.

Další pravidlo pro nás a pro trénování modelů je, že jakýkoli politický názor vyjádřený slušně zůstává.

Čistý souhlas nebo nesouhlas je úplně v pořádku.

My řešíme podstatu toho, co je špatné nebo nenávistné.

Takže to je třeba shrnout…

e. Když ty jako člověk nyní napíšeš pod nějaké médium, že Rusko je super, doufám, že vyhraje, nemusím s tím souhlasit, nikdo s tím nemusí souhlasit, ale je to tvůj politický názor. A pokud jsi opravdový člověk a máš opravdový profil, zůstane to tam. Jiná situace je, když jsi falešný profil s kočičkou a kvítečky a dalších deset tvých statusů je psaných automaticky. Tak asi vidíš, že…

Jak moc tím pádem vy, jako LFAI, řešíte dezinformace, nebo nějakou primární propagandu a psyops, když bych to dal, a jak moc je to hate speech, tedy nenávistná řeč, a reální lidé, kteří říkají škaredé věci na internetu, protože je to virtuální prostor, tak se nechovají slušně.

My jsme původně šli do celého projektu s tím, že chceme řešit dezinformace. Ale když jsme to začali řešit, zjistili jsme, že dezinformace jsou samozřejmě problém, ale ne tak velký jako nenávist. To, na co jsme přišli, je, že zhruba 80 % toho celého “bahna” na sociálních sítích tvoří právě urážky lidí. Je tam nenávist, homofobie a různé formy hate speech, které se ti na základě toho, co se děje ve společnosti, objevují a snižují se, a najednou ti to někde vybuchne a zjistíš, že na toto jsme ještě model nenatrénovali. Byli byste velmi překvapeni, jak jsou lidé kreativní, když chtějí někoho urazit. Takže tak.

Abych odpověděl na otázku – když vyřešíme samozřejmě tu nenávist, dostaneme se ke dezinformacím, a tam už je to úplně jiná hra. U dezinformace musíš nějakým způsobem fakt zkontrolovat pravdivost. To znamená, že musíš více přemýšlet, dohledat si zdroj a tak dále.

Kdybych to měl shrnout, content moderation má tři stupně. První stupeň jsou vulgarismy a nenávist, což je poměrně jasné – nadávky, výzvy k násilí a tak dále. Druhý stupeň jsou dezinformace, které už musíš opravdu ověřit a zkontrolovat. A pak je tu ještě nelegální obsah, což je velmi zajímavé i v kontextu Digital Services Act.

K tomu, aby jsi odhalil nelegální obsah, potřebuješ někoho s právnickým vzděláním. Samozřejmě o legálnosti a nelegálnosti rozhoduje soud, ale potřebuješ někoho, kdo data označí. Takže content moderation je poměrně široké téma.

Co patří mezi nelegální obsah? Jsou to například krypto sklámy či podobné věci? Ano, to do toho spadá. Nelegální obsah samozřejmě zahrnuje i věci v trestněprávní rovině. Pokud někomu v komentářích řekneš „choď do prdele“, není to hezké, ale nelegální to není. Ale když někomu řekneš „počkáme si na tebe večer a uvidíš, co se stane“, už jsi na hranici nebezpečného vyhrožování. Takže tak.

Zmínil jsi tzv. shadow zone mezi příspěvky, které jsou jednoznačně v pořádku, a těmi, které jsou špatné. Jak do toho zasahují klienti? Liší se to u různých klientů? Chtějí nastavit nějaké parametry jinak? Může se stát, že nálada je odlišná a podle toho to upravujete?

Určitě. Máme dva způsoby fungování. Jeden je, že máme naše obecné modely vytvořené pro určitý typ moderace od přísné až po benevolentní. Pak jsou klienti, kteří chtějí něco speciálního, například LGBT problematika je pro ně absolutní “no go” v jakékoli podobě a chtějí takové komentáře mazat bez diskuze.

Na druhé straně jsou klienti benevolentnější, kteří dovolují, aby se lidé hádali a říkali si různé věci typu „jsi debil, jsi somár,“ ale pokud jsou tam tvrdé urážky, chtějí je mazat. Takže máme obecné modely a možnost speciálně trénovat modely podle požadavků klientů.

Samozřejmě s tím jsou spojené náklady na hostování modelů, což klientům ukazujeme, a oni na základě toho rozhodují, co jim stačí.

Když se podíváme na tu problematiku českého a slovenského jazyka – například slovo „prdel“ nemusí být vždy negativní, může být i pozitivní. Měli jsme tu například Katarínu Leš, která říkala „dělám si z tebe prdel“, nebo „včera na večírku to byla fakt prdel“. Může být tedy i pozitivní kontext. Jak jste se s touto problematikou vypořádali? Pomáhá vám model? Už jsou modely tak dobré, že chápou kontext?

Ano, štěstí máme. Na druhou stranu nevíš, co se ve společnosti stane v budoucnu. Důležitá je proto část lidí, kteří přispívají do trénování těchto modelů jazykovým a sociálním kontextem. Naším cílem je vytvořit síť content moderátorů v jednotlivých zemích, kteří dodržují jednotný standard moderace a zároveň chápou sociální i jazykový kontext.

Praktický příklad je naše expanze do Česka, která právě probíhá. Nejprve jsme si mysleli, že nepotřebujeme české moderátory, protože slovenští moderátoři rozumí češtině tak nějak dostatečně, například koukají na ČT24 a je to v pohodě. Ale pak jsme zjistili, že slovenský moderátor české diskuse moderuje pomaleji a nemá dostatečný kontext. Potřebuješ proto lokální lidi, kteří vnímají, co se ve společnosti děje, jestli je něco aktuální téma nebo není, a jak podle toho reagovat.

Zmínil jsi rychlost moderace. Jak to probíhá v praxi? Když napíšu nenávistný komentář, jak dlouho trvá, než ho smažou – v sekundách, minutách?

Pokud jsou to zjevné věci, jde to v řádu sekund. Pokud model neví, co s tím má dělat, dostane to poslední krok ke kontrole člověka, a pak je to otázka jednotek minut.

Máme dělené směny po 12 hodinách každý den, hodiny nebo dvouhodinové bloky, takže někdo na moderaci je neustále a řešení probíhá v reálném čase.

Ve srovnání s tím, kdyby si to médium mělo dělat samo in-house, je to mnohem lepší řešení, protože když máš velké médium s denně 6 tisíci komentářů, potřeboval bys několik content moderátorů na plný úvazek. A já bych rád viděl toho člověka, který by osm hodin denně seděl u internetu a četl ty věci, to je nereálné.

Náš přístup proto také zahrnuje nastavení limitů pro tyto lidi – mají maximálně jednu směnu a pak musí mít pauzu, aby neztratili víru v lidstvo.

Takže automaticky jde o jednotky sekund, pokud je potřeba lidský zásah, pak jednotky minut.

Samozřejmě, pak je otázka, jak funguje API, zejména u firmy Meta, což je takový úzký bod.

Jak vám to funguje na Slovensku a jak věci stojí v současnosti? Někde jsem četl, že už obsazujete třetinu mediálního trhu. Jak to máte? V jakém jste rozpětí? Jak si představit současný byznys na Slovensku, když jdete pomáhat také v Česku?

Aktuálně moderujeme jednu třetinu slovenského mediálního trhu. Máme také veřejné instituce jako zastoupení Evropské komise nebo Ministerstvo zahraničí. Naše služby jsou relevantní pro kohokoli, kdo má hodně komentářů a nedokáže je sám zpracovat. Například největší slovenská zdravotní pojišťovna je naším klientem.

Měli jsme testy i u influencerů, ti si moderaci dělají sami a spolupráci s námi nechtějí.

Celkově moderujeme 86 profilů na českém i slovenském internetu pro 27 klientů.

Z těch mediálních, které znám v Česku, máte ty největší jako televizi Markíza, televizi JOJ, News and Media Holding, Refresher a další.

Kolik komentářů takto projde měsíčně?

Měsíčně je to zhruba 1,2 až 1 milion komentářů, což je už pořádné číslo. Denní průtoky dat jsou kolem 30 až 35 tisíc komentářů.

V září, kdy vrcholila politická kampaň, jsme zaznamenali největší nárůst – cca 53 tisíc komentářů denně, což souviselo s tím, že jeden politik udeřil na druhého. To dorazilo i do Prahy.

To vyvolalo hodně emocí, a kdybych tomu byl blíž jako Slovák, asi bych také komentoval.

Ano, měl jsem toho plné zprávy, sentiment byl samozřejmě spíš humorný, ale je to dobré memento, že politická kultura může být jinde horší než u nás.

Zmínil jsi tedy obrovské množství v řádu milionů komentářů měsíčně a filozofii mít člověka v celém procesu. Chcete mít jistotu, že nemazáte věci, které mazat nemáte.

Kolik toho spadne na člověka? Nemáte tendenci nastavovat parametry tak, aby lidi nemuseli mazat tolik a více bylo automatizováno?

Samozřejmě tendence tam je. Vidíme, že míra automatizace s časem roste. Na začátku v Česku jsme byli na asi 70 % automatizace. Dnes si myslím, že se nedostaneme na 90 %. Ale před třemi lety bych netvrdil, že generativní umělá inteligence bude umět to, co dnes dělá. Snažím se být proto opatrný.

Z pohledu společenské odpovědnosti ale považuji princip “humans in the loop” za velmi důležitý.

Když mluvíš o svobodě slova a tak, jak dnes vypadá tým LFAI a firma personálně? Předpokládám, že jste díky investicím najali programátory a co dělá Juraj, co rozjel projekt minulý rok, už spravuje někdo interně? Jak si máme představit vaši organizaci?

Z technické stránky máme úzkou spolupráci se slovenskou firmou GoodRequest, která zajišťuje technologický chod a vývoj nového uživatelského prostředí.

Interně jsme najali obchodníka pro Slovensko a Česko, marketingového specialistu, administrativu a provoz, plus 16 content moderátorů pro Česko a Slovensko.

Aktuálně usilujeme o rozšíření do Polska, kde plánujeme najmout dalšího obchodníka.

Celkem tedy máme kolem 25–26 lidí.

Jak vám funguje to, že nedržíte vývoj úplně vevnitř, ale máte partnera? Je to správný krok?

Pro nás je to velmi správný krok v této fázi vývoje, protože potřebujeme otestovat expanzi a škálování, zjistit, zda produkt bude fungovat na jiných trzích. Kdybychom teď investovali desítky nebo stovky tisíc eur do vývoje bez validace, že mimo Česko a Slovensko to někdo chce, vyhodili bychom je zbytečně.

Validace trhu je pro nás nyní velmi důležitá.

Máte informace o tom, jak je to v zahraničí? Mají v Americe podobné LFAI alternativy? Je tam trh už rozjetý?

Ano, v Americe máme asi dvě konkurenční firmy, v Evropě vnímáme jednu francouzskou společnost. Neměl jsem možnost jejich řešení testovat, ale…

Je potřeba říct, že americký trh je úplně jiný, svoboda slova je tam vyhrocená na maximum a lidé jsou na to hodně citliví. Nemusíme chodit daleko, stačí sledovat Elona Muska a jeho přístup k Twitteru, všichni ho známe. Takže i proto potřebujeme jít na ten trh a validovat naše řešení, abychom věděli, zda se nám to vyplatí, nebo ne.

Pokud ne, půjdeme na jiné trhy, které dávají smysl.

Jak aktivní jsou platformy v této oblasti? Existovala představa, že v Měte, na Twitteru či X-ku sedí armáda lidí, co moderují ručně, nebo že pomáhá automatizace.

Jak vnímáš aktivitu platforem?

Velmi nízkou, řeknu to diplomaticky.

Kdyby víc dělali, nebyli bychom tak potřební a nemuseli bychom dělat to, co děláme.

Vidíme, že na to nedávají důraz. Můžeme dlouho spekulovat, jestli je to zájem, nebo absence regulace.

Dám dva příklady: Když koncem loňského roku začal padat akciový trh a firmy šetřily, první na řadě byli content moderátoři.

Druhá věc: nemáš přesné informace, jak to platformy zvládají a jak je k tomu donutit.

Na Facebooku jsou konspirační teorie, že má tři lidi na Česko a Slovensko pro celý Facebook. My řešíme velmi malou část a máme na Slovensku 13 lidí, kteří pracují 12 hodin na směny. Meta má tedy s trochou nadsázky méně.

Kdo kdo psal kvůli problémům se svým profilem a ztrácel peníze, ví, jak těžké je se tam dovolávat.

S tím ale souvisí také velikost platformy.

Co vás tato práce naučila o platformách? Chovají se lidé na různých platformách jinak? Někde slušněji, jinde víc „povolí uzdu“? Máte v tom nějaký insight? Nebo je všude to samé a anonymita internetu vyvolává ty nejhorší věci?

Nemohu říci přesná čísla, ale Facebook je asi nejhorší.

Instagram je trochu jiný, i když se to mění. Lidé tam hodně lajkují, a tak to tam stále má příjemnější atmosféru.

Na Facebooku je to spíš politika, což rozdmýchává vášně.

Z pohledu platformy i místa, kde se to odehrává, je rozdíl.

Je něco jiného moderovat veřejnou instituci, třeba zastoupení Evropské komise, a něco moderovat bulvární deník.

Tam jsou složení lidí různá a samozřejmě je tam větší tendence k politice, která polarizuje, takže tam je potřeba více moderace – o 5 až 7 procent více.

A také u těch bulvárnějších médií. Ta zpravodajská, když se neděje nějaká velká politická událost, jsou poměrně standardní. A kde bychom se mohli podívat, ještě jsi zmínil ty falešné profily a tu dezinformaci, řešíte to technicky také nějak?

Aktuálně jsme na úrovni toho textu. Samozřejmě, budoucnost je v rozlišování obrázků a videí. Ale ty už potřebuješ zcela jiné modely, jiný technický background a celkově jiný přístup. Takže na to se ještě podíváme s tím, že to bude ještě větší výzva i v kontextu generativní AI. To, že například deepfakes vytvoříš za pět minut na telefonu, ale aby sis to ověřil, budeš potřebovat úplně jiné zdroje. Budoucnost je tedy velmi zajímavá.

Když se podíváme na falešné profily a dezinformace, říkal jsi, že tě trochu překvapilo, že primárně je to dezinformace, ale později jste zjistili, že hate speech a emoce jsou větším problémem nebo mají větší prevalenci. Je tam něco ohledně dezinformací, co tě překvapilo? Že třeba to není tak hrozné, nejsme na tom tak špatně? Zase se mluví o Slovensku jako o zemi, kde ruská propaganda, trollí farmy a tento mechanismus fungují naplno, že jste právě primární zemí. Je to vidět ve vašich datech?

Dá se to poznat s tím, že už nikdy v komentářích na sociálních sítích nevidíš ten čistý narativ. Vidíš už jen, jaký to mělo vliv na skutečné lidi. Z velkého dezinformačního narativu o Ukrajině a banderovcích přichází v komentářích už jen věta, že „všichni jsou banderovci“. Málo kdo tam sepíše celé zdůvodnění, co se stalo a proč jsou tito zlí a ti dobří. Vidíš tedy jen ty největší dopady toho, jak to ovlivňuje lidi.

To je věc A. Věc B je, že bohužel není aktuálně možné moderovat věci jako jsou skupiny nebo soukromé profily. Dostupnost dat není dostatečná, aby bylo možné zmapovat celý trh a celé online prostředí. Samozřejmě existují určité nástroje a iniciativy, ale málokdy se podaří získat úplný přehled. Můžeme mluvit například o roli Telegramu nebo Twitteru. Twitter je v Česku a na Slovensku obrovský rozdíl – v Česku je dominantní, zatímco na Slovensku tam jsou spíše dvě zpěvačky a jeden rapper.

Často jsi nastínil budoucnost jak vaší firmy, tak celého mediálního prostoru v době generativní AI, kde je naprosto snadné vytvořit texty, obrázky v boji proti fake news. Jak vnímáš budoucnost LFI a celý tento obor?

To je skvělá otázka a nikdo z nás nemá věšteckou kouli, abych řekl, kam se dostaneme. Je ale jasné, že dnes bude tvorba obsahu mnohem jednodušší, což znamená, že množství obsahu poroste a my se s tím budeme muset vypořádat. Otázka zní, jestli se někdy nedostaneme do situace, kdy generativní AI bude něco postovat na sociálních sítích a naše AI to bude mazat, zatímco lidé budou koukat jako na zábavu. Ale je to velká výzva, i pro samotné platformy.

Byl bych moc rád, kdybychom nemuseli znovu dojít do stádia, kdy musíme tyto věci vytvářet my, protože sociální sítě se na to vykašlaly. To je také varovný signál pro nás jako společnost, občany, státy a Evropskou unii, že se jedná o velmi dynamické prostředí, ve kterém nesmíme s regulací váhat. Potřebujeme o tom začít mluvit a začít to opravdu řešit.

Když sleduji, co se řeší na Slovensku v rámci politiky, mnoho hodnotových otázek je důležitých, ale nikdo neřeší, co se děje s nástupem umělé inteligence. Nevím, jak to vnímáte vy, ale mám pocit, že to, co se děje s AI, tu ještě nebylo a co přinese, si zatím neumím ani představit. Vidím velký nedostatek a vážný vakuum, protože technologie obecně a AI konkrétně nejsou politikum, nejsou součástí voleb ani politických programů, jako by neexistovaly. To mě trochu děsí, protože nám naprosto ujede loď.

Mohl bych navázat na legislativu. Zmiňoval jsi nové směrnice a věci, jak to podle tebe postupuje a jestli to něco mění v samotném prostoru, nebo jestli je to jen něco, co právníci v Americe vyřeší a přidají nějaký bod do podmínek používání.

Určitě to, co se teď děje v Evropské unii, je krok správným směrem. I přes všechny společenské problémy jsme na špici v řešení této problematiky, ať už je to Digital Services Act, nebo AI Act, který se začne aktivně řešit příští rok. To už dává provozovatelům platforem i vývojářům rámce, ve kterých se musí pohybovat.

Na druhou stranu, nechci moc politizovat, protože bychom mohli mluvit hodiny, ale jedna věc je, jak si něco nastavíme a schválíme, a druhá, jak to budeme v praxi uplatňovat. O Digital Services Act se mluví už dlouho. Co se stane s prvními audity? Jak zareagují sociální sítě? Jak státy? To jsou stále otevřené otázky. A to se bavíme jen o Digital Services Act, o AI Actu zatím ne.

Podívejme se do historie: kolik času trvalo, než jsme vyřešili GDPR? Dokud se neschválilo, nenasadilo a nezačalo se reálně používat, až pak jsme uviděli praktický dopad – že jako vlastníci stránek nebo provozovatelé musíme řešit například sdílení dat a soukromí. Takže rychlý vývoj, například u chat GPT, jeho nových funkcí, je ohromný, já nestíhám studovat, které pluginy co umí, ani co kde funguje.

Běžní lidé se mohou během měsíců, ne-li let, probudit a zjistit, že žijí v úplně jiném světě, než si mysleli.

A kde v těchto věcech vidíš budoucnost Elfia a Elfu? Je to závod s novými funkcionalitami chat GPT, nebo chcete zůstat primárně u textu a držet se původního zaměření?

Momentálně řešíme primárně text. Samozřejmě sledujeme, kam se svět digitálního prostředí posouvá. Otázkou je například, co bude s metaverzem. Ale naším hlavním cílem je řešit text, máme roadmapu nových funkcí a samozřejmě potřebujeme testovat. Proto řešíme tuto oblast, ale snažíme se držet krok s dobou a reagovat na to, jak se generativní textový obsah vyvíjí.

Jak jste na tom co do současnosti v Česku? Máte tu už klienty? Říkáš, že expandujete do Česka. Jaký je tam status? Kdy začnete mazat první nenávistné komentáře?

My už jsme začali. Prvním klientem v Česku byl Refresher, přidalo se vydavatelství Ekonomie a nyní se přidala první velká televize. Doufáme, že to bude impulz pro další, kteří si řeknou, že to má smysl a že chtějí být zodpovědní. Už to má zájem.

Do jaké míry vnímáte paradox, že aktivita na sociálních sítích je do určité míry založena na konflikte, a vy se snažíte přispět k tomu, aby konflikt zůstal v nějakých zdravých mezích, ale zároveň hodně mažete? Mají klienti obavy? Je to pro vás něco, s čím musíte pracovat, nebo to neřešíte?

Je to první otázka při akvizici nového klienta: „Dobře, když mi skryjete nebo smažete 15 % komentářů, klesne mi engagement, a to se nám nelíbí, protože musíme plnit KPI, což není ideální.“ My jsme tu věc ale potřebovali ověřit a vidíme, že engagement neklesá, když primárně skryješ obsah. Když mažes, je to jiná situace, ale pokud jen skrýváš a to nejhorší mažes, je to v pohodě.

Máme zveřejněnou první případovou studii klienta, kde vidíme, že věci nejen neklesly, ale naopak vzrostly. Ať už engagement nebo dosah, zároveň vzrostl i počet followerů. Té myšlenky se držíme v hlavě: čistší prostředí je pro lidi přívětivější, méně se tam bojí vstupovat, více komentují a komunikují, což přináší kvalitnější návštěvnost a engagement.

Já sám bych raději chodil do společnosti nebo místnosti, kde mé názory nebo podpora něčeho nebude druhými zesměšňována či napadána. Na té základní úrovni to chápu a jsem příjemně překvapen, že to funguje i v algoritmech sociálních sítí.

Dále vidíme, že moderování obsahu může předcházet vzniku nenávistných komentářů, protože lidé si zvyknou, že nevhodné příspěvky tam nejsou, nebo nedosahují očekávané interakce. Na začátku roku vyšel první výzkum University of Chicago, který testoval obsahovou moderaci. Výsledky ukazují, že moderace sníží nenávistné komentáře na Facebooku o 35 % a na Twitteru o 20 %. Lidé mění své chování, protože nedostávají posilování ve formě lajků a emotikonů, takže zjistí, že „toto nefunguje“ a zkusí to jinak.

Jakube, myslím, že není lepší způsob, jak zakončit naše krásné povídání, než na této nadějné vlně, že společnost v době digitálních a sociálních sítí má stále naději, jak být lepší a respektující.

My jako otcové dětí bychom si určitě přáli internet jako bezpečnější a více podporující místo, a ne jako takovou černou jámu. Moc děkujeme za to, co ty a Health AI a vaši elfové děláte, že děláte internet hezčím místem. Držíme vám moc palce.

Díky moc, bylo to super. Díky, Jakube, měj se.

A to je vše. Děkujeme, že jste doposlouchali další díl Data Talku, také děkujeme našim partnerům: Big Hub, Vypnout, Manta, Natin, Atakama, Jim Beam, Seznam CZ a Amuse. Pokud vás zajímají další informace ze světa datových technologií a československé datové scény, navštivte naše stránky datatalk.cz. Nechť vás provází data!

Podcast

Data Talk #60: Jakub Šuster (elv.ai)

Strojový přepis

Odebírejte Data Talk