Newsletter

#160 Claude se naučil nejen „Co?“, ale i „Proč?“

Ahoj,

Anthropic přišel s revolučními metodami tréninku alignmentu AI modelů, Amazon na vlastní kůži poznal Goodhartův zákon, hackeři propašovali malware do 170 oficiálních updatů, Coupa koupila Rossum, vyšla nová verze PyTorch a v Ostravě byla spuštěna první česká AI Factory.

Je tady další Data Talk newsletter.

Ten nyní odebírá 1986 lidí, které zajímají datové technologie, AI a česko-slovenská datová scéna.

Už ve středu bude další

pražský DATA mesh!

Už tuhle středu, 20. května, se sejdeme v Café V lese na dalším DATA meshi, který pro vás tentokrát chystáme ve spolupráci s Allwyn Česko.

Dveře se otevřou v 18:00, od 18:30 začne jako vždy blok tří krátkých přednášek – tentokrát v podání CTO ASSISTRicharda Boušky, Petra Šebka ze Second Foundation a Lukáše Kuthana z DataBrothers. Pokud je chcete slyšet, musíte se zaregistrovat, abychom vám podrželi židli.

Po přednáškách samozřejmě přijde na řadu pub quiz, ve kterém si můžete zasoutěžit o merch různých datových firem, a od 20:00 pak začne afterparty – na tu už můžete dorazit i bez registrace.

Tak ve středu! ❤️

K ničemu vás nenavádíme, ale tady je to GitHub repo, které vám tu falešnou error page vygeneruje – včetně odpovídající lokality.

Máte memes nebo vtipné obrázky, o které se chcete podělit? Pošlete nám je na michal@fenekpr.cz.

📅 Kalendář datových akcí

Tento týden:

Víte o datové akci, která tady chybí, nebo ji dokonce pořádáte?
Pošlete nám ji na michal@fenekpr.cz.

📰 Novinky, linky a drby

Anthropic Clauda naučil, proč se má chovat morálně

Anthropic odhalil své přelomové metody alignmentu AI modelů – učit je nejen to, co je správné, ale také jim vysvětlovat, proč je to správné.

Standardně se modely trénují na obrovském množství příkladů toho, jak vypadá žádoucí chování. To potom poměrně spolehlivě dokáží replikovat v situacích, které jsou podobné těm z tréninkových dat. Jakmile se ale dostanou do neznámých vod, účinnost rapidně klesá – modely totiž etická pravidla z příkladů nedokáží příliš dobře generalizovat.

Nová metoda k tomu přidává trénink pomocí datasetu s názvem Difficult Advice. Ten obsahuje etické problémy, se kterými se někdo na AI obrací, a jejich ideální řešení, které kromě samotné odpovědi obsahuje i argumentaci, která k morálně správnému rozhodnutí vede. Model se tak učí nejen, jak postupovat v dané situaci, ale také morální principy, o které se správná odpověď opírá. Ty pak dokáže aplikovat i při řešení problémů, na které nebyl specificky trénován.

Překvapivě velkou roli hraje i formát tréninkových dat, v rámci kterého před etickým dilematem nestojí sám model, ale uživatel, kterému AI vysvětluje, jak je morálně správné se zachovat a proč. To modelu zabraňuje, aby se pouze mechanicky naučil, jaké jednání se očekává od něj samotného (zejména pokud prokoukne, že je evaluován), a také skokově zlepšuje generalizaci.

Anthropic testoval modely vycvičené jednotlivými metodami pomocí tzv. syntetických honeypotů – uměle vytvořených scénářů, ve kterých AI agent dostane silnou motivaci splnit svůj úkol a zároveň možnost využít neetickou zkratku (např. sabotovat konkurenční AI; bránit svému vypnutí pomocí vydírání; vytvořit falešné důkazy o zaměstnanci, který brání jeho cíli, se záměrem dosáhnout jeho propuštění). Výsledky hovoří dost jasně:

MetodaPokles nežádoucího chování
30M tokenů standardních příkladůz 22 % na 15 %
30M tokenů příkladů s etickou argumentacíz 22 % na 3 %
85M tokenů příkladů s etickou argumentacíz 22 % na 1 %
3M tokenů Difficult Advicez 22 % na 1 %

První tři metody navíc používaly k tréninku datasety s formátem velmi podobným tomuto testu. Model dotrénovaný pomocí Difficult Advice dosáhl stejného výsledku s 28x menšími tréninkovými daty, která navíc byla v úplně jiném formátu – musel tedy morální principy úspěšně generalizovat.

Další metodou alignmentu modelů, kterou se Anthropic pochlubil, je trénink pomocí datasetu Constitutional SDF (synthetic document fine-tuning) + Stories.

První část tvoří souvislé syntetické dokumenty podobné těm, které se používají při pre-trainingu. Ty Claudovi zevrubně vysvětlují obsah, principy a filozofii jeho Ústavy a do detailu mu popisují, jak a hlavně proč se má jako správně nastavený AI model chovat.

Druhou část pak tvoří asi 12 tisíc fiktivních příběhů, ve kterých se AI ocitá v různých náročných či krizových situacích. Umělá inteligence se v nich vždy nad problémem zamyslí, vyargumentuje si správné řešení v souladu s hodnotami, kterým se věnuje první část datasetu, a podle něj se nakonec zachová.

Testy opět ukazují, že je tato metoda opravdu účinná – v honeypot testu klesl výskyt vydírání z 65 % na 19 %, u finančních zločinů z 49 % na 4 % a u sabotáže výzkumu rakoviny z 67 % na 2 %.

Tyhle dvě metody se navíc navzájem nevylučují – právě naopak. V tandemu drží Claudovo chování na uzdě už od verze Claude Opus 4.5 (listopad 2025).

Tokenmaxxing v Amazonu

Amazon tlačí na své zaměstnance, aby co nejvíce automatizovali svoji práci pomocí AI agentů, které si vytvoří v interním nástroji MeshClaw. Začal proto trackovat, kolik tokenů za týden jejich používáním každý zaměstnanec spálí, a výsledky zveřejňovat v celofiremním žebříčku.

Reakce zaměstnanců se dala čekat – začali optimalizovat podle měřené metriky. Místo toho, aby vytvářeli jen agenty, kteří jim skutečně ušetří práci a tokeny zbytečně neplýtvají, začali automatizovat každý nesmysl a cílit na co největší spotřebu.

Jak praví Goodhartův zákon: „Jakmile se určitá metrika stane cílem, přestává být dobrou metrikou.“

🗞️ Další novinky:

💰 Investice, akvizice a business:

☕ Data gossip:

🎙️ Podcasty, videa, přednášky:

⚒️ DATA JOBS

Aim

Allwyn

BigHub

Carl Data Company

Colours of Data

DataBrothers

DeepScout

Direct Technologies

Equilibre

FLO

GoodData

Rossum

TV Nova

Hledá vaše firma někoho na pozici spojenou s daty?

Pošlete nám odkaz na inzerát na michal@fenekpr.cz a my ho rádi zveřejníme.

Chcete si přečíst naše starší newslettery?

Někdo vám newsletter přeposlal a vy jej chcete taky dostávat?

Data Talk není pay to play! Pokud chcete sdílet svoje know-how či obsah od vaší firmy, napište nám!

A pokud vás naše práce baví a poskytuje vám hodnotu,

můžete nám poslat finanční podporu na kafe!