Newsletter

#60 Slabost pro GPT-2

Ahoj,

chystáme další DATAmesh, během týdne se objevil (a zase zmizel) tajemný AI model, máme vysvětlení, proč si ChatGPT tak libuje v některých divných slovech a k tomu porci novinek, paperů a spousty dalších věcí. Je tady další Data Talk newsletter.

Data Talk newsletter nyní odebírá 1060lidí, které zajímají datové technologie, AI a česko-slovenská datová scéna.(Nechcete jej dostávat? Omlouváme se! Nechceme spamovat, chceme dělat boží obsah, TADY se můžete odhlásit! )

DATAmesh by Livesport

Po téměř třech měsících máme zase DATAmesh v Praze. Tentokrát se sejdeme unašich hostitelů v kancelářích Livesport vAspira Business Centre.

Těšit se můžete na 3 skvělé speakery: Jana Matouška z Data Mind, Petera Fedoročka z Understand a Michala Girglea z FLO.

Na talky máme omezenou kapacitu, takže s registrací neotálejte.

Začínáme v 6, od 8 startuje afterparty, kde můžete networkovat a taky se tradičně utkáme v Atomic Bombermanovi. Budeme se na vás těšit.

📅 Kalendář datových akcí

Příští týden:

Pak:

Máte memes nebo vtipné obrázky, o které se chcete podělit?  Pošlete nám je na michal@fenekpr.cz

📰 Novinky, linky a drby

V LMSYS aréně se objevil tajemný model pojmenovaný „gpt2-chatbot“

Za pár dní zase zmizel, ale mezi tím stihl nadělat pořádné vlny. Byl totiž sakra dobrý.

Podle některých stejně dobrý nebo lepší než GPT-4-Turbo. Rozhodně má podobný styl odpovědí. Zvládá řešit opravdu složité matematické úlohy, logické úlohy, se kterými má i GPT-4-Turbo problém, nebo přesné plánování kroků úkolu, což je důležité pro tvorbu autonomních agentů.

Samozřejmě se okamžitě začalo spekulovat o tom, že se jedná o polotajné testování nového modelu OpenAI, což navíc přiživil i Sam Altman prohlášením, že pro GPT2 má slabost.

ChatGPT a jeho oblíbené „delve“

ChatGPT je známý nadužíváním některých slov a frází, například notably, robust, vital, realm, dive into, nebo it's important to note. Ale jednoho si uživatelé všímají zdaleka nejvíce - delve. Toto slovo zejména pro rodilého mluvčího působí v textu jako pěst na oko.

Docela dobře se podle toho dá odhadnout, který text psala nebo vylepšovala umělá inteligence. Na základě toho profesor Philip Shapira (Manchester Institute for Innovation Research, Georgia Institute of Technology) provedl analýzu milionů vědeckých článků za posledních více než 30 let a výsledek nebyl nikterak překvapivý. Oproti době před masivním nástupem umělé inteligence se procento paperů obsahujících v názvu nebo anotaci slovo delve více než zčtrnáctinásobilo. Sice se stále objevuje v necelém 1 % článků, ale vzhledem k velikosti vzorku dat se jedná o průkazný trend.

Čím je ale způsobeno, že ChatGPT tíhne k těmto výrazům? Odpověď je vlastně docela jednoduchá. K trénování jazykových modelů se využívá technika zvaná reinforcement learning from human feedback, kdy model dostává lidskou zpětnou vazbu na svoje výstupy a z nich se učí, jaké odpovědi se od něj čekají. Lidská práce je ale drahá. Proto se pracovníci na tuto práci najímají v anglofonních zemích globálního jihu jako je Nigérie nebo Indie, kde je průměrná mzda násobně nižší než v Silicon Valley. Jenže angličtina, kterou se mluví v těchto zemích, se od té americké nebo britské mírně liší, mimo jiné v četnosti užívání některých výrazů. A je to právě Nigérie, kde se slovo delve užívá velmi běžně ve formální mluvě.

Mimochodem, pokud by vám tyhle nadužívané výrazy vadily, existuje GPT No More Delve, jehož funkcí je tato slova filtrovat.

Další novinky:

Články a papery:

Data gossip:

Podcasty, videa, přednášky:

❓Random trivia

Věděli jste, že když Stevovi Jobsovi 11. května 1983 napsal s žádostí o autograf, odmítl ho se slovy, že podpisy nedává, a odpověď vlastnoručně podepsal? Mimochodem, tento dopis se před pár lety vydražil za $479 939.


DATA JOBS
(taháme ze stránek partnerů, Startupjobs, od Elišky z Kebooly, z newsletteru prg.aiaj.)

(Hledá vaše firma někoho na pozici spojenou s daty? Pošlete nám odkaz na inzerát na michal@fenekpr.cz a my ho rádi zveřejníme)

Ještě náš newsletter ještě neodebíráte?

Data Talk není pay to play!
Pokud chcete sdílet svoje know-how, obsah od vás z firmy, napište nám!

A pokud vás naše práce opravdu baví, a náš obsah vám dává opravdovou hodnotu, pošlete nám opravdové peníze, na kafe!