#60 Slabost pro GPT-2

Ahoj,
chystáme další DATAmesh, během týdne se objevil (a zase zmizel) tajemný AI model, máme vysvětlení, proč si ChatGPT tak libuje v některých divných slovech a k tomu porci novinek, paperů a spousty dalších věcí. Je tady další Data Talk newsletter.
Data Talk newsletter nyní odebírá 1060lidí, které zajímají datové technologie, AI a česko-slovenská datová scéna.(Nechcete jej dostávat? Omlouváme se! Nechceme spamovat, chceme dělat boží obsah, TADY se můžete odhlásit! )
DATAmesh by Livesport
Po téměř třech měsících máme zase DATAmesh v Praze. Tentokrát se sejdeme unašich hostitelů v kancelářích Livesport vAspira Business Centre.
Těšit se můžete na 3 skvělé speakery: Jana Matouška z Data Mind, Petera Fedoročka z Understand a Michala Girglea z FLO.
Na talky máme omezenou kapacitu, takže s registrací neotálejte.
Začínáme v 6, od 8 startuje afterparty, kde můžete networkovat a taky se tradičně utkáme v Atomic Bombermanovi. Budeme se na vás těšit.


📅 Kalendář datových akcí
Příští týden:
- Revolt.BI Hackaton (středa 8. května)
Pak:
- AI & ML Unconference 2024 (úterý 14. května v Brně)
- Flavours of Data Stack – Prague (středa 15. května)
- Machine Learning Meetup Brno: Intro to Gemini with Cesar Ilharco Magalhaes (DeepMind) (úterý 14. května v Brně)
- Czech Republic Snowflake Data Cloud Group Meetup #2 (čtvrtek 16. května)
- Open Source Science @ PyData Prague #20 (čtvrtek 16. května)
- AI & Byznys 3.0 (čtvrtek 16. května)
- DATA mesh #19 by Livesport(čtvrtek 16. května)
- AI for body & soul (čtvrtek 23. května)
- WebExpo (středa až pátek 29.-31. května)
- Data Point Prague (čtvrtek a pátek 30. a 31. května)
- AIinspiration (čtvrtek 30. května)
- DATA mesh #20 by MEWS (čtvrtek 6. června)
- DATA mesh #21 by Workday (čtvrtek 1. srpna)

Máte memes nebo vtipné obrázky, o které se chcete podělit? Pošlete nám je na michal@fenekpr.cz
📰 Novinky, linky a drby
V LMSYS aréně se objevil tajemný model pojmenovaný „gpt2-chatbot“
Za pár dní zase zmizel, ale mezi tím stihl nadělat pořádné vlny. Byl totiž sakra dobrý.
Podle některých stejně dobrý nebo lepší než GPT-4-Turbo. Rozhodně má podobný styl odpovědí. Zvládá řešit opravdu složité matematické úlohy, logické úlohy, se kterými má i GPT-4-Turbo problém, nebo přesné plánování kroků úkolu, což je důležité pro tvorbu autonomních agentů.
Samozřejmě se okamžitě začalo spekulovat o tom, že se jedná o polotajné testování nového modelu OpenAI, což navíc přiživil i Sam Altman prohlášením, že pro GPT2 má slabost.
ChatGPT a jeho oblíbené „delve“
ChatGPT je známý nadužíváním některých slov a frází, například notably, robust, vital, realm, dive into, nebo it's important to note. Ale jednoho si uživatelé všímají zdaleka nejvíce - delve. Toto slovo zejména pro rodilého mluvčího působí v textu jako pěst na oko.
Docela dobře se podle toho dá odhadnout, který text psala nebo vylepšovala umělá inteligence. Na základě toho profesor Philip Shapira (Manchester Institute for Innovation Research, Georgia Institute of Technology) provedl analýzu milionů vědeckých článků za posledních více než 30 let a výsledek nebyl nikterak překvapivý. Oproti době před masivním nástupem umělé inteligence se procento paperů obsahujících v názvu nebo anotaci slovo delve více než zčtrnáctinásobilo. Sice se stále objevuje v necelém 1 % článků, ale vzhledem k velikosti vzorku dat se jedná o průkazný trend.
Čím je ale způsobeno, že ChatGPT tíhne k těmto výrazům? Odpověď je vlastně docela jednoduchá. K trénování jazykových modelů se využívá technika zvaná reinforcement learning from human feedback, kdy model dostává lidskou zpětnou vazbu na svoje výstupy a z nich se učí, jaké odpovědi se od něj čekají. Lidská práce je ale drahá. Proto se pracovníci na tuto práci najímají v anglofonních zemích globálního jihu jako je Nigérie nebo Indie, kde je průměrná mzda násobně nižší než v Silicon Valley. Jenže angličtina, kterou se mluví v těchto zemích, se od té americké nebo britské mírně liší, mimo jiné v četnosti užívání některých výrazů. A je to právě Nigérie, kde se slovo delve užívá velmi běžně ve formální mluvě.
Mimochodem, pokud by vám tyhle nadužívané výrazy vadily, existuje GPT No More Delve, jehož funkcí je tato slova filtrovat.
Další novinky:
- Vyšla nová verze PyTorch 2.3
- Tesla odhalila detaily ohledně Robotaxi, taxi platformy s autonomními vozidly
- ChatGPT dostal mezichatovou paměť (v ČR zatím nedostupné)
- Čínský SenseTime vydal hodně slušný LLM SenseNova 5.0
- Americká firma Cin7 koupila české Inventoro, které vyvinulo AI nástroj pro řízení firemních zásob
- Do Dawiso přibyla podpora dbt, Kebooly, DataBricks, BigQuery, Kafky a Redshiftu
- e2b.dev vydali Code Interpreter SDK, který umožňuje AI aplikacím interpretovat kód
Články a papery:
- Capabilities of Gemini Models in Medicine
- DeepMind vydal paper k Med-Gemini, upravenému Gemini modelu finetunovanému na lékařské využití.
- Revolt.BI: 5 Google Certification preparation mistakes and how to avoid them
- Do We Need the Lakehouse Architecture?
Data gossip:
- Pavel Kordik (Recombee) zdraví z Toronta. Věděli jste, že jedním z jejich klientů je i organziace Autism Speaks, pro které vyvinuli doporučovací algoritmus?
- Startupisté se nám v Chicagu zasekli ve výtahu
- FLO se stali Registered Partnerem Databricks
- Jakub Šuster (elv.ai) se dostal do slovenského Forbes 30 pod 30
- Revolt.BI pořádají hackaton a mají pro vás pár rad
Podcasty, videa, přednášky:
- Data Talk #85 s Janem Cuřínem a Josefem Vopičkou (The MAMA AI) o tom, jak se řídí firma v 6 zakladatelích, kde vzali první zakázky k uživení 25 členného týmu, který odvedli z IBM, nebo o vývoji syntetických hlasů před a po LLMs
- Byznyscast: Nejdůležitější startupové lekce? Jakub Balada o Apify
- Data Punkers 11- Roman Staněk: The Story of Gooddata
❓Random trivia
Věděli jste, že když Stevovi Jobsovi 11. května 1983 napsal s žádostí o autograf, odmítl ho se slovy, že podpisy nedává, a odpověď vlastnoručně podepsal? Mimochodem, tento dopis se před pár lety vydražil za $479 939.
DATA JOBS
(taháme ze stránek partnerů, Startupjobs, od Elišky z Kebooly, z newsletteru prg.aiaj.)
- Sazka
- Revolt.BI
- Colours of Data
- Keboola
- intecs
- Emark
- GoodData
- Bizztreat
- Addvery
- AGRP[DEV]
- Publicis Groupe
- Deepnote
- Semantic Visions
(Hledá vaše firma někoho na pozici spojenou s daty? Pošlete nám odkaz na inzerát na michal@fenekpr.cz a my ho rádi zveřejníme)
Ještě náš newsletter ještě neodebíráte?
Data Talk není pay to play!
Pokud chcete sdílet svoje know-how, obsah od vás z firmy, napište nám!
A pokud vás naše práce opravdu baví, a náš obsah vám dává opravdovou hodnotu, pošlete nám opravdové peníze, na kafe!