#69 Malý obr je víc než GPT-3.5
Ahoj,
Chat Control nám dá zase na chvíli pokoj, OpenAI vytvořila svého AI kontrolora, Google představil nový open-source model a Salesforce vytvořili Malého obra. Je tady DataTalk newsletter.
DataTalk newsletter nyní odebírá 1125lidí, které zajímají datové technologie, AI a česko-slovenská datová scéna.

Máte memes nebo vtipné obrázky, o které se chcete podělit? Pošlete nám je na michal@fenekpr.cz
📅 Kalendář datových akcí
Příští týden:
- Crative AI Meet-Up Prague #9 (pondělí 8. července)
- EuroPython Prague (pondělí až neděle 8.-14. července)
Pak:
- Human-aligned AI Summer School (úterý až neděle 16.-21. července)
- Meltingpot Fórum (17.-20. července)
- DATA mesh #22 by Workday (čtvrtek 1. srpna)
- Mindstone Prague AI Meetup (středa 11. září)
- KPMG Data Festival (úterý 5. listopadu)
- Kurz Práce s daty: Jak porozumět světu dat a být strůjcem pokroku (středa 9. 10. 2024 až pátek 31. 1. 2025)
📰 Novinky, linky a drby
Články a papery:
- OpenAI | LLM Critics Help Catch LLM Bugs
- OpenAI přišlo s modelem CriticGPT, který má pomáhat lidských pracovníkům s hodnocením výstupů a odhalování chyb ve zdrojovém kódu generovaném jejich hlavním modelem GPT.
- Během pokusu, kdy do zdrojového kódu vložili umělé bugy, jich model zachytil 85 %, lidská kontrola pouze 50 %.
- Při hledání chyb vygenerovaných jiným modelem byl tento model úspěšnější v 63 % případů.
- OpenAI už zapojilo tento model do workflow trénování dalších modelů.
- London School of Economics and Political Science | Large Language Model Prediction Capabilities: Evidence from a Real-World Forecasting Tournament
- GPT-4 si moc dobře nevedl, zdaleka nedosahoval výkonů lidských prognostiků.
- Salesforce | APIGen: Automated PIpeline for Generating Verifiable and Diverse Function-Calling Datasets
- Salesforce publikovali paper k APIGen, automatizovanou pipeline pro zefektivňování tréninkových datasetů. Díky tomu jsou menší při zachování stejné kvality výstupů natrénovaného modelu. Ten má pak díky tomu nižší počet parametrů a je tedy i výkonově méně náročný.
- I díky tomuto vytvořili Salesforce model xLAM’s s 1B parametrů přezdívaný Tiny Giant, který podává lepší výsledky než GPT-3.5, který by měl mít minimálně 20B parametrů (ale dost možná i několikanásobně víc).
- Apify | How we built an AI salesman with the OpenAI Assistants API
Data gossip:
- Julien Chaumond (CTO Hugging Face) odhalil pravou motivaci francouzských AI startupů vyvíjejících open-source modely
- Martin Hassman jde na plný úvazek pracovat do týmu Golemio do OICT
- FirstMark zařadili Keboolu, Make, Better Stack, Rossum, CleverMaps a Revolt.BI do svého výročního přehledu Machine Learning, AI & Data Landscape
- Tomáš Čupr nalije do Pilulky 80 milionů korun, získá i možnost nabýt kontrolní podíl akcií
- David Dallos (ex Gen) přešel do Colours of Data
- Stanislav Kozlovski (Apache) shrnul incident, po kterém Slack přešel z Redis na Kafku
- Mastercard spustil výzvu AI2AI: Artificial Intelligence to Accelerate Inclusion, do které hledají inovativní řešení založená na umělé inteligenci, která podpoří inkluzivní růst a ekonomický rozvoj na celém světě. Výherce dostane od Mastercard prostředky na vývoj a expanzi.
- Dny AI budou letos i ve Zlíně.
Podcasty, videa, přednášky:
- Data Talk #94 s Radovanem Oreským (EMARK) o transformaci EMARKu z managementové konzultačky na datově analytickou, o nástroji Qlik, který v EMARKu milují, a o jejich partnerství se Snowflake
- SCRIPTease 084 | Apify - Jan Čurn, CEO
- #17 intecs insider: Jedna chyba v Excelu může znamenat až milionové rozdíly - L. Šejba
- Oblakadabra #5 | Deutsche Börse a Google Cloud: Bezpečná transformace finančních služeb
- PodVocasem S09E06 | Tomáš Krátký - Data Lineage v Manta a exit doIBM
- Czechitas Podcast | Tereza Fukátková: Lektorování je způsob, jak vrátit to, co jse se v Czechitas naučila
- Čestmír Strakatý | Michal Pěchoček: AI je velké tajemství, hrozí nám ale otroctví. Dcery si radši odinstalovaly TikTok
- Diskuze Ivana Bartoše, Lukáše Kintra, Michala Pěchoučka a dalších napředávání cen Zlatá koruna o kybernetických rizicích AI
- GoodData & MotherDuck | Webinar: Quacking the Code to Multi-Tenant Embedded Analytics
Random trivia
Věděli jste, že tenisový míček byl původně bílý? Na reflexní žluté se přešlo až v roce 1972. Stálo za tím masové rozšíření barevné televize - bílý míček na ní skoro nebyl vidět.
Jenom na Wimbledonu se drželi své tradice a na žlutou dlouho odmítali přejít. Vzdor proti reflexním míčkům jim vydržel až do roku 1986.
⚒️ DATA JOBS
- Sazka
- Revolt.BI
- Colours of Data
- Keboola
- intecs
- Emark
- GoodData
- Bizztreat
- Kiwi
- Notino
- Shipmonk
- Flat Zone
Jestli vaše firma hledá někoho na pozici spojenou s daty, pošlete nám odkaz na inzerát na michal@fenekpr.cz a my ho rádi zveřejníme.
Data jobs taky taháme ze stránek partnerů, Startupjobs, od Elišky z Kebooly, z newsletteru prg.aia vlastě odkudkoliv se dá.
Chcete si přečíst naše starší newslettery?
Někdo vám newsletter přeposlal a vy jej chcete taky dostávat?
Data Talk není pay to play! Pokud chcete sdílet svoje know-how či obsah od vaší firmy, napište nám!
A pokud vás naše práce baví a poskytuje vám hodnotu,
můžete nám poslat finanční podporuna kafe!