DATA talk Newsletter #104 Přepište žebříčky, Gemini 2.5 je tu

#104 Přepište žebříčky, Gemini 2.5 je tu

Ahoj,

Google vydal špičkový AI model, OpenAI konečně dali sbohem DALL-E 3, Reve představili zajímavý obrázkový model a jeden model s ošklivým jménem dokáže precizně odhalit ještě ošklivější nemoc.

A taky je tady další Data Talk Newsletter!

Newsletter nyní odebírá 1633lidí, které zajímají datové technologie, AI a česko-slovenská datová scéna.

Už za měsíc je tu Machine Learning Prague 2025!

Rok se s rokem sešel a máme tu další Machine Learning Prague. V Praze se díky týmu Jirky Materny objeví přes 40 světových kapacit z oboru strojového učení a jeho aplikace.

Velkým tahákem jsou dvě profesorky, Hava Siegelmann z University of Massachusetts Amherst a Iryna Gurevych z Technické univerzity v Darmstadtu. Siegelmann je spoluautorka algoritmu Support Vector Clustering, která se podílela na spoustě výzkumu adaptivního učení a neurálních výpočetních modelů. Guryvych bude mluvit o boji s dezinformacemi pomocí jazykových modelů.

Z Čechů vystoupí Stanislav Fort, ex-DeepMind a ex-Anthropic, Ondřej Dušek, který na ÚFALu pracuje na nových metodách generování přirozeného jazyka, nebo Tomáš Pevný, odborník na security, konkrétně stenografii.

ML Prague slibuje nula AI bullshitu a maximum ML cutting-edge výzkumu. Nepřekvapivě jsou proto k dispozici poslední lístky.

Máte memes nebo vtipné obrázky, o které se chcete podělit? Pošlete nám je na michal@fenekpr.cz

📅 Kalendář datových akcí

Příští týden:

Keboola Vibe Coding Meetup #2: Full-day Hackathon & Demo Session (pondělí 31. března, Praha)
Prague PostgreSQL Meetup: March Edition (pondělí 31. března, Praha)
Brno.AI meetup #9 (středa 2. dubna, Brno)
Miton AI: Optimizing High-School Admissions: Applying Deferred Acceptance in Czechia (čtvrtek 3. dubna, Praha)
KEmunITa Night: AI agents in action! (čtvrtek 3. dubna, Košice)
AdvanceMed 2025 (čtvrtek a pátek 3. a 4. dubna, Ostrava)

Později:

DATA mesh #27 by Epam (středa 9. dubna, Praha)
PyData Prague #27 - LLMs Anonymous (čtvrtek 10. dubna, Praha)
DATA mesh Brno #7 by Enverus (úterý 15. dubna, Praha)
2024 Data Vault User Group Conference (úterý 15. dubna, Praha)
AI horizonty –⁠⁠⁠⁠⁠⁠ AI a válka (úterý 15. dubna, Praha)
Prague Crawl by Apify and Massive (středa 23. dubna, Praha)
Machine Learning Prague conference 2025 (pondělí až středa 28.-30. dubna, Praha)
AWS Community Day CZ (úterý 29. dubna, Praha)
IDC CIO Summit (úterý a středa 20. a 21. května, Praha)
Konference AI: Bitva o digitální éru (středa 21. května, Ostrava)
Prague PostgreSQL Meetup: May Edition (pondělí 26. května, Praha)
WebExpo 2025 (středa až pátek 28.-30. května, Praha)
Data Point Prague (čtvrtek a pátek 29. a 30. května, Praha)
Prague Orbit - charitativní cyklotour by Billigence (sobota 7. června, Praha)

📰 Novinky, linky a drby

Nový Gemini 2.5 ovládl špičku žebříčku AI modelů

Google vydal nový model Gemini 2.5, který opět zamíchal kartami. Okamžitě zaujal první místo v arénách srovnávajících AI modely, a jeho výsledky z benchmarků jsou více než působivé.

Ve valné většině z nich totiž přesvědčivě poráží konkurenční modely od OpenAI, Claude 3.7 Sonnet nebo Grok 3. A takový DeepSeek R1 pak strčí do kapsy ve všech měřených kategoriích. Pídil jsem se i po tom, jak na tom je v porovnání so1-pro - tam už je rozdíl menší, v drtivé většině ale aspoň trochu vede.

Vynechání o1-pro zesrovnávací tabulky vyvolává minimálně pozdvihnuté obočí. Ale aspoň tu máme názorný příklad toho, proč je nutné být ohledně benchmarků na pozoru. Vyložené falšování výsledků se téměř neděje, to by tvůrci modelu museli mít přístup k datasetu daného benchmarku a model na něm přímo učit. Drobnou manipulaci si ale kde kdo neodpustí.

Každopádně se jedná o pokrok. Model má obrovské kontextové okno 1 milion tokenů, v budoucnu se plánuje dokonce rozšíření na 2 miliony, jak je tradiční u největších modelů od Googlu. Pro srovnání - konkurence nabízí většinou do 200 tisíc. Model také kombinuje tradiční jazykový model s reasoning složkou. Touto cestou se poslední dobou vydávají všechny modely, až na OpenAI, kteří to plánují až u GPT-5.

Velkou neznámou, která do velké míry rozhodně o úspěchu modelu, je zatím cena API. Nepředpokládá se, že bude nějak závratná, ale je těžké ji odhadnout - i proto, že ekvivalentní předchůdce Gemini 2.0 Pro nemá API dostupné.

GPT-4o konečně generuje slušné obrázky

OpenAI nahradili DALL-E 3 v GPT-4o nativním generováním obrázků založených přímo na multimodálních schopnostech tohoto modelu.

Oproti notoricky hroznému DALL-E 3 je to obrovský skok kupředu. Obrázky generuje nádherně, navíc při tom zapojuje i kontext celé předchozí konverzace. Novinkou je imožnost editovat části obrázků, které se vám nepozdávají. Výborně si poradí i s generováním textu, což je obvyklá bolístka těchto modelů.

Dlužno však podotknout, že generování obrázků je celkem pomalé - i když radši si počkám na dobrý obrázek, než abych měl rychle to, co vypadávalo z DALL-E 3.

Další novinky:

Startup Reve vystoupil z utajení a představil jejich obrázkový model ReveImage 1.0, který překonává zavedené modely jako je Midjourney v6.1 nebo Imagen 3. Kromě kvality samotných obrázků vystupuje z řady také extrémně přesným dodržováním promptů, což o většině konkurenčních modelů rozhodně nejde říct. Umí také perfektně generovat texty na obrázku.
OpenAI se rozhodli přestoupit na open-source standard pro práci s externími daty Model Context Protocol, který vytvořil Anthropic. Ten také dostal velký update, který vylepšuje bezpečnost, kompatibilitu, snižuje latenci a přidává rozsáhlé možnosti anotovat metadaty.
Anthropic doplnil velký rest - přidal do svých modelů schopnost vyhledávat na internetu.
Výzkumníci z několika univerzit vytvořili AI model ECgMPL, který dokáže odhalit rakovinu dělohy z mikroskopických snímků tkáně. Jméno sice nemá zrovna chytlavé, zato svoji práci dělá s 99,26% přesností. Pro porovnání - dosud nejpokročilejší automatizovaná diagnostika dosahovala přesnosti pouze okolo 80 %.
DeepSeek vydal update modelu V3. Je extrémně efektivní - každý token aktivuje maximálně 37B parametrů z jeho celkových 671B, což vede k výrazně nižší energetické spotřebě a tedy i nákladům na provoz. Posílil také v mnoha oblastech, například v matematických schopnostech nebo v kódování. Jen kdyby tu nebyl ten problém s jeho bezpečností, možnými backdoory a pochybným alignmentem...
Tencent vydal AI model Hunyuan T1, další z modelů, které se za zlomek ceny vyrovnají nejlepším modelům od OpenAI.

Články a papery:

Data gossip:

Tomáš Mikolov opouští ČVUT, údajně mu došla trpělivost s absencí podpory AI výzkumu ze strany státu.
Roman Kučera (ex VP Ataccama) se stal VP of Products v PromethistAI.

Podcasty, videa, přednášky:

Data Talk #129 | Jiří Nohejl a Martin Hažer (Emark) o zavádění BI ve firmách, které si s daty moc netykají
Insane Data Podcast | Chris Wagner, True Data God
Datová kuchyně #12 | Dnes vaří Marián Kamenišťák (Engineering Leaders Community)
Cinkátko | Buduje startup ze San Francisca: Vašek Mlejnský, founder E2B

Random trivia

Věděli jste, že nafukovací balónky původně sloužili vědě?

Moderní gumové balónky vynalezl v roce 1824 slavný britský fyzik a chemik Michael Faraday pro účely jeho experimentů s plyny v Královské společnosti v Londýně.

Faraday tehdy zkoumal chování různých plynů, včetně vodíku, a potřeboval způsob, jak je bezpečně uchovávat a manipulovat s nimi. Vyrobil proto balónky z dvou tenkých listů surové pryže, které k sobě slepil a okraje potřel moukou, aby se neslepily při nafukování. Balónky pak plnil vodíkem a pozoroval jejich chování.

Trvalo to jen rok, než průkopník gumárenského průmyslu Thomas Hancock přišel sbalónky pro zábavné účely. Prodával je jako DIY sadu, ze které si lidé mohli balónky sami vytvořit. V té době to ostatně ani jinak nešlo, balónky špatně snášely změny teploty a příliš nevydržely.

To se změnilo až roku 1847, kdy J. G. Ingram začal vyrábět balónky z mnohem odolnější vulkanizované gumy v podobě, jakou známe dnes.

⚒️ DATA JOBS

Sazka
- Senior IT projektový manažer (Praha)
Revolt.BI
- Data Engineer (Praha)
- Senior Data Engineer (Praha)
- Tech Lead (Praha)
Colours of Data
- CRM Strategy Expert (Praha/remote)
- Technical Consultant(Praha/remote)
intecs
- Senior BI Consultant (Brno)
Emark
- Data Architect – Azure Synapse (Praha/Pardubice/Bratislava)
- Data Scientist (Praha/Pardubice/Bratislava)
- BI Specialist (Praha/Pardubice/Bratislava)
Notino
- Engineering Team Lead / .NET & React (Brno)
- AI Specialist (Brno)
Keboola
- Software Engineer - Frontend(Praha)
FLO
- Data Analyst (Praha/Sydney)
- Data Engineer (Praha/Sydney)
- další datové a AI pozice
Vltava Labe Media
- Datový analytik pro Keboola & Google Cloud BigQuery (Praha)
Carvago
- Data Engineer (SQL) (Praha)

Jestli vaše firma hledá někoho na pozici spojenou s daty, pošlete nám odkaz na inzerát na michal@fenekpr.cz a my ho rádi zveřejníme.

Data jobs taky taháme ze stránek partnerů, Startupjobs, Cocumy, z newsletteru prg.ai a vlastě odkudkoliv se dá.

Chcete si přečíst naše starší newslettery?

Někdo vám newsletter přeposlal a vy jej chcete taky dostávat?

Data Talk není pay to play! Pokud chcete sdílet svoje know-how či obsah od vaší firmy, napište nám!

A pokud vás naše práce baví a poskytuje vám hodnotu,

můžete nám poslat finanční podporuna kafe!