#124 Nestrukturovaná data? Žádný problém
Ahoj,
Google vydal knihovnu pro extrakci strukturovaných dat, Kaggle uspořádal turnaj AI modelů v šachu a Meta vytvořila model pro předvídání reakcí mozku.
A taky je tady další Data Talk Newsletter.
Newsletter nyní odebírá 1808lidí, které zajímají datové technologie, AI a česko-slovenská datová scéna.
Máte memes nebo vtipné obrázky, o které se chcete podělit? Pošlete nám je na michal@fenekpr.cz
📅 Kalendář datových akcí
Následující týden:
- Digitální AI srdce (pondělí 18. 8. 2025, Ostrava)
- Pyvo Prague #171 - Summer Edition: Grill & Chill (středa 20. října, Praha)
- Prague bioML Symposium 2025 (čtvrtek a pátek 21. a 22. srpna, Praha)
Pak:
- DobroData (středa 3. září, Praha)
- AI Date #3 (čtvrtek 4. září, Praha)
- MeasureCamp (sobota 6. září, Brno)
- Pivko s Klukama z Matfyzu vol. 8 (pondělí 8. září, Praha)
- Prague PostgreSQL Meetup: September Edition (pondělí 22. září, Praha)
- Prague City Data Conference 2025 (úterý a středa 23. a 24. září, Praha)
- Živé natáčení podcastu Na volné noze s Janem Romportlem (středa 8. října, Brno)
- DevFest(čtvrtek a pátek 23. a 24. října, Praha)
- Dny AI (pondělí až neděle 3.-16. listopadu, po celém Česku)
- Hackaton Když data promluví 2025 (pátek až neděle 14.-16. listopadu, Olomouc)
- Data Day (čtvrtek 27. listopadu, Praha)
📰 Novinky, linky a drby
Potřebujete vytáhnout strukturovaná data z prostého textu? Google na to má knihovnu!
Google vydal LangExtract, open-source Python knihovnu pro extrakci strukturovaných dat z nestrukturovaného textu. Využívat k tomu bude AI model, sekterým ji propojíte. Buďto nějaký můžete volat přes API, nebo můžete využít model, který provozujete lokálně, pokud máte například obavy odatovou bezpečnost.
Aby vám data strukturovala tak, jak chcete, stačí jí poskytnout několik příkladů – konkrétní pasáže textu a k nim ideální výstup. Obecná pravidla pro strukturování si z nich sama vyvodí.
Aby předešla chybám, používá řadu metod jako přesné zdrojování dat kekonkrétním znakům v původním textu nebo několikanásobné procházení každého jeho úseku.
Navíc obsahuje vizualizační nástroj, kterým vám extrahovaná data zobrazí vinteraktivním HTML formátu.
Pokud vás knihovna zaujala, stáhnout si ji můžete na GitHubu.
Další novinky:
- Kaggle uspořádali šachový turnaj AI modelů. Na prvním místě se umístil o3, druhé bral Grok 4 a na třetím skončil Gemini 2.5 Pro.
- Google vydal Gemma 3 270M, extrémně kompaktní verzi jeho open weights modelu, která je určená pro použití na jednoduché úkoly na koncových zařízeních.
- GPT-4o se vrátil do ChatGPT jako legacy model. Spousta lidí si k němu totiž vybudovala emoční vazbu a když ho OpenAI s příchodem GPT-5 bez varování znepřístupnili, byli z toho pořádně rozladění.
- Kromě toho OpenAI spustili v některých chudších regionech světa předplatné Go za přibližně $5 měsíčně, které je limity zpráv někde mezi verzí zdarma a předplatným Plus za $20 měsíčně. A ne, my mezi chudší regiony nepatříme. Týká se to například Indie, kde je 5,5x nižší mediánová mzda než v Česku.
- Grok 4 je nově přístupný i uživatelům bez předplatného, moc zpráv si s ním ale nevymění – maximálně mu jich můžou poslat 5 za 12 hodin.
Články, papery a newslettery:
- Meta | TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction
- Meta představila TRIBE, neuronovou síť o 1B parametrů, která dokáže předpovídat, jak bude mozek reagovat na určité video, čistě analýzou jeho obrazu a zvuku. Za tento počin získala hlavní cenu soutěže Algonauts 2025, jejímž letošním tématem bylo právě modelování reakcí lidského mozku na audiovizuální podněty.
- KAIST | BInD: Bond and Interaction-generating Diffusion Model for Multi-objective Structure-based Drug Design
- Výzkumníci z Korea Advanced Institute of Science & Technology vyvinuli BInD, difuzní model, který dokáže navrhovat potenciální léky na rakovinu bez toho, aby byl trénován na datech o molekulární biologii.
- WIRED | AI holka z Groku dobývá srdce osamělých mužů. A to by je mělo děsit
Data gossip:
- Hvězdný Matúš Pavliščák (ex-Productboard, ex-Deepnote) se začíná poohlížet po nových pracovních příležitostech. S jeho zkušenostmi sbudováním a vedením týmů, produktovým managementem a hlavně vytěžením dat tak, aby maximálně sloužily businessu, byste po něm měli skočit, než bude pozdě!
- Petr Podroužek po 9 letech končí v Emplifi.
- Lukáš Sedláček (Poetizer, Týden inovací ČR) dokončil knihu Nazí v AI době, dostupná bude začátkem října.
- Martin Šafránek nastupuje do Ness Czech jako Data Solutions Engineering Director.
Podcasty, videa, přednášky:
- Data Talk #148 | Michal Najman (Aim)
- AI ta Krajta #15 | Coding s GPT-5, generované světy a AI vztahová epidemie
- Prompt | AI psychóza živě na Povalči
- Chytrá a umělá Ţ Bude nám vařit AI? Šéfkuchař vs. ChatGPT
- Data: Hell or Heaven? 69 | Bez dat AI neporadí. Odvaha začít něco nového je na lidech, říká Vladimír Bezděk, poradce českého prezidenta a šéf AVANT investiční společnost
Random trivia
Věděli jste, že HTTP error 451 je odkazem na 451 stupňů Fahrenheita?
HTTP kód 451 – Unavailable For Legal Reasons se vrací, když je přístup k URL zakázán z právních důvodů, buďto právním předpisem, nebo rozhodnutím soudu. Je tak otevřeným přiznáním státní cenzury, na rozdíl od toho, kdyby web vracel neurčité 403 – Forbidden nebo 404 – Not Found. Číslo kódu odkazuje na román Raye Bradburyho 451 stupňů Fahrenheita, ve kterém byly státem zakázány a páleny knihy.
Přístup k dané webové stránce vám většinou nezakazuje ona sama, ale nějaký prostředník, přes kterého data tečou – například poskytovatel internetového připojení, provozovatel proxy serverů, content delivery networku nebo internetového vyhledávače. Přes ně totiž může stát zákazy vymáhat nejefektivněji, zejména když se jedná o weby provozované z jiného státu. Jedinou zásadnější výjimkou jsou mimoevropské weby, které nechtějí řešit legislativu EU (zejména GDPR) a jejím občanům raději přístup úplně odepřou.
Návrh na přidání tohoto HTTP kódu do jejich oficiálního registru organizace IANA podal poBradburyho smrti jistý Tim Bray z Googlu v roce 2013, zařazen byl pak v roce 2015.
Podle specifikací by měla chybová hláška obsahovat kdo a na základě čeho blokování stránky nařídil. Autoritářské režimy se ale obvykle tváří, že u nich žádná cenzura rozhodně neprobíhá, a tak i když se například v Číně nebo Rusku naspoustu webů nedostanete, s errorem 451 se vůbec nesetkáte.

⚒️ DATA JOBS
- Sazka
- BI specialista (Praha)
- BI data engineer (Praha)
- BI specialista (Praha)
- Revolt.BI
- Data Engineer (Praha)
- Senior Data Engineer (Praha)
- Tech Lead (Praha)
- Account Executive (Praha)
- Data Science Lead (Praha)
- Solution Architect (Praha)
- Colours of Data
- CRM Strategy Expert (Praha/remote)
- CRM Strategy Expert (Praha/remote)
- intecs
- Senior BI Consultant (Brno)
- Senior BI Consultant (Brno)
- Emark
- Cloud Data Engineer – Snowflake (Praha/Pardubice/Bratislava)
- BI Specialist (Praha/Pardubice/Bratislava)
- Senior Consultant for Microsoft Fabric (Praha/Pardubice/Bratislava)
- Carl Data Company
- FLO
- Data Analyst (Praha/Sydney)
- Data Engineer (Praha/Sydney)
- Data Scientist (Praha)
- další datové a AI pozice
- Aim
- Full Stack Engineer (Praha)
- AI / LLM Engineer (Praha)
- Rossum
- Miton
- Tech Researcher / AI Scout (Praha/remote)
- GoodData
- BI Solution Architect (Praha/Brno)
- Cloud Solution Lead (Praha/Brno)
- Cloud Technical Lead (Praha/Brno)
- Sr. Backend Engineer (Kotlin, Calcite) (Praha/Brno)
- Databy
- BI team leader (Praha/Brno/remote)
- Člověk v tísni
- NN Životní pojišťovna
- Full-stack Developer (Praha)
- TV Nova
- BI Test Analyst – Oneplay (Praha)
Jestli vaše firma hledá někoho na pozici spojenou s daty, pošlete nám odkaz na inzerát na michal@fenekpr.cz a my ho rádi zveřejníme.
Data jobs taky taháme ze stránek partnerů, Startupjobs, Cocumy, z newsletteru prg.aia vlastě odkudkoliv se dá.
Chcete si přečíst naše starší newslettery?
Někdo vám newsletter přeposlal a vy jej chcete taky dostávat?
Data Talk není pay to play! Pokud chcete sdílet svoje know-how či obsah od vaší firmy, napište nám!
A pokud vás naše práce baví a poskytuje vám hodnotu,
můžete nám poslat finanční podporuna kafe!
