#62 (copy) OpenAI zase o krok napřed

Ahoj,
spekulacím je konec, OpenAI představili svůj nový model, který veškeré konkurenci sebral vítr z plachet. Na druhou stranu jim odešli dva klíčoví zaměstnanci. Novinky představil i Google, vyšlo pár skvělých článků a máme i hromadu drbů. Všechno tohle najdete v Data Talk newsletteru.
Data Talk newsletter nyní odebírá 1076lidí, které zajímají datové technologie, AI a česko-slovenská datová scéna.(Nechcete jej dostávat? Omlouváme se! Nechceme spamovat, chceme dělat boží obsah, TADY se můžete odhlásit! )
Carl Data Company je novým členem Data Talk klubu
Je nám ctí, že se Data Talk klub rozrostl o dalšího člena - Carl Data Company. Tato datová společnost se specializuje na konzultace v oboru business inteligence, mají ale i svůj vlastní produkt - AI virtuálního asistenta.
Carl Data Company jsme měli v Data Talku už dvakrát. První díl s pořadovým číslem 52 jsme natočili s jejich ředitelem Jakubem Šilerem, jejich Head of Consulting zavítal do nedávného dílu číslo 83. Oba jsou super, určitě si je dejte, jestli jste je ještě neslyšeli.

📅 Kalendář datových akcí
Příští týden:
Pak:
- GoodMeetup #5: What the Duck is Up with DuckDB? (středa 29. května)
- WebExpo (středa až pátek 29.-31. května)
- Data Point Prague (čtvrtek a pátek 30. a 31. května)
- AIinspiration (čtvrtek 30. května)
- DATA mesh #20 by MEWS (čtvrtek 6. června)
- AI Late Night Show (úterá 18. června)
- DATA mesh #21 by Workday (čtvrtek 1. srpna)

Máte memes nebo vtipné obrázky, o které se chcete podělit? Pošlete nám je na michal@fenekpr.cz
📰 Novinky, linky a drby
OpenAI představili GPT-4o
Pamatujete si im-also-a-good-gpt2-chatbot, který se minulý týden objevil v LMSYS aréně? Ukázalo se, že jej pohání nově představený model GPT-4o (o jako Omni). Omni proto, že je pro všechny - je dostupný i pro neplatící uživatele, ovšem s omezeným limitem zpráv. Na rozdíl od platících uživatelů, pro které je nastaven na 80 zpráv za hodinu, je pro ostatní pětinový. Pro srovnání GPT-4-Turbo měl limit 40 zpráv za hodinu. Omni má také 2x vyšší rychlost odezvy než GPT-4-Turbo a při práci s ním je to znát.
Nově umí také zpracovat video jako vstup, dřívější verze uměla pouze převést hlas z videa na text a pak s ním dále pracovat. Dále také dostaly více péče ostatní jazyky kromě angličtiny, což má dvojí důsledek. Jednak si model výrazně lépe poradí s překladem, ale také skokově vzrostla kvalita výstupů v ostatních jazycích včetně češtiny. Také se snížil počet tokenů nutný pro práci s těmito jazyky.
Dále OpenAI ukázali zatím nedostupný Voice mode, který nově umožňuje konverzovat s modelem v reálném čase a skákat mu do řeči, na rozdíl od prostého hlasového zadávání promptů, které v minulosti nebylo příliš použitelné. Navíc by měl být schopen rozpoznat emoce z hlasu a také je sám do svého mluveného projevu promítat. V demu to vypadá opravdu působivě, ale víme, jak je to s demy. Vzpomeňte si na demo k původnímu GPT-4 nebo Gemini. Schopnosti modelů v nich ukázané byly více či méně vzdálené od reality.
Příjemnou změnou je také poloviční cena API oproti GPT-4-Turbo, nově zaplatíte za input 5 dolarů za 1 M tokenů, za output 15 dolarů za 1 M tokenů.
Vyšší limity zpráv, nižší cena API a vyšší rychlost odezvy je pravděpodobně způsobena buď průlomem v efektivitě modelu samotného, nebo vyšší efektivitou hardwaru, nebo jejich kombinací.
V žebříčku LMSYS je model bezpečně na prvním místě.

Další novinky:
- Google na své konferenci I/O představil novinky ohledně Gemini
- nově má kontextové okno 2M tokenů a měl by být lepší v generování kódu, logic a práci s obrazem
- také představili Gemini 1.5 Flash, model, s 1M kontextovým oknem optimalizovaný na rychlé odpovědi
- OpenAI odhalili Model Spec, dokument vysvětlující, jak vytvářet transparentní a etické modely
- IBM vydali 8 open-source LLMs (mezi 3B a 34B parametry) natrénované na 116 programovacích jazycích, nejlepší z nich produkuje lepší výsledky než CodeGema nebo Mistral
- Mimo jiné umí jako jeden z mála COBOL. Záchrana pro MPSV?
- Claude je nově dostupný v Evropě
- Spoluzakladatel a chief scientist OpenAI Ilya Sutskever odchází ze společnosti. Spolu s ním také odchází co-lead superalignment týmu Jan Leike
Články a papery:
- MIT: AI deception - A survey of examples, risks, and potential solutions
- studie analyzující schopnosti LLMs lhát, bluffovat nebo tajit své skutečné schopnosti
- LMSYS: What’s up with Llama 3? Arena data analysis
- detailní analýza Llama 3
- vychází z ní jako nejlepší z open-source modelů, exceluje brainstormingu a generování textu, horší je v matematice, generování kódu a překladu
- Attacama: Máte data? A můžeme vidět, jak jsou kvalitní? AI se bez nich neobejde
- Jan Soubusta (GoodData): A Way to Production-ready AI Analytics With RAG?
- CC: Poráží zdravé přátele ve videohrách. Muž popisuje sto dní s mozkovým čipem od firmy Elona Muska
Data gossip:
- Děkujeme anonymce za kafe. Nechala nám vzkaz, který potěšil: „Díky podcastu jsem si vybrala práci, tak dík!“
- Marek Grác potřebuje vyřešit problém, kdy máte data, která nemůžou opustit firmu (např. banku), ale firma nemá potřebný hardware na trénování modelu. Poradíte mu někdo?
- Marek Prokop (Prokop software) vytvořil balíček pro R téměř kompletně pomocí ChatGPT
- Bizztreat mají nový web
- Aplikace eDoklady, kterou vytvořila společnost Aricoma, obdržela cenu publika na AppParade
- Keboola vyhrála ocenění BIG SEE v kategorii Pracoviště za jejich kabelovnu
- Šimon Podhájský (Pure Storage) měl možnost vyzkoušet Copilot Workspace a je nadšený
- Anna Prchalová přechází z Billigence do Gartner
- CITYA, kteří pomáhají využívat data z hromadné dopravy, nově expandují na Svitavsko
- Tweet Ondry Svobody o GPT-4o se dostal do New York Post
- Robert Tesař se stal COO Revolt.BI
Podcasty, videa, přednášky:
- Data Talk #87 s Ondřejem Veselým (KindWise) o stavění první datové infrastruktury v Kiwi.com, působení v etické komisi EU, nebo tom, jak kdysi ještě pod jménem FlowerChecker tvořili stejnojmenou aplikaci k rozpoznávání rostlin
- CZECHárna Petra Beneše #58 - Pavel Doležal
- Teď a tady: Odborník na umělou inteligenci Filip Doušek o tom, kde bude AI za 5 let a jaké to je prodat firmu
- SCRIPTease 081: ČSOB - Tomáš Stegura, Executive Director & Roman Mašek, Director of Digital Services
- Adastra podcast 51: Servisní organizace už nejsou řízeny jen náklady, ale přidanou hodnotou byznysu. Ušetří i vydělají miliardy dolarů, říká Joe Appleton, ABSL
- intecs insider #16: Spolupráce intecs & Astratex - M. Rogozný
Veo, nový text-to-video model od DeepMind
Kvalit Sora ještě nedosahuje, ale i tak se jedná o působivou záležitost.

❓Random trivia
Věděli jste, že jednotka jednoho metru vznikla jako vzdálenost 1/10 000 000 vzdálenosti od severního pólu k rovníku vedoucí přes Paříž? První primární etalon 1 m byl vytvořen roku 1795 z mosazi, v roce 1889 byl nahrazen odolnější a méně roztažnou tyčí ze slitiny platiny a 10 % iridia (při teplotě 0 stupňů).
I ta je však náchylná k drobným změnám délky v závislosti na fyzikálních podmínkách, proto je dnes 1 m určen jako délka dráhy, kterou uběhne světlo ve vakuu za 1/299 792 458 sekundy.
DATA JOBS
(taháme ze stránek partnerů, Startupjobs, od Elišky z Kebooly, z newsletteru prg.aiaj.)
- Sazka
- Revolt.BI
- Colours of Data
- Keboola
- intecs
- Emark
- GoodData
- Bizztreat
- G2 Esports
- EmbedIT
- Raiffeisen Bank
- Forloop.ai
- Similarweb
- Oddin.gg
(Hledá vaše firma někoho na pozici spojenou s daty? Pošlete nám odkaz na inzerát na michal@fenekpr.cz a my ho rádi zveřejníme)
Data Talk není pay to play!
Pokud chcete sdílet svoje know-how, obsah od vás z firmy, napište nám!
A pokud vás naše práce opravdu baví, a náš obsah vám dává opravdovou hodnotu, pošlete nám opravdové peníze, na kafe!