DATA talk Newsletter #50 Vygenerovanému mamutovi na kly nehleď

#50 Vygenerovanému mamutovi na kly nehleď

Ahoj,

tenhle týden dostanete:

- pozvánku na top workshop

- revoluci v generování videa

- update kontextového okna jazykového modelu na 1 milion tokenů

- další release Mistralu (oznámený zase někde v komentáři)

- nový hardware, na kterém open-source modely sviští nevídanou rychlostí

- dva články o optimalizaci

- a hromadu dalších věcí jako vždycky.

Je tady Data Talk newsletter.

Data Talk newsletter nyní odebírá 980 lidí, které zajímají datové technologie a česko-slovenská datová scéna.(Nechcete jej dostávat? Omlouváme se! Nechceme spamovat, chceme dělat boží obsah, TADY se můžete odhlásit!)

Data Science & AI Workshop with HPE už je za rohem!

Už příští čtvrtek 29. února proběhne workshop HPE určený pro odborníky z oblasti Data Science, Machine Learning a Deep Learning, který se zaměří na téma umělé inteligence.

Začínáme už v 9:00 v Business Lounge v 7. patře budovy Visionary na Praze 7, Plynární 10.

Neočekávejte korporátní prezentace, akce je spíše prakticky laděná. Součástí workshopu bude nejen ukázka příslušných nástrojů a prostředí, ale možnost si je vyzkoušet (notebooky s sebou!).

Těšit se můžete na úvodní slovo Jana Romportla o stavu AI v Česku, příspěvek Tjerka Houwelinga ostavění AI enterprise řešení, diskuzi o customer AI, a live dema a workshopy s Christophem Menichettim.

Předpokládaný čas ukončení je v 15:00. Většina přednášek bude v angličtině.

📅 Kalendář datových akcí

Příští týden:

Webinář Consent lišty 2024 - zdarma! (pondělí 26. února)
Rossum Aurora webinář (úterý 27. února)
Bratislava Data Meetup #6: Python in Cloud (úterý 27. února v Bratislavě)
Clubs Unity AI konference 2024 (úterý až čtvrtek 27.-29. února)
HPE Data Science & AI workshop (čtvrtek 29. února)

Pak:

Zážeh AI transformace (pondělí 4. března)
Data Punkers 10: Choose a home for your data (středa 6. března)
AI Synergy Summit: H2O.ai & Billigence (středa 6. března)
Data Lightning Talks ⚡ “FABRIC IS NOW!” (čtvrtek 7. března)
AI Safety seminář (pondělí 11. března)
Webinář Cookie apokalypsa 2024- (pondělí 11. března)
Machine Learning Prague 2024 (pondělí až středa 22.-24. dubna)
WebExpo (středa až pátek 29.-31. května 2024)
International AI Summit (pondělí až středa 27.-29. května)
DATA mesh #19 by MEWS (čtvrtek 6. června)

Jestli máte nějaké memes nebo vtipné obrázky, pošlete je na michal@fenekpr.cz

📰 Novinky, linky a drby

OpenAI vydali generativní video model Sora

Tenhle AI difúzní model je schopen generovat realistické a konzistentní video až o délce 60 sekund. Jako vstup mu poslouží buď textový prompt, nebo obrázek.

Ač jsou jeho výstupy více než působivé, filmaři a animátoři se o svoji práci zatím bát nemusí. Vzhledem k tomu, že tyto modely nechápou video jako set objektů, ze kterých je scéna složena, je velmi obtížné dělat ve vygenerovaném videu jakékoliv editace scény nebo detailů.

Sora ještě není přístupná veřejnosti, zatím byla poskytnuta pouze red teamerům a vybraným tvůrcům k testování. Obavy ze zneužití takto realistického generátoru videa jsou bezpochyby na místě.

Google Gemini dostal update 1.5

Tenhle masivní update přináší revoluční kontextové okno o velikosti 1 milion tokenů (pro srovnání GPT-4 Turbo - 128K tokenů, dosud největší Claude 2.1 - 200K tokenů). V praxi to znamená, že dokáže „v paměti” udržet až 700 000 slov (v angličtině, v češtině to bude o něco míň), 30 000 řádků kódu, 11 hodin audia, nebo 1 hodinu videa. Veřejně dostupná verze však bude ještě nějakou dobu pracovat „pouze” s 128K tokenů, zpřístupnění 1M verze bychom však měli čekat v brzké budoucnosti.

Došlo také velkému nárustu kvality výstupů, Gemini Pro 1.5 je na srovnatelné úrovni jako Gemini Ultra 1.0. Pravděpodobným důvodem je mimo jiné přechod na novou Mixture-of-Experts architekturu.

Existuje i research verze, která podporuje až 10 milionů tokenů, o její budoucí dostupnosti se však Google nezmiňuje. Pokud bych si měl vsadit, řekl bych, že to je proto, že tahle verze má naprosto nerentabilní spotřebu výpočetní síly.

Pokud vás zajímá dokumentace ke Gemini 1.5 i s benchmarky, najde ji tady.

Další novinky:

Reddit uzavřel s Googlem licenční smlouvu na trénování AI za 60 milionů dolarů ročně
Mistral zase vydal jen tak mimochodem další open-source model
- jmenuje se Next, můžete ho vyzkoušet přes LMSYS Direct Chat (záložka Direct Chat)
- uživatelé hlásí, že by měl být srovnatelný nebo lepší v generování kódu a uvažování než GPT-4
Google odhalil dva open-source modely Gemma 2B a 7B
Společnost Groq (mimochodem mnohem starší firma než Elonův Grok) spustila na jejich hardwaru open-source modely a běží jim neskutečně rychle
- používají k tomu svoje speciální Language Processing Units (LPUs) místo GPU
- tady je pěkné porovnání s rychlostí GPT 3.5, sami si ho můžete vyzkoušet tady
StabilityAI vydali nový obrázkový generativní model Stable Cascade. Jeho největší předností je extrémní rychlost generování, kvalita taky není špatná, rozhodně je lepší než DALL-E 3, ale Midjourney to pořád není
Výzkumníci z Penn State University vyrobili první čip, který místo elektřiny používá světlo
- je extrémně výkonný a má výrazně nižší spotřebu než standardní čipy
Gemini Advanced umí spouštět Python kód
Snowflake zlevnil serverless tasky

Články a papery:

Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer
- paper, který pravděpodobně stojí za skokovým nárustem kvality nové verze Gemini
Reducing BigQuery Costs by 100–200x with dbt Incremental Models
How Amazon Improved K-Nearest Neighbor Search on Graphs by 60% with FINGER
Pavel Kordík: Stát jako investor do akademických AI startupů? Jsme na to připraveni?

Data gossip:

Jirka Vicherek nebyl na včerejším DATA meshi, protože byl v Brně na Marketing Festivalu
Mews vydali report o tom, co poslední rok dělali v R&D
Městská knihovna a Ústav formální a aplikované lingvistiky pořádají literární soutěž Přicházejí z-AI-mavé časy, kde se soutěží o nejlepší vygenerovanou povídku
OICT pořádá 5. ročník inovačního maratonu Nakopni Prahu, zúčastnit se můžete i v kategorii Data, AI a digitalizace
- Jacek z GoodDaty vzkazuje, že se máme koukat zúčastnit, on do toho jde taky
Děkujeme Pavolovi Draveckému, že nám koupil kafe

Podcasty, videa, přednášky:

Data Talk #75 s Benediktem Kotmelem (OICT) o datech ve veřejné správě, s jakými mýty a bottlenecky se potýkají a jak do toho celého zapadají open data
pepe logic #109 | OpenAI Sora a AI hype, základna TSMC v Česku, hardwarová loterie
SCRIPTease 078 | Jan Zahradník (Valeo) - AD/ADAS System Validation & Cloud Bigdata Toolchain Manager

❓Random trivia

Věděli jste, že QWERTY klávesnice byla původně nadesignovaná tak, aby zpomalila psaní? Bylo to proto, že pokud jste na psacím stroji rychle zmáčkli dvě klávesy vedle sebe, zasekl se. Proto má QWERTY nejběžnější dvojice kláves v angličtině co nejdál od sebe. Paradoxně to způsobuje to, že česky se píše na QWERTY o něco rychleji než anglicky.

Mimochodem, pokud hledáte rozložení klávesnice, které psaní naopak co nejvíc zrychlí, zkuste rozložení Dvorak.

DATA JOBS
(taháme ze stránek partnerů, Startupjobs, od Elišky z Kebooly, z newsletteru prg.aiatd.)

BigHub
Recombee
Sazka
Revolt.BI
Colours of Data
- Senior CRM Consultant (Bloomreach)
- Business Development Manager
Livesport
- Digital Performance Analyst
Keboola
intecs
- Senior BI Consultant
Nano Green
- Javascript Fullstack Developer
- Senior Data Generalist
Emark
- BI Specialist Junior
Workday
Dodo
- Data Engineer
- Data Scientist
Raiffeisen Bank
- Specialist in AI/NLP/GenAI
- AI Engine Designer
Rapid 7
- Data Engineer
Vacasa
- Senior Machine Learning Engineer

Starší, ale pořád aktuální, najdete na našem webu.

(Hledá vaše firma někoho na pozici spojenou s daty? Pošlete nám odkaz na inzerát na michal@fenekpr.cz a my ho rádi zveřejníme)

Ještě náš newsletter ještě neodebíráte?

Data Talk není pay to play, pokud chcete sdílet svoje know-how nebo nám pomoci jinak, napište nám!

A pokud vás naše práce opravdu baví, a náš obsah vám dává opravdovou hodnotu, pošlete nám opravdové peníze, na kafe!