#1 Data Talk - spousta AI akcí, dbt, Keboola, Datoddo atd.

Hello world
Z Data Talku je newsletter! Jednou za 14 dnů budeme posílat to nejdůležitější a nejzajímavější z datových technologií a československé datové scény.
Po meetupech DATA mesh a Data Talk podcastu tak vykopáváme tento Data Talk newsletter!
(Nechcete jej dostávat? Omlouváme se! Nechceme spamovat, chceme dělat boží obsah, TADY se můžete odhlásit!)
PARTNER - Seznam.cz
Česká internetová jednička má unikátní datasety a řeší super pokročilé datové problematiky. Jsme proto nadšeni, že se Seznam rozhodl přidat mezi naše partnery! I v této době mají otevřené pozice a datové role hledají napříč firmou, nejzajímavější bude asi job vedoucího 10 členného data týmu ->Data Team Lead.
Zároveň zveme na Seznam AI meetup pořádaný už zítra - v úterý 8. 11. 2022 od 17.30!
Kromě seznamáků a jejich ML infrastruktury se dozvíte také o doporučování (taky s GLAMI a Recombee).

Akce
Seznam AI meetup - úterý 8. 11.
prg.ai meetup w/ Michael Bowling (DeepMind) - čtvrtek 10.11.
Shipmonk: Data Science & Logistics - čtvrtek 10.11.
DATA mesh #9 AFTERPARTY - čtvrtek 10.11.
FIT ČVUT - Technologie ve společnosti - neděle 13.11.
November DevOps Meetup, úterý 15.11.
Czech Tech Executives Meetup #3 - GT Night!, středa 23.11.
Novinky
LUPA: Microsoft připravuje nové datové centrum v Česku, váhá kvůli cenám energií
Meta vyvíjí babylonskou rybku, nově umí jazyk Hokkien a open-sourcuje podklady
Crunchbase: Tvůrci Stable Diffusion vzali první investici - s miliardovou valuací
LUPA: Daktela kupuje majoritu ve firmě Coworkers.ai vyvíjející chatboty a voiceboty
CC: Dataddo získalo investici cca 2M USD
CC: PFC mění vedení Semantic Vision na ex-Deloitte lidi (Jan Balatka a Diana Rádl Rogerová)
Data Talk #12: Ondřej Tomas a Bára Hinnerová (CleverMaps)
Lex Fridman podcast: Andrej Karpathy: Tesla AI, Self-Driving, Optimus, Aliens, and AGI
CZ Podcast 289 - Filip Doušek - Pravda je jeden velký omyl
TÉMA - dbt
Video:
Giuliano Giannetti (Revolt BI) - Těžká rozhodnutí v datovém světě
Poslední Data Punkers byli ve znamení dbt. A alfou večera byl nepřekvapivě GG! Kromě domácí výhody i zaslouženě - za perfektní přednášku o rozhodnutích, která ovlivňují vaši architekturu, costy, hiring a inovace. Na naprosto konkrétním příkladu, jak v Revoltu řešili implementaci dbt. Skvělý talk má hodnotu pro každého, kdo zvažuje dbt, a zároveň pro všechny, kdo uvažují nad svým data stackem a věcma jako materializace modelu. Incl. Snowflake / Keboola / Kimball

Longread:
Martin Fíša Fišer (Keboola): Novinky z Coalesce a podpora dbt v Keboole
Coalesce
Nejčastěji vyzdvihovaným prvkem kolem dbt je aktivní komunita a s Keboolou jsme ji mohli zažít na Coalesce. Snad se na mě nikdo nebude zlobit, ale celé bych to shrnul jako data party pro Gen-Z.
Produktově dbt představilo z mého pohledu tři zásadní novinky: Metric Layer, částečná podpora Pythonu a nový cloud UI.
Metric layer
Jedna z hlavních nových features, dbt labs do ní vkládá svoji budoucnost a doufá, že se jim podaří vystavět kolem sebe celý ekosystém, aby jim mohl generovat potřebnou revenue.
Z technického pohledu je to zatím spíše základní způsob definice metrik, klíčové věci chybí a dle indikací na jejich Slacku ještě klidně rok chybět budou. Rozhodně se nejedná o plnohodnotný tématický layer, jaký nabízí GoodData, Looker nebo PowerBI (nebo Malloy, open-source verze LookML od Looker vývojářů).
Kolem metrik je také diskuse ohledně toho, jestli mají metriky definovat analytics engineers anebo lidi s doménovou znalostí, kteří reporty vytvářejí. Převládající názor dbt komunity je, že engineers, já se kloním k názoru opačnému.
Uvidíme ale, jak se projeví VC investice do “Modern Data Stack” a síla jednotlivých hráčů, prozatím jsem ale k Metric layer dost skeptický a jako praktik bych nedoporučil nikomu zahazovat současná řešení typu Lookeru. U firem začínajících na zelené louce s omezeným budgetem bych doporučil zvážit použití dbt v kombinaci s Lightdash (jednoduchý open-source Looker klon s podporou dbt metrics, v říjnu dostali investici (TC), nebo Preset (open-source Tableau klon z dílny Airbnb, s Apache superset pod kapotou).
(Částečná) podpora Pythonu
Druhou novinkou je částečná podpora Pythonu. Částečná, protože se týká jen enginů, které podporují Python nativně - Snowflake, BigQuery a DataBricks. Příklady z Coalesce session Announcing dbt's Second Language: When and why we turn to Python ukazují, že je to možnost dělat věci rychleji a možná jednodušeji. Na druhou stranu má aplikace aktuálně dost limitů na straně DWH a celkově je to trošku “čuňárna”. Až se kolem toho udělají best practices, mohlo by to být fajn, zatím z toho mám ale spíš smíšené pocity.
IDE dbt cloud
Vybraní uživatelé měli již k dispozici jako preview a pro uživatele Kebooly to není téma, ale celkově jde poznat, že dbt maká na UI/UX. Mně osobně potěšila maličkost jako Custom node colors. Dovoluje to specifikovat barvu modelu v lineage, což zpřehledňuje celkovou orientaci v modelech, hlavně při zobrazení celé lineage.
5 Coalesce sessions, které bych doporučil:
- Back to the Future: Where Dimensional Modeling Enters the Modern Data Stack - moje asi nejoblíbenější session. Trošku data modelling 101, ale myslím hlavně pro dbt komunitu důležité
- But I won't do that things you shouldn't do with dbt- Zdravý pohled na best practice k dbt
- More Metadata, Less Problems - super ukázka důležitosti metadat na jednom místě a k čemu je to dobrý
- Salesforcelandia - která ve mně rezonovala už z důvodu toho, že sami Salesforce používáme a naše konektory na salesforce jsou jedny z nejpoužívanějších konektorů v Keboole.
- Extend the runway: A deep dive into data warehouse costs - aktuálně super důležité téma. Pro nás taky, my jsme zrovna pro jednoho klienta udělali atribuci nákladů Snowflaku na jednotlivé query, z definice věci je to přibližné, ale dostali jsme se na cca 90% přesnost. Pokud používáte Snowflake, dávejte si pozor, co na tom běží - vizte tenhle bug report (metabase dělala $500 měsíčně náklady na Snowflaku jen protože si často říkal o Show tables).
Product news! Spustili jsme v Keboole podporu dbt!
Jak jde poznat z mého zapálení do dtb ekosystému, vidím v něm i část naší budoucnosti. Proto máme nově v Keboole plnou podporu dbt, plnou ve smyslu všech tří cest použití:
- dbt plně v rámci Kebooly
- dbt orchestrované Keboolou na vlastní externí databázi (v základu 5 DB backendu)
- čistá orchestrace dbt cloud jobů
Hlavním důrazem je orchestrace dbt kódu (ať už jsou spouštěny kdekoliv) v kontextu celé pipeline (tedy extrakce, transformaci na různých backendech a následný push dta do různých BI nástrojů či použití reverse ETL).
Mluvili jsme s mnoha dbt uživateli a partnery v dbt ekosystémů, jako největší problém považují právě absenci univerzálního orchestrátoru. Uživatelé buď používají orchestrátory zabudované v samotných nástrojích, nebo starý ale tradiční airflow, nebo moderní ale relativně komplikované nástroje jako Prefect anebo Dagster.
Díky dbt jsme do Kebooly přinesli nové koncepty jako read-only storage access a artefakty.
Artefakty - po běhu dbt transformace platforma automaticky uloží generované artefakty, například run results, docs, manifest a další jsony. Ty pak můžeme využívat nejen pro referenci o detailech jobu, ale v našem případě je naservírovat i v uživatelsky přívětivé formě - dbt docs na jeden klik, timing nápočtu modelu ve vizuální formě, přístupný zkompilovaný sql, etd. což je IMHO asi největší průlom z pohledu exekuce komponent a rozšíření možností platformy (nechám si na samotné téma).
Ze stránky kódu se snažíme usnadnit dev setup a minimalizovat manuální práci, typicky s YAML soubory.
Na Keboola storage je k dispozoci i dev prostředí na jeden CLI příkaz, workspaces k testování kódu s přístupem na celou storage. CLI automaticky vygeneruje komplet popis storage v YAML včetně testů na PK. Snažíme se eliminovat tradiční postupy fork databáze, použitím nějakého subsetu dát nebo jiného mechanismu, který vyžaduje poměrně hodně úsilí na setup.
V rámci exekuce dbt se pak snažíme odpojit logiku kódu a jeho spuštění. Viděl jsem některé použití dbt, které bych se nebál označit jako anti-pattern: řízení uživatelských práv jinja makry, definování síly Snowflake backendu přes makra, atp. My se naopak snažíme využít výhody dbt a zároveň managed platformy Keboola - uživatel použije kód ze svého repozitáře a zvlášť si může nadefinovat sílu backendu na spuštění (uživatelé Kebooly vědí - říkáme tomu pracovně raketky).
Do budoucna bychom pak chtěli rozšířit pohled do samotného repozitáře a dbt kódu. Popsat modely, jejich definici, parametry, průběhy testů v čase, atd. a propagovat code-driven popis tabulek přímo do Keboola storage, na to se hodně těším.
Nějaký call to action na konec: klikněte na webovkách na free accounta zkuste si to, chceme feedback a neustále to vylepšovat.
DATA JOBS
(taháme ze stránek partnerů, Startupjobs, náhodných LI postů - třeba od Elišky)
Deepnote - CTO
GymBeam - Head of Data Engineering
Seznam.cz - Data Team Lead
Manta - Lead Full-stack Developer
Unilever - Data and Analytics Market Lead, East Europe- Revolt BI - různé datové role
- Joyful Craftsmen - Business Analyst
Datamole - Computer Vision Scientist - Liftago - BI analytik/analytička
- COGVIO - Data Engineer
Data Mind - Senior Data Fullstack - Economia - Webový analytik
- Productboard - Senior Product Designer – Data Visualization and Reporting
- Intecs - různé datové pozice
Update pro Data Talk hardcore fans
Jirka Vicherek - agentura Fenek^^
Datová scéna je už dostatečně velká, aby si zasloužila vlastní médium. To je alespoň moje hypotéza.
Díky akcím jako DATA mesh nebo Data Punkers jsem si celkem jistý, že je tu spousta unikátního know-how, áčkových odborníků, zajímavých příběhů. Spousta obsahu. Proto jsem rozjel Data Talk podcast. V posledním díle si tak můžete třeba poslechnout, jak Vojta Kopal organizuje práci datového týmu. Na takový obsah není bohužel na českém webu příliš prostoru. Jakkoliv je z mého pohledu úspěch české technologické (a díky trendu AI/ML primárně datové) scény naprosto zásadní pro úspěch Česka. Opravdu odborný obsah je ale, ze své podstaty, pro úzkou skupinu odborníků a tu je pro média těžké monetizovat.
Nedostatek odborných kanálů znám ze své vlastní zkušenosti. Můj day job je komunikační agentura pro IT věci, většinou hiring, často B2B enterprise SaaS sales/leadgen. Děláme content - píšeme blogposty ale i JDčka, hledáme speaking opportunities na konferencích a meetupech, domlouváme články v médiích typu CzechCrunch. Díky práci pro klienty jako emplifi, ML Prague, BigHub, Keboola nebo Heureka vím, jak je těžké někam dostat dostatečně odbornou komunikaci. Kromě Lupy a podcastů jako CZ Podcast tady není kanál, který by byl dostatečně odborný, aby byl profesně opravdu přínosný. A protože to nevypadá, že by se v blízké budoucnosti něco změnilo, děje se toho tolik, že sám nestíhám, a obsahových projektů jsem si už pěknou řádku odmakal, řekl jsem si, že to zkusím.
Má-li Data Talk pokračovat, potřebuju vaše zapojení.
Nejsem fanda pay-to-play modelů a pro přínosný obsah mám dveře otevřené dokořán (=chcete být hostem podcastu? Stačí napsat!). Taky nehledám nové klienty ani nemusím mít z Data Talku zdroj příjmu. Věřím, že je tady dost firem, které chtějí v Česku komunikovat na odborníky a profitují ze zdravé datové scény. Naši partneři jako Seznam, Deepnote nebo Manta mi to dokazují. Tenhle obsah ale dělám jen a jen pro vás a potřebuju vidět, že vás zajímá, že vám to dává smysl a hodnotu. A pokud ne, slyšet to od vás co nejdřív. :)
Proto vás prosím o akci. Přepošlete tenhle newsletter, tweetněte, napište mi, co je na něm dobře, co špatně a co v něm zoufale chybí. Michal Kašpárek mi nádherně reagoval na to, že budu točit podcast: „Slyšel jsem největší osobnosti mojí generace škemrat o lajky a subscribe."Potřebuji ověřit, jestli je česko-slovenská datová scéna dostatečně velká, aby si zasloužila vlastní médium. Nemusíte lajkovat, pokud ale pošlete aktualitu, doporučte tweet thread, nasdílejte oblíbené memečko nebo i jen napíšete, že se vám to líbilo, budu rád.
Díky!
Jirka (jirka@fenekpr.cz)
Máte dotaz, nebo něco co by nás mohlo zajímat?
Neváhejte se na nás obrátit nairis@fenekpr.cz