Data Talk: novinky a aktuality z datové scény (říjen 2022)

Speciální, vysoce experimentální díl Data Talku, kde dává Jirka Vicherek říjnový update o dění na datové scéně, dalších plánech Data Talku, sdílí pozvánky na aktuální datové akce i upozorňuje na otevřené datové pozice. Jestli to bude první speciál/update z mnoha nebo slepá vývojová větev určíte do velké míry vy svoji "zpětnou vazbou". Prostě dejte vědět, jak se vám díl líbil. I když hodně málo, vůbec nebo nevíte. Díky moc!

Strojový přepis

Dobrý den, moje jméno je Jirka Vešerek a vítám vás u dalšího speciálního dílu Datatolku. Tento díl je zvláštní v tom, že jsem dneska sám. Naproti mně nesedí žádný datový profesionál a nebudeme tedy probírat datové technologie ani sdílet expertní know-how. Tento díl je spíše experimentální.

Nutno říci, že experiment z donucení, protože nechceme nazlobit podcastové bohy a musíme nakrmit jejich algoritmus. Takže jako každý čtvrtek i tento vám přinášíme nový díl Datatolku. Po jedenácti rozhovorech s experty z datové scény bych však chtěl zkusit něco jiného. Vlastně hned dvě věci.

První je něco jako metapodcast. Zajímá mě, jestli vás zajímá, jak Datatolk vzniká, jak přemýšlíme nad dalším obsahem pro datovou scénu a jak nám v tom můžete pomoci. Druhou věcí je, že bych rád vyzkoušel, a dlouho jsem hledal nějaký formát aktualit. Naproti velkým rozhovorům, které doufám budou platné a aktuální i za rok či dva, bych vám chtěl umožnit přístup k informacím o věcech, které se dějí tady a teď a které za tři měsíce třeba relevantní nebudou, ale právě teď vás mohou zajímat. Ať už jde o produktové aktualizace, nové kola investic v českých datových firmách nebo třeba pracovní nabídky.

Na to vše nám přicházela velmi pozitivní zpětná vazba. Protože zde momentálně není komunikační platforma pro data, myslíme, že vás tyto věci zajímají, a proto to dnes zkusíme. Pojďme tedy na první experiment – metapodcast.

Jak jsem si to vymyslel, trochu to připomíná příspěvky instagramových influencerek, které často začínají větou „Často se mě ptáte“. V mém případě se mě většinu těchto otázek nikdy nikdo nezeptal, což mě mrzí. Jak praví přísloví „Když nemůže Horák Mohamedovi, musí Mohamed hoře“. Proto jsem si po vzoru pořadů, kde odpovídají na dopisy diváků nebo volají do redakce, vytvořil pár otázek a přiřadil je anonymním lidem. Tak pojďme na to.

První otázka od posluchače Karla: „Datatalk mám velmi rád. Znepokojuje mě však nízká úroveň odbornosti moderátora. Je možnost moderovat místo něj?“ Pane Karle, velmi mě těší, že se takto ptáte. Odbornost moderátora je pro mě také problém a odpověď je ano. Dlouhodobě budu rád, pokud mě někdo někdy, alespoň na nějaký čas, v této roli zastoupí. Jsem zde z nouze. Velmi mě těší vaše zpětná vazba, že jste překvapeni, že tomu celkem rozumím. Pro mě by bylo lepší, kdyby tady byl někdo, kdo tomu bez překvapení hodně rozumí.

Druhá otázka rovněž od Karla: „Pokud nemohu moderovat, mohu vystoupit jako host? Platí se za to nebo co?“ Pane Karle, děkuji za dotaz. I v tomto případě jste více než vítán. Pokud budete mít dostatečně zajímavé téma a obsah pro datové profesionály, tak stejně jako kdokoliv z vás posluchačů, můj cíl není tvořit exkluzivní kanál. Naopak bych byl rád, kdyby zde vzniklo místo, kam si chodíte pro informace. Místo, které, podle mého názoru, v tuto chvíli bohužel chybí. A s tím se profesionálně setkávám – když chci komunikovat odbornější věci, není kde. Jinými slovy, řečníci a hosté zde nejsou placeni.

Dále nám na sociálních sítích píše posluchačka Klára: „Dobrý den, jsem velkou fanynkou Datatolku, ráda navštěvuji i váš meetup Datameš. Na jaké další aktivity se můžeme z vaší dílny těšit?“ Tak já...

Jsem doufal, že se zeptáte, samozřejmě očekávání jsou velká. Nyní nás v listopadu čeká již devátý Datameš. Pro ty z vás, kdo to nevědí, Datameš jsou meetupy, které organizujeme s Karlem Šimánkem z BigHubu tady v Praze, většinou v klubu K7 na Krimské ulici. Většinou to vychází na první čtvrtek v měsíci. Více na datamesh.mesel.cz. Jste všichni zváni, je to bez vstupného díky velkorysosti partnerů celé akce.

Co by mohlo zajímat naši posluchačku Kláru je plánované spuštění i v Brně. Začali jsme jednat s prvními partnery, vypadá to, že máme produkčního kamaráda přímo v Brně, a snad máme i místo, které stejně jako klub na Krimské v Praze by mělo být spíše neformální, barové, večerní a zaměřené na networking.

Druhou věcí, kterou chystáme a která vás brzy čeká ve vašich e-mailových schránkách, je newsletter. Podobně jako u těch aktualit, které budu zkoušet za chvíli, mám pocit, že se tu děje mnoho věcí a chybí jedno místo, kam si pro ně chodit. Přijde mi to škoda, protože česká datová scéna už je poměrně velká a dospělá a chtěl bych, aby byla i více sebevědomá. Proto budeme spouštět newsletter, ve kterém budeme agregovat informace, články, podcasty a akce, které se na trhu dějí.

To je výzva i pro vás – prosím, posílejte nám takové informace, rádi je budeme dále sdílet.

Posluchačka Irit se ptá: „Která z dosavadních epizod Datatolku je, Jirko, tvoje oblíbená a na co se můžeme dále těšit?“ To je krásná otázka. Z těch jedenácti dílů, které už jsou venku, se velmi těžko vybírá. Pokud jste je neslyšeli, rozhodně bych doporučil dva, které se věnují překvapivě možná té nejpokročilejší tématice – Machine Learning Ops a tomu, jak staví Machine Learning systém firmy Nanoenergies a Odin. Obě dvě české firmy jsou velmi pokročilé ve Data Science i v tom, jak implementují produkční pipeline. A ti lidé jsou velmi chytří s úžasnými insights, mně to moc baví.

Dále nesmím zapomenout na pro mě nejvíce „oči otevírající“ díl – s Lukášem z Pocket Virtuality, kde se probírá prostorová data a proč je další dimenze dat vlastně budoucností datové analytiky.

Kdybych měl vybrat tři díly, které doporučuji, jsou to Prokop Šimon z OrangeGG (jeden z posledních dílů), Honza Šimbera z Nanoenergies a Lukáš Jelínek z Pocket Virtuality. Pokud je ještě neslyšeli, určitě si je pusťte hned teď.

Obecně, než jsme začali dělat Datatalk a úplně na začátku, jsem se velmi bál nejen svých komunikačních schopností, ale i zajímavosti a komunikačních schopností hostů. Opak je pravdou – přijdou mi naprosto úžasní a dosud jsme neměli špatného speakera ani špatné téma. To je můj subjektivní pocit, samozřejmě.

Máme zde poslední anonymní dotaz: „Proč je logo Datatolku vyrobeno z lepicí pásky?“ To je vynikající otázka. Toto vysvětlujeme na začátku každého Datameshe. Když jsme hledali symboliku, branding, který by reprezentoval současnou datovou scénu, produkty a samotnou práci datového analytika, datového inženýra nebo datového vědce, nenašli jsme lepší příměr než duck tape – gafu, lepicí pásku.

Když se podíváme na současný technologický stack a řešení, která používají firmy, stále většinou jde o slepování věcí dohromady, které původně neměly být spojeny, a nějaké udržování, aby to nespadlo a dál fungovalo. Tato symbolika se nám líbí, a proto ji využíváme i v logu Datatolku.

Pojďme nyní na novinky. Tou, která nejvíce rezonovala v mém okolí, byly novinky od Googlu, které byly představeny v rámci Cloud Next 22. Měl jsem možnost o nich diskutovat s Ivanem Kutilem z Apsatory, CTO a spoluzakladatelem agentury Apsatory, která se zaměřuje právě na Google Cloud Platform.

Vyšla nám z toho tři velká témata. První je podpora Machine Learning ops – velké rozšíření služby Vertex AI od Googlu, například rozšíření o Vertex AI Vision pro práci s obrazem – připravené modely na počítání lidí a podobné úlohy, přímo na vaše použití.

Celý Vertex AI je inženýrsky zaměřený a velmi strojově učící se opsový nástroj – zahrnuje práci s modely, jejich přetrénování, správu a kontrolu kvality. To mě velmi zajímá, jak roste svět machine learning ops. Znovu se vracím k dvěma epizodám, které jsem doporučil jako své oblíbené – Nanoenergies a ODNGG, kde toto téma je diskutováno.

Druhou oblastí je zpracování nestrukturovaných dokumentů, typicky faktur, prostřednictvím Document AI – API pro zpracování těchto dat. Řekl bych, že jde o „rozum z cloudu“ pro nestrukturovaná data a jejich analýzu.

Třetí oblastí jsou velké aktualizace v BigQuery, Google řešení pro data warehousing. Velmi se v tomto kontextu skloňoval Looker. Google koupil Looker, ale integrace zatím nebyla příliš rozsáhlá. Zmínil se i rebranding: Google Data Studio, které je obecně známější a používanější produkt, se nově jmenuje Looker Studio. Samotný Looker bude nazýván Looker Pro.

Můžeme se těšit na větší integraci těchto dvou produktů. Uvidíme, co z toho vznikne.

Poslední velká oznámení od Googlu jsou nové regiony Google Cloudu – Rakousko, Řecko, Norsko, Jižní Afrika a Švédsko. Vypadá to, že lze předpokládat větší decentralizaci a více regionů. Uvidíme, co to bude znamenat pro Česko a jestli se dočkáme i českého Google Cloud regionu.

Bylo toho mnoho a hlavní narativ zněl, že umělá inteligence je způsob, jakým se dostaneme k čtyřdennímu pracovnímu týdnu. Za mě je to velmi zajímavý narativ – neříkáme, že stroje vezmou lidem práci, ale že jim umožní mít čtyřdenní pracovní týden. Přijde mi to jako geniální komunikační linka ze strany Googlu.

Další novinky očekávám brzy, protože právě začíná Coalesce, konference dbt, kde se mají představovat nové spolupráce a podobné věci. Takže to se brzy dozvíme.

Dále mě zaujala včerejší informace, že Vlado Dzurilla, kterého možná znáte jako vedoucího na Kitu – často spojovaný s digitalizací a projektem COVID-19.cz – a přestože jsem nebyl nikdy příznivcem jeho nadřízených, připadal mi jako člověk na správném místě, ukončil funkci ředitele dvou státních IT podniků. Informoval o tom včera Honza Sedlák z Lupy, jehož podcast a videa PepeLogic velmi doporučuji.

To jsou zatím novinky. Příště bych jich chtěl zařadit více a budu rád, pokud mi je budete jakkoliv zasílat.

Teď předposlední část, která se týká pozvánek na datové akce. Začneme z Hůrta. Tento víkend v Brně probíhá Impact Brno, konference a hackathon na téma moderní energetiky. Hackathony mám rád – pár jsem jich dělal a pár se jich účastnil. Znovu zmíním Nanoenergies, díky nimž jsem se začal více zajímat o moderní energetiku. Pokud jste v Brně nebo okolí a máte o víkendu čas, myslím, že to rozhodně stojí za to.

Co určitě stojí za to, je také příští týden Datapunkers. Revolt BI pořádá pátý díl jejich neformálního datového meetupu. Bude v Paralelní polis, ve středu 27. října. Téma je dbt, takže si myslím, že se tam budou probírat i dnešní novinky z Coalesce.

A úplně nejlepší zpráva je, že na meetupu bude mluvit Stanislav Fost o tématu „Out of Distribution Detection at Scale“. Program bude v angličtině. Pokud ho neznáte, Stanislav patří mezi nejvýznamnější české odborníky v oblasti Data Science. Většinu času tráví v Americe, a pokud máte možnost ho tu potkat a poslechnout si ho, rozhodně si to nenechte ujít. Doporučuji tedy 1. listopadu.

Samozřejmě poslední pozvánka je na Datamesh, který bude 10. listopadu opět v K7. Přijďte.

A to by bylo všechno, pokud tady nemáme nějaké zajímavé pracovní pozice. Pro ty z vás, kteří práci nehledají ani nenabízejí a pracovní pozice vás na trhu příliš nezajímají – s vámi se loučím a těším se u dalšího, tentokrát regulérního dílu Datatolku s lidmi z Clever Maps.

A nyní přejděme na pozice v oblasti dat. Opět se roztrhl pytel, je skvělé vidět, že nějaká krize datovou scénu úplně nesmetla a mnoho firem aktuálně nabírá datové analytiky, inženýry i vědce (data scientists). Vybral jsem několik pozic, které mě samotného zaujaly, protože jsou v mé bublině.

Budeme rádi, pokud nám budete posílat relevantní datové pozice; rádi je budeme komunikovat.

Co mě zaujalo nejvíce? Firma Jim Beam – jednak sponzor posledního Datameshe a organizátor prvního datového hackathonu v Košicích, který jsem moderoval. Věřte, tehdy jsem datům rozuměl mnohem méně než nyní, mám je ale velmi rád. Košický e-commerce zázrak hledá na velmi zajímavou pozici – Head of Data Engineering, což je vyšší manažerská pozice.

Další zajímavé nabídky jsou u OdinGG, které jsem již dnes zmiňoval. Cogwheel hledá datové inženýry, Shipmong datové inženýry i data scientisty. Productboard shání datové inženýry.

Poté jsou zde nabídky pro juniory – například od Dateo a Fittify. Obecně nabírá Miro, Lifesport, Trezor a Parpel Technologies.

Dále nabízí pracovní pozice Revolt BI, BigHub a Data Diligence, pokud vás zajímá spíše agenturně-konzultační stránka.

A nakonec DeepNote – ty mám moc rád.

Tolik k aktuálním pozicím na trhu.

To by bylo ode mě všechno. Tento díl byl mým experimentem. Prosím, dejte vědět, jestli má smysl tento formát dělat pravidelně, jak často a zda je zvukový formát vhodný pro tento typ novinek.

Každopádně děkuji, že posloucháte, moc si toho vážím a cením vaší zpětné vazby. Budu rád, pokud podcast doporučíte někomu, kdo by ho také ocenil.

Mějte se hezky a těším se na viděnou či slyšenou. Nechť vás provází data!

Podcast

Data Talk: novinky a aktuality z datové scény (říjen 2022)

Strojový přepis

Odebírejte Data Talk