Data Science & AI workshop, Prague – 29th February 2024
Minulý týden uspořádalo HPE akci o Data Science & AI. Data Talk byl partnerem a proto vám přinášíme exkluzivní report.
Varování na úvod
Celý den vykopl Honza Romportl s tématem AI v Česku. Více než o Česku mluvil o revoluci, kterou nové AI technologie znamenají pro svět, pracovní trh a společnost, ale zároveň konkurenceschopnost Evropy. A nebyl to vůbec optimistický výhled, spíš důrazné a hlasité varování před deep-fakes, velkou vlnou propouštění a nepřipraveností Evropy na budoucnost.
Když se totiž podíváme na inovace v oblasti Gen AI, Evropa brutálně zaostává. V nejdůležitější oblastí – vývoji samotných foundation modelů (česky se to podle Wiki řekne “základní modely”) má Evropa nyní v podstatě dva projekty – francouzský Mistral a německý Aleph Alpha (který mimochodem využívá právě HPE železo i platformu na trénování NLP modelů).
V čem jsme, zejména u nás v CEE regionu, relativně silní je druhá kategorie – tradiční machine learning. A právě Honzův pohled na to, že disciplína strojového učení a “klasické” AI implementace má díky příchodu Gen AI velmi krátkou trvanlivost, byl jedním z nejdepresivnějších insightů. Pokud patříte stejně jako většina účastníků mezi ML profesionály, máte dle výhledu jen pár let než tento trh udělá “nová AI” zastaralým.
Poslední kategorie jsou AI aplikace a produkty. Ten globálně poroste, část zisků a přidané hodnoty však vždy spolkne infrastruktura – tzn. základní modely.
Konec přednášky patřil naději, že lidi budou stále potřeba, protože vzniknou nová pracovní místa, typicky v oblasti péče o stárnoucí populaci.
Umělá inteligence, ale zodpovědně!
Na Romportla navázal Tjerk Houweling, AI solution architect z HPE. Ten uvedl téma potřeby QA v AI a začal nechvalně známým příkladem Apple Card. Tento projekt Apple a Goldman Sachs krátce po vydání schytal kritiku a obžalobu z diskriminatorního chování. Američtí spotřebitelé si stěžovali, že je AI systém skóruje na základě pohlaví, reportovali, že ženy dostávají menší limit pro útratu než jejich mužské protějšky. Úřady nakonec oznámili, že k žádné diskriminaci nedošlo, že systém funguje správně a spravedlivě. Ale obhájit a prokázat spravedlivost systému trvalo a podle některých zdrojů vedlo ke ztrátám v řádech stovek milionů dolarů, miliard pokud započítáme újmu na pověsti firem a produktu.
Tjerk proto mluvil o tom, jak zařídit, aby vaše AI splňovala stále přísnější kritéria v oblasti bezpečnosti, lidských práv. Aby byl jakýkoliv AI systém zodpovědný (Responsible AI), je potřeba splňovat tři podmínky – musí být reprodukovatelný, tzn. mít možnost ukázat na jakých datech byl systém trénován, za pomocí jakého kódu, vysvětlitelný, tzn. s možností ukázat, jak má nastavené váhy a jak moc halucinuje, a odpovědný, což znamená potřebu rozhodnutí člověka a jasnou odpovědnost ve firmě za to, když model/systém dělá neplechu.
Potřebu řídit kvalitu pak dle Tjerka umocní ještě legislativa, typicky EU AI Act.
Tjerk měl také můj nejoblíbenější slide dne, kde přirovnal současný stav ve vývoji AI k vývoji softwaru v 80. letech – chybí nástroje na QA, debugging, monitoring. Dáváme dohromady MLops stack a mezitím tady přilétlo téma LLMops, zajimavé časy a spousta příležitostí pro nové produkty. Třeba ty od HPE. 🙂
HPE Machine Learning Platform
Pak přišla hlavní část programu, kterou měl na starost Christophe Menichetti, také HPE AI solution Architect, který si získal celé publikum svou energií, francouzským šarmem, ale hlavně zkušenostmi a vhledem do reality současné data science. Christophe měl na starost představení HPE platformy pro datové vědce. Ta nevznikla na zelené louce, naopak je výsledkem akvizic HPE z posledních let. V roce 2021 totiž HPE akvírovala open-source nástroj Determined AI.
Na základě Determined vznikl tzv. HPE Machine Learning Development Environment (MLDE) – prostředí pro data scientisty, kde si můžete pouštět Jupyter notebooky, modely vyvíjet, benchmarkovat, optimalizovat. V roce 2022 pak HPE začalo nabízet produkt, který integruje jejich nabídku železa s MLDE a dalšími vychytávkami – HPE Machine Learning Development System. A právě pomocí něj trénují své multimodální, multijazykové modely v Aleph Alpha.
Tím ale náš příběh nekončí. Na začátku loňského roku totiž HPE akvírovalo další populární open-source projekt, Pachyderm. Pachyderm je mnohem víc na data engineering straně celého AI a je vlastně první částí celého MLops, místem pro řešení data processingu a stavění pipeline. ETL, data lineage atp. K Pachyderm přidejte SLAčka a všechno ostatní, co potřebuje zákazník jako Lockheed Martin, aby pustil software k sobě do produkce, a máte HPE Machine Learning Data Management (MLDM). Zároveň je skvělé, že oba projekty, Pachyderm (MLDM) i Determined.AI (MLDE), nejsou jen v licencované podobě, ale zůstavají k dispozici komunitě i ve formě open-source!
A pokud se už ve zkratkách ztrácíte, nevěšte hlavu, mám pro vás obrázek z Githubu:
Na něm jde také vidět, že deployment může následně probíhat v libovolném Kubernetes prostředí. Většina slidů zmiňovala konkrétně KServe. Právě na poslední části celého cyklu – deployment a monitoring, v tuto chvíli HPE pracuje (a já jsem zvědav na jméno), tak aby mohla nabídnout kompletní end-to-end enterprise platformu.
Když hands-on znamená hands-on!
Po obědě následovala praktická část, kde si účastníci mohli zmiňované tooly, hlavně MLDE (=trénovací, data science část postavenou na Determined AI) vyzkoušet na vlastním notebooku. A přestože o datech a AI umím možná mluvit a psát, moje reálné praktické schopnosti skončily u *SELECT a proto jsem raději zmizel po anglicku. Kdo však zůstal byl Tomáš Trnka, a právě jeho hodnocením odpolední části bych chtěl svůj mini-report uzavřít. Je totiž tou největší pochvalou organizátorům.
Pokud vás mé představení HPE AI platformy zaujalo a/nebo byste nechtěli přijít o pozvánku na příští podobný event, doporučuju sledovat globální HPE na LinkedInu, CZ/SK newsletter Novinky z HPE nebo přímo HPE Blog, Czechia & Slovakia.