Data Talk #76: Bill Inmon (Speciál)

Do dalšího speciálního dílu uslyšíte Gigiho z Revolt.BI s legendou datové scény Billem Inmonem, otcem datového skladu. Přesto, že jdeme i hluboko do minulosti, tak v rozhovoru zazní řada aktuálních témat.

Strojový přepis

Dobrý den, jmenuji se Jirka Vicherek a vítám vás u nového dílu Data Talku. Musím vám však dát varování. V tomto díle neuslyšíte ani mě, ale hlavně neuslyšíte češtinu. Jedná se o speciální díl, který vznikl ve spolupráci s firmou Revolve BI. Celý je v angličtině a moderuje jej zakladatel Revolve BI, Giuliano Gianetti, kterého můžete znát jako Gigiho. Jeho hostem není nikdo jiný než legendární Bill Inmon.

Bill Inmon je často nazýván otcem datového skladu. Byl to totiž právě on, kdo o tomto konceptu začal jako první psát. Byl to on, kdo upozornil na to, že s daty lze dělat něco jiného než jen transakční zpracování, a byl jedním z průkopníků něčeho, co dnes považujeme za BI (business intelligence) a datovou analýzu. V rozhovoru se tak podíváme do minulosti, jak koncept datového skladu vznikal a proč spousta věcí, které dnes považujeme za samozřejmost, v 60. a 70. letech samozřejmé nebyly.

Co mě na něm ale baví nejvíce, je jeho současnost. Přestože se v rozhovoru vrací do minulosti, Bill stále sleduje současnou scénu, stále ji komentuje a přichází s novými koncepty a nápady. Je velmi zajímavé, jak celé toto vnímání ovlivňuje jedna základní věc – schizma mezi technologií, tedy těmi, kteří spravují data a udržují systémy v chodu, a byznysem, tedy těmi, kdo mají sklízet výhody platforem a celé IT infrastruktury. Toto schizma vzniklo už v 60. letech a mám pocit, že se s ním pereme dodnes. Díky tomu mnohá témata a otázky, které řeší Gigi s Billem i historicky, najdou své uplatnění a inspiraci i dnes.

Tak teď už se pohodlně usaďte a poslechněte si rozhovor Giuliana Gianetti z Revolve BI s Billem Inmonem.

Jmenuji se Giuliano Gianetti a dnes mám příležitost být s Billem Inmonem. Bill byl první, kdo přišel s myšlenkou, že by podniky měly mít způsob, jak vytvářet svá data, aby mohly vytvořit jednoznačný zážitek. Přinesl témata, která jsou dnes omniprezentní v datovém světě, jako ETL, datamarty a také datový sklad.

Bill, můžete popsat, jak to bylo vytvořit datovou analýzu před vznikem datového skladu a vlastně, jak to všechno přišlo do života?

Jistě. Před mnoha lety se myslelo, že jediný typ zpracování, které by mělo být počítačem prováděno, je transakční zpracování. To znamenalo, že banky vytvořily transakce, aerolinky rezervace, a transakční zpracování bylo velmi silné. Ale v té době celá průmyslová sféra věřila, že vše, co můžete s daty v počítači dělat, je transakční zpracování.

Já jsem však byl vývojář a psal jsem do žurnálu Computer World a začal jsem vyzývat vývojáře, že data mohou být využita k více záležitostem než jen k transakčnímu zpracování. V té době bylo to téměř kacířské. Bylo to jako říct něco nepředstavitelného. Lidé byli velmi zaujatí a tvrdili, že data mohou být využita pouze pro transakční zpracování.

A tak jsem tuto myšlenku prosazoval, i když jsem za to nikdy nebyl chválen, jelikož jsem často šel proti proudu. Postupem času se mi potvrdilo, že data lze využít k něčemu více než jen k transakčnímu zpracování, ale že se musí strukturovat jinak. Mají jinou strukturu, jiné základy a charakteristiky, a právě zde vznikl koncept datového skladu.

Pokrok směrem k datovému skladu byl technickou komunitou silně odmítán. Technikové totiž nepovažovali datový sklad za něco, co by měli dělat. Ti, kdo tento koncept skutečně zúročili, byli lidé z marketingu, prodeje a financí. Businessoví uživatelé si totiž uvědomili, že potřebují informace, které lze získat právě z datového skladu.

Kdyby nebylo lidí z marketingu a prodeje, dnes bychom datový sklad pravděpodobně neměli. Technikové byli také přesvědčováni výrobci, že datové sklady nejsou jejich záležitostí.

To je docela zajímavé, protože tohle téma trvá dodnes. Viděl jsem před týdnem článek, který říkal, že zavádění GPT nebo AI je spíše starostí CIO než CDO. A myslím, že to je proto, že AI je spíše programátorská záležitost.

Data však vždycky byla o lidech, interpretaci pravdy a o tom, jak jsou data organizována a uchovávána v rámci organizace, což je spíše proces než pouhé psaní kódu či tvorba produktu. S tím plně souhlasím. Dnes jsou moji běžní zákazníci lidé z byznysu, protože je data zajímají. Lidé z IT se pak zajímají více o provoz, aby systémy správně fungovaly.

Bylo to tak i ve vašich časech?

Bylo a je to dnes ještě horší. Dříve, když jsem začínal, byla práce technika usnadnit a zefektivnit cestu byznysu. Postupně technici začali považovat za důležitější porozumění technologii než porozumění byznysu zákazníka.

Dovolte mi vyprávět pravdivý příběh. Před nějakým časem jsem mluvil s velkou společností – telekomunikační firmou na Středozápadě USA. Při rozhovoru jsem zmínil slovo „zákazník“ a jeden muž z první řady se mě vážně zeptal: „Zákazník? My vůbec máme zákazníky?“

Ten člověk nevěděl, že jeho společnost má zákazníky. A já si říkal, že to je úkolem technika – získat více zákazníků, vydělat více peněz a pomoci zlepšovat byznys. Tato organizace a tento člověk si ani nebyli vědomi existence zákazníků. To je symptom rozdělení mezi IT lidmi a lidmi z byznysu. Tento rozdíl je potřeba zacelit.

Co vidím, je, že různé byznysové organizace, především marketing, finance a prodej, začínají vytvářet své vlastní IT týmy uvnitř organizace. Nelíbí se mi to, ale taková je realita.

Myslím, že jste velmi trefil téma, které mi leží na srdci. Vidím totiž často, že datoví pracovníci bývají vnímáni jako součást operací, a operace jsou pro byznys obvykle nákladem, který se řeže.

Mnoho lidí, se kterými se setkávám, je ale orientováno na služby, chce sloužit. Jsou zvyklí řešit úkoly, které k nim přicházejí. Ale pokud nedokáží obhájit hodnotu těchto úkolů pro byznys, jak mohou očekávat zvýšení svého rozpočtu?

Pro mě je dnes silnou myšlenkou, že i BI oddělení by mělo fungovat jako firma – s vlastním marketingem, alespoň interním, s vlastním prodejem, aby mohli skutečně prokázat svou hodnotu a ne jen přijímat všechny úkoly.

Jinak se totiž utopí v práci, protože víme, že práce s daty je nekonečná.

Možná než se trochu více ponoříme, vidím, že jste opravdu orientovaný na byznys, což technici dnes často nepovažují za samozřejmost. Pro mě je to hranice mezi excelentností a jen obyčejnou způsobilostí v našem oboru.

Můžeme se ale vrátit k vašim studiím na Yale? Protože nějak jste tam byl dříve, než se vůbec začalo s tímto, a psal jste pro Computer World, že?

Ano.

No, musel jste se stát člověkem zabývajícím se daty. Vidím, že jste orientovaný na byznys, ale před tím byl mladší Bill. Jak jste se vlastně stal analytikem dat nebo člověkem, který se zabývá daty?

Když jsem studoval na Yale, mé studium bylo v oboru matematiky. V době mého studia na Yale nebyly žádné kurzy počítačů. Absolvoval jsem jediný malý nepovinný kurz o počítačích, a to bylo vše, co tehdy nabízeli. Bylo to v letech 1963 a 1964, což je hodně dávno.

Po ukončení studií jsem potřeboval práci a měl jsem nějaké základy v počítačích, a tak jsem nastoupil jako programátor. Pracoval jsem pro několik amerických společností. V těchto firmách jsem osobně vnímal, že práce IT oddělení byla hrozná – ne špatná, ale opravdu hrozná. Měl jsem dojem, že lidé v IT se o byznys nezajímají a nerozumí mu.

O tom jsem psal ve sloupku v Computer World, čímž jsem mnohé urazil. Říkali o mně nepěkné věci.

Ale co jste konkrétně říkal?

Pamatuji si, že před 70. lety byli počítačoví pracovníci považováni za stejnou platovou kategorii jako sekretářky, protože byznys je takto vnímal.

Ano, a to se změnilo. Začal jsem pracovat v roce 1967 a tehdy programátoři vydělávali stejně jako sekretářky. Výrobci tvrdili, že i sekretářky se stanou programátory.

Od té doby se svět naučil, že programátorské dovednosti jsou odlišné od sekretářských.

Jak jste začal pracovat s daty? Jaký byl váš výchozí bod? Protože jste říkal, že jste byl programátorem a pak správcem databází, že?

Viděl jsem ve firmách, že data se používala pouze pro transakční zpracování. A myslel jsem si, že data by bylo třeba používat i jinak než jen k transakcím.

V té době analytické zpracování znamenalo jen psaní reportů. Vytvořili jste hlavní soubor a pak jste z něj dělali výstupy, což byla analytika.

Dnešní analytiku bychom v té době ani nepoznali. Ale takto analytika začínala.

A tak jsem přišel s myšlenkou, že data by měla být využívána také jinak než jen pro transakce. Ti, kdo to slyšeli, byli z toho velmi rozhořčeni, protože to považovali za špatný nápad.

Ale vy jste cítil tlak ze strany byznysu, že?

Ano.

Můžeme se teď vrátit k vašim myšlenkám na datový sklad? Protože si myslím, že dodnes panuje zmatení o tom, co datový sklad vlastně je, zejména po příchodu dalších přístupů.

Vy jste datový sklad popsal jako sbírku dat, která je zaměřená na určité téma (subject-oriented), integrovaná (integrated), časově proměnná (time variant) a neměnná (non-volatile), a která slouží k podpoře rozhodování v managementu.

Ano, přesně tak.

Mohl byste prosím trochu vysvětlit tyto čtyři pojmy a proč jsou důležité?

Určitě.

Subject-oriented znamená, že nemusíme organizovat data podle procesů, které je zpracovávají. Dříve se totiž věřilo, že organizace dat odpovídá procesům, které je používají. Ale takto skončíte s naprostým chaosem.

Je vhodné organizovat data podle hlavních témat – zákazník, produkt, objednávka, dodávka a podobně. To je správný způsob organizace dat.

Integrovaný znamená, že existuje mnoho aplikací, každá s vlastní interpretací dat. Abychom měli firemní pohled na data, což je podstatou datového skladu, musíme mít jednotný, integrovaný pohled na data.

Dám vám příklad: jedna aplikace definuje pohlaví jako muž a žena, druhá jako M a F, třetí jako 0 a 1. Všechny fungují samostatně, ale pokud chcete firemní pochopení pohlaví, musíte se rozhodnout, jak to bude definováno – muž/žena, M/F, 1/0.

A to platí nejen pro pohlaví, ale i pro měření dat, kódování, strukturu dat a mnoho dalších aspektů, které je třeba sjednotit, aby aplikace vytvářely společnou firemní informaci.

Časová proměnnost (time variant) je jednoduchý koncept – uchováváte historické záznamy dat v datovém skladu. Data v datovém skladu neupravujete, ale zaznamenáváte jejich změny, abyste měli kompletní historický přehled o všem, co se stalo.

Neměnnost (non-volatile) znamená, že data se v datovém skladu neupravují; místo toho vytváříte nové záznamy. Toto je významná charakteristika datového skladu.

Takto definujete, co je datový sklad.

Za zmínku stojí, že dnes často vrstvíme datové sklady. První vrstvy jsou založené na aplikacích, protože většina procesů normalizace a integrace dat se liší podle systému, ve kterém data vznikají.

Vrchní nebo klíčové vrstvy obvykle aplikuji subject-oriented přístup s tabulkami či entitami podle obchodních pojmů jako zákazníci, firmy, produkty a podobně, které jsou potřeba k analýze.

Používali jste při navrhování datového skladu již tehdy vrstevnatý přístup nebo jak jste strukturovali data?

Ano, vrstevnatý přístup jsme používali. Ale to, co jste popsali, je datový sklad včerejška. Datový sklad zítřka bude vypadat úplně jinak, protože datový sklad včerejška byl založen pouze na strukturovaných datech.

V datovém skladu zítřka budou také textová a analogová data, která je třeba zahrnout do skladu samotného. A jakmile do datového skladu začnete zahrnovat textová a analogová data, věci se dramaticky změní.

Vaše pochopení tedy platí pro datový sklad včerejška, ale ten zítřka musí být rozšířen.

Ano, a protože jste byl jeden z průkopníků ETL procesů – myslím, že vaše společnost Prisma Solutions byla první, která skutečně dodala ETL nástroj.

Ano, to je pravda.

Dnes se hodně mluví o ELT. Podle mého chápání je to přístup typu uložit a zapomenout, který moc neřeší strukturu. Co si o tom myslíte? ELT… (končí záznam).

Není to ELT. ELT je EL. Co prodejci udělali, je to, že řekli: „My dokážeme vytvořit E a dokážeme vytvořit L, ale na T zapomeneme.“ A T přeneseme do domény někoho jiného, aby tuto práci provedl za ně. Takže ELT je prodejcův záminka, jak vám prodat něco, co není datový sklad. A vy se možná usmíváte, ale to je pravda. Podstatou datového skladu je transformace. Pokud transformaci neprovedete, pokud na transformaci zapomenete, pak jste nepostavili datový sklad.

Vlastně se usmívám, protože cítím, že v transformaci je ta hodnota, do které člověk musí vložit práci a úsilí. Automatizované načítání dat je na konci snadné, jak jste zmínil, zatímco většina práce, kterou si vážím a kterou skutečně děláme, probíhá ve fázi transformace. Usmívám se, protože s vámi naprosto souhlasím. Transformace je jako sázení rajčat na jaře. Nevím, jak by mohl někdo sázet rajčata na jaře, aniž by si znečistil ruce. Musíte sehrabat zem, přesunout ji, vykopat díru, zasadit rostlinu rajčete a potom jí dát místo. Když to děláte, ruce skončí špinavé.

Prodejci a konzultanti ale nemají rádi mít špinavé ruce. Nechtějí se zapojit… Integrace je špinavá práce. Je těžká, časově náročná, složitá a nepřesná – to jsou všechny věci, které prodejci nenávidí. A právě proto se prodejci snažili transformovat ETL na ELT. Ale to je trik, který prodejci hrají, aby mohli prodávat víc lidem, kteří nevědí, co vlastně dělají.

Upřímně, s tímto názorem úplně nesouhlasím. Samozřejmě, že pro prodejce je obtížné pochopit kontext dat a uživatel by to měl udělat. Je to jako stavba domu. Můžete dělat cihly, základy nebo nábytek, ale ten, kdo dává život domu, je zákazník, protože on ví, jak nechce v domě bydlet. A u datového skladu je to podle mě podobné. Data jsou nakonec sbírkou měření prováděných k určitému účelu. A pokud tento účel není jasný – což je mise firmy a v čem mnoho firem selhává – pak samozřejmě žádný prodejce situaci nezachrání.

Takže v tom mojí míře souhlasím, že je to slabá záminka, aby aspoň část příběhu mohla být poskytnuta s tím, že: „Hele, můžeš si uložit svá data a pak to nějak vyřešíš.“ Protože je to povrchní. Ale myslím, že je to i situace, kdy jsou prodejci do jisté míry tlačeni zákazníky samotnými, kteří nejsou schopni udělat domácí úkoly ohledně účelu datového skladu.

K této problematice ještě zpátky. Od doby, kdy jste začínal, do dnes došlo k mnoha technologickým změnám. Mě vždycky připadalo, že dříve, kdy byla data drahá na skladování…

Výpočetní zdroje a normalizace dat byly preferovány, protože bylo efektivnější data skladovat, efektivnější je zpracovávat atd. Ale zároveň to není efektivnější pro čtení dat, což je ten důvod, proč dnes vidím tento trend: „Uložme velké, robustní tabulky, protože BigQuery nebo Snowflake to zvládnou.“

Překvapuje mě, jestli je možné postřehnout velký technologický posun, který změnil paradigma, jak by měl být datový sklad budován.

To je zajímavé, co říkáte, protože podle mého názoru se definice datového skladu nezměnila. Implementace datového skladu se ale změnila velmi výrazně. Když se datový sklad poprvé objevil, skladování bylo stále poměrně drahé a nebylo možné stavět datové sklady jako dnes na tehdejších kapacitách úložišť – jednoduše by to nešlo.

Takže jedna věc, co se změnila, je skladování. Ale také celá infrastruktura. Při vzniku datového skladu neexistovalo cloudové zpracování, dnes ano. A tak se implementace datových skladů mění každý den, a upřímně řečeno, k lepšímu. Ale definice datového skladu, potřeba mít důvěryhodná data přístupná na dosah ruky, to je to, co pohání poptávku po datovém skladu.

A jak jste zmínil, důvěra je o důvěryhodnosti, že? A důvěra není získána spuštěním nějakého datového dotazu nebo něčeho podobného. Jde o budování opakovatelných transakcí mezi poskytovatelem, jako je technik, a spotřebitelem, což je obchodník.

Co byste poradil ohledně budování důvěry v datech?

To je složitá otázka. Důvěra se buduje používáním něčeho a vědomím, že na to můžete spoléhat. Děje se to v průběhu času, během mnoha transakcí a na základě věrohodnosti výsledků.

S vámi souhlasím. Problém, který vidím v agentuře, je, že prodejci tlačí na rychlé prodeje: „Chci milionový kontrakt za tři měsíce.“ Když přicházím do organizace, která už je opravdu zralá a potřebuje dospět k tomu, že může datům opravdu důvěřovat, není to jen o implementaci skladu, ale i o změně manažerských procesů a způsobu, jakým se dívají na své vlastní procesy vytvářející data.

A samozřejmě následně i na procesy řízení, aby mohli začít spoléhat na data při rozhodování. A co vidím, tohle není otázka měsíců, možná ani let. Řekl bych, že to nelze uspíšit. Nevím, jak to udělat rychleji. Kdybych věděl, řekl bych vám to. Znám jen starou dobrou cestu: budovat, používat, spoléhat se a věřit. A to není snadné a nevznikne to rychle. Je to jediný způsob, který znám.

Dobře. Rád bych se teď podíval na váš podnikatelský směr.

Vím, že jste uvedl na burzu první společnost už roku 1996, tedy dávno před dobou startupového boomu, asi i před prasknutím první dotcom bubliny.

Jaký byl přechod od výzkumníka nebo technika k podnikateli a skutečné realizaci?

Nikdy jsem nechtěl být podnikatelem. Byl jsem k tomu donucen. Ani samotné podnikání mě nebaví. Jsem podnikatel, dělám to a doufám, že to dělám dobře. Ale líbí se mi to? Ne, raději bych nebyl podnikatelem.

Být podnikatelem je jako jízda na horské dráze. Jednu chvíli stoupáte a vše je nádherné, za okamžik klesáte a máte pocit, že do 30 sekund zemřete. Je to velmi rozrušující.

Dělám to dlouho, takže jsem si už zvykl na jízdu na horské dráze. Podnikatelem jsem se stal z naprosté nutnosti. Neznal jsem jinou cestu.

Pracoval jsem tehdy v Silicon Valley, Kalifornie, což je místo, kde by měl být každý high-tech podnikatel. Náhodou jsem se setkal s lidmi, kteří měli kontakty na venture kapitálovou komunitu. A tak jsem se náhodou stal podnikatelem. Necítím se s tím dobře.

Líbí se mi to? Ne. Jsem podnikatel? Ano. Ale až nebudu podnikatelem, budu šťastnější.

No stres tedy není… Dáme tomu teď pauzu. Promiňte za to.

Sám jsem podnikatelem, takže vím, jaké je to, když ztratíte velkého klienta a přemýšlíte, co bude dál. Vždy je za tím příběh.

Zmínil jste, že jste to udělal z nutnosti. Jaká to byla nutnost? Jak to vzniklo?

Řeknu vám příběh. Pracoval jsem tehdy v konzultační firmě American Management Systems. Ta firma postavila první šest až sedm datových skladů na světě. Měli jsme asi 90 lidí vyškolených na design, ETL a podobně.

American Management Systems byl tehdy jediný subjekt na světě s těmito schopnostmi. Můj šéf, velmi milý člověk, kterého mám rád dodnes, mi řekl: „Bille, jediná budoucnost v našem odvětví jsou transakční systémy. Pokud chceš mít kariéru v datových skladech, musíš jít jinam.“

Tak jsem odešel. Pracoval jsem tehdy v Silicon Valley, měl jsem přátele, kteří byli ve spojení s venture kapitálovou komunitou. Jednoho dne jsme šli za nimi s projektem a ti nás skutečně podpořili. Tak jsem se stal podnikatelem.

American Management Systems se rozhodla datové sklady nevyvíjet a dnes již neexistuje jako společnost. Ztratili směr. Když existuje jediná firma na světě, která dělá datové sklady, měla by být největší konzultační firmou na světě.

Ale American Management Systems se rozhodla jinak.

Je těžké vidět velký plán, když začínáte, že?

Ano.

Jak se vám zatím líbí Praha?

Je to moje druhá návštěva Prahy. Byl jsem tady před 20 až 25 lety. Velmi si to užívám. Manželka je se mnou, máme se skvěle.

Právě jsme přijeli ze Švédska a porovnávám počasí v Praze a Švédsku. Včera bylo v Praze chladno, ale dalo se jít ven, nepršelo. Ve Švédsku je studené a mokré počasí. Byli jsme tam týden a neviděli jsme slunce ani půl hodiny. Jeden den jsme se podívali z okna a řekli si: „Ježiš, slunce!“ Jinak byla celou dobu zataženo, pršelo, foukalo a bylo chladno.

Miluji Švédsko, ale upřednostňuji Prahu.

Doufám, že se vám bude líbit i naše komunita na akci dnes večer, protože myslím, že jsou nadšení, že vás tu mají.

Děkuji.

Vím také, že jste založil druhou firmu Forest Rim, jejíž zaměření je na textový ETL. Právě jste zmínil, že existuje obrovská hodnota v kontextových datech a nestrukturovaných datech, která nikdo nevyužívá.

Mohl byste tedy stručně vysvětlit konceptuální rozdíly mezi vaším přístupem a NLP, které je teď velmi populární díky ChatGPT a podobným aplikacím?

Rád se vrátím na úplný začátek. Před mnoha lety jsem pracoval na datových skladech a jednoho dne jsem si řekl: „Něco tu nehraje. Co?“ V korporaci tvoří strukturovaná data jen malou část všech dat. Většina dat je ve formě textu.

Existuje mnoho podob textových dat: e-maily, call centra, internet, smlouvy, poznámky a další. A nikdo se na to nepodívá. Přitom v textových datech je velká obchodní hodnota.

Ptal jsem se, proč se s tím nikdo nezabývá. Odpověď byla, že se o to snaží. Tehdy bylo něco jako NLP – zpracování přirozeného jazyka.

Podívali jsme se na NLP blíže a zjistili jsme toto: NLP je výborné pro studium jazyka. Pokud chcete analyzovat a studovat jazyk, NLP je skvělé. Ale NLP není navrženo jako komerční produkt. Je to akademický výzkumný nástroj.

Rozhodli jsme se, že potřebujeme komerční řešení pro analýzu textu.

Provedli jsme podrobnou analýzu NLP, některé jeho vlastnosti jsme převzali do našeho textového ETL, ale přidali jsme mnoho dalších funkcí, které z něj dělají komerční produkt.

Pokud srovnáte textový ETL a NLP, zjistíte toto:

NLP je drahé, textový ETL je levný. NLP vyžaduje hodně konzultační práce, textový ETL nikoliv. NLP je složité k použití, textový ETL je jednoduchý.

Textový ETL je tedy komerční produkt, který umožňuje najít hodnotu v textu.

Kde se může hodnotný text najít? Například v naslouchání hlasu zákazníka, analýze sentimentu, vyhledávání komentářů o firmě a jejích produktech na internetu. To je velmi cenné.

Proč si myslíte, že přestože je NLP populární – máme API pro analýzu sentimentu, modely pro klasifikaci a dnes i ChatGPT – není o textovém ETL tolik slyšet? Pokud je to tak výhodné, kde je problém?

Podívejte se, kolik peněz stojí ChatGPT – má za sebou miliardu dolarů.

Textový ETL tuto finanční podporu nemá, a proto tam je rozdíl.

Ale pozor, někteří velmi silní hráči v našem oboru začínají textový ETL objevovat.

Ještě jedna zásadní odlišnost oproti API. Viděli jste, co ChatGPT nabízí v analýze sentimentu? Pečlivě jsme to zkoumali.

Rozdíl mezi námi a nimi je jako noc a den.

My dodáváme mnohem úplnější pochopení toho, co zákazník říká.

ChatGPT může říci: „To je negativní komentář.“

A my řekneme: „Ano, to byl negativní komentář, zde je důvod, proč byl negativní, o čem přesně mluvil a v jakém kontextu.“

Ten kontext potřebujete pro opravdu důležitá rozhodnutí.

Dobře. Chtěl bych toto vysílání zakončit.

Co byste poradil začínajícím datovým analytikům, kteří možná právě začínají svou kariéru a potřebují první kariérní rady?

Řekl bych, že svět vnímám jako Kalifornii roku 1848. Tehdy Kalifornie existovala, a jak říkají historikové, v roce 1848 jste mohli jít k potoku a sbírat zlato.

Jsem si jistý, že…

Byla s tím spojena práce, ale v kalifornských potocích doslova čekalo zlato, které bylo možné jen sebrat. A pak v roce 1849 bylo v Kalifornii objeveno zlato a veškerý východní pobřežní region Spojených států se přestěhoval na západní pobřeží hledat toto zlato.

Dnes, pokud hledáte, tajemstvím dlouhodobé kariéry, tajemstvím úspěchu je nalezení obchodní hodnoty. Najděte něco, co váš zákazník, váš spotřebitel a vaše firma potřebují a oceňují. A kde je tato informace? Většina těchto informací je ve formě textu. A nikdo se na to nedívá. Je to jako Kalifornie v roce 1848 – nikdo nehledal zlato, jen jste přišli k potoku, sebrali to a řekli si: „Podívej, tohle je kus zlata. Dám si to do kapsy.“ A to je to, co dnes máme.

Kdybych začínal svou kariéru, zaměřil bych se na text. Kde v textu hledat toto „zlato“? Jedno místo, kde můžete hledat zlato, je analýza sentimentu. Další zajímavé místo k hledání zlata v textu jsou lékařské záznamy.

Lékařské záznamy jsou zajímavé, protože jsou prakticky po celém světě psány pro jednoho lékaře a jednoho pacienta. Jsou psány formou textu. To je vhodné pro lékaře a pacienta, ale není to dobré pro lékařský výzkum. Pokud je třeba prozkoumat 100 000 pacientů, nelze to dělat pomocí textu. Nelze ručně přečíst 100 000 záznamů a něco z toho získat.

Pokud budeme toto dělat, a mimochodem, potřebujeme opravdu prozkoumat 100 000 lékařských záznamů? V době COVIDu si můžete být jisti, že ano. Potřebujeme mít možnost klást otázky: Jak COVID reaguje na váhu? Jak COVID reaguje na rakovinu? Jak COVID reaguje na pohlaví, na věk osoby? Potřebujeme mít všechny tyto odpovědi. A způsob, jak je získat, je podívat se na 100 000 záznamů současně.

Nelze se však podívat na 100 000 záznamů současně, pokud jsou psány formou textu. Je nutné tyto lékařské záznamy převést do formy databáze. Jakmile to máme v podobě databáze, můžeme začít zjišťovat například u těchto 100 000 pacientů vztah mezi medikací, rasou – zda je to osoba kavkazského původu, asijského původu, polynéského původu – jak to souvisí s tímto tématem.

Pokud tedy hledáme, kde je to zlato, zlato je ve formě textu. A odemykání textu je tím, na co bych se zaměřil.

Dále jste řekl, že bychom se jako technici neměli soustředit na technické detaily. Text je samozřejmě technický prvek, ale děláme to pro lidi, že? Je tedy text technickou záležitostí? Text je komodita, je to komunikace, a ano, text má také technické prvky, to nepochybně. Ale text má ještě něco dalšího – co ho odlišuje od ostatního – text bez kontextu není text.

K textu je třeba přidat kontext, aby dával smysl. A právě tato potřeba kontextu ho odlišuje od databáze nebo něčeho, co máte odděleně. Kontext dělám v oblasti práce s textem již 20 let a mohu říci jednoznačně, že kontext tvoří 90 % práce. Text tvoří 10 % práce.

Ano, ano, ano, jsou věci, které souvisejí s textem samotným, ale kontext je velmi obtížný. A souhlasím s tím, že – jak jste zmínil – text je vyloučen z datového skladu, protože transformace dat se týká kontextu. Musíme data kontextualizovat a myslím, že je to velmi důležitá myšlenka k zapamatování.

Takže Billi, teď když uzavíráme náš rozhovor, nemáš nějakou životní radu pro budoucí analytiky, která by jim pomohla být lepší ve své práci?

Kdybych měl dát jeden kus rady, upřímně každému, kdo pracuje s počítači nebo mimo ně, kdekoliv, bylo by to toto: Za prvé, nebojte se selhat. Za druhé, poučte se ze svých neúspěchů.

Pokud se ze svých neúspěchů nepoučíte, pak je to zbytečné. Ale selhání jsou skvělými učiteli světa. A znovu: nebojte se selhání.

Říká se, že jediní lidé, kteří nikdy nezklamou, jsou ti, kteří nic nedělají. A pokud chcete být člověkem, který něco dělá, nesmíte se selhání bát, ale musíte se z něj i poučit.

Děkuji, Bille. Bylo mi potěšením tě mít v našem podcastu a doufám, že se brzy uvidíme na večerní akci.

Děkuji, bylo mi potěšením.

A to je všechno. Děkujeme, že jste poslouchali až do konce. A také děkujeme našim partnerům – Big Hubu, Recombee, Intexu, Nanoenergies, LiveSportu, SCS, Bistritům, Colors of Data, RevoltBI a Gudate.

Pokud vás zajímá více z české datové scény a datových technologií globálně, zanechte nám svůj e-mail na datatalk.cz. Nebo přijďte na jeden z našich meetupů na dejtemes.cz.

Nechť vás provází data.

Podcast

Data Talk #76: Bill Inmon (Speciál)

Strojový přepis

Odebírejte Data Talk