Data Talk #164: Lenka Křenková (MEWS)

V této epizodě Data Talk jsme se s Lenkou Křenkovou ponořili do fascinujícího propojení světa dat a kyberbezpečnosti. Lenka popsala svou cestu, jak se ze sociologického výzkumu a marketingových analýz postupně propracovala až k datové analýze. Jak se vrátila z Finska do Česka, aby data řešila v Mews. Hlavní část je však o detekci phishingových útoků, kterým musí klienti MEWS (a dalších globálních platforem) čelit. Lenka společně s Jirkou Vinárkem postavila systém na detekci anomálií, kde využili například BERTopic, Levenshteinovu vzdálenost nebo klasifikaci referrerů. Mluvili jsme o tom, proč jsou dataři v kyberbezpečnosti nepostradatelní, jak důležitá je znalost produktu i co dělat, když hledáte směr své kariéry.

Strojový přepis

Dobrý den, jmenuji se Jirka Vicherek a vítám vás u dalšího dílu podcastu Datatalk.

Mým dnešním vzácným hostem je Lenka Křenková, Senior Security Data Analyst v News. Ahoj, Lenko.

Ahoj.

Dnes se s Lenkou podíváme na jeden konkrétní případ a rovněž do oblasti bezpečnosti, na to, jak se vůbec Lenka stala Senior Security Data Analyst, co ji k tomu vedlo a co to pro ni znamená. Zaměříme se na společnost News, ale než se dostaneme k News, řekni nám, jaká byla tvoje cesta k datům v News?

Cesta byla poměrně dlouhá, ale s daty pracuji již více než deset let. Studovala jsem demografii a sociologii a na začátku jsem měla spíše naivní představu, že budu výzkumnicí, že budu pracovat na univerzitě. Proto jsem šla studovat PhD. Mé studium bylo zaměřeno na sociologii a demografii a následně jsem absolvovala doktorské studium v demografii. Celé toto období mě nasměrovalo k tomu, že mě baví práce s daty, ale uvědomila jsem si některé věci, které mě na práci ve výzkumu vůbec nebaví. Jde především o psaní research proposals a grantových žádostí, psaní článků a jejich opakované přepisování, což zabíjelo radost, kterou jsem měla z vlastní práce s daty. Přesto jsem udělala během studia pivot, tedy změnu, odložila jsem školu a nelituji toho. Šla jsem do privátního sektoru a začala jsem pracovat jako datová analytička přímo na produktech.

Moje úplně první práce byla velmi krátká, spíše brigáda v marketingové agentuře, agentuře marketingového výzkumu. Dále jsem pak pracovala ve státní správě, což je místo, kde mnoho lidí z demografie alespoň na chvíli končí. Pracovala jsem tam s daty, která jsem znala ze studia, ale už během PhD jsem chtěla odjet do zahraničí pracovat ve výzkumném týmu, kde je možné vidět věci širší než v české vědě, což bylo skvělou zkušeností.

Finsko, kde jsem nakonec skončila, bylo hlavním důvodem, proč jsem školu nedokončila. Přestože tam práce byla zajímavá, uvědomila jsem si také limitace práce ve výzkumu jako takového. Už během studia jsem měla určité technické znalosti – znala jsem SQL, pracovali jsme s ArcGIS, s ER nástroji, které mě příliš nebavily, jsem spíše člověk Pythonu. Pracovala jsem také s Excelem a Microsoft Access, dále jsem používala SAS, SPSS, ArcGIS pro práci s mapovými vrstvami, což tvořilo můj základ. Když jsem se pak rozhodla pro pivot do soukromé sféry, začala jsem se učit Python, více SQL a doplňovala jsem své znalosti vizualizačních nástrojů, jako je Tableau, Power BI, Looker, QuickSight od AWS a Google Data Studio, se kterými jsem nějakým způsobem pracovala. Myslím, že v datové analýze je velmi důležité mít takovýto široký základ.

Většinu těchto zkušeností jsem získala ve Finsku. Odjela jsem tam v roce 2017 a v roce 2023 jsem se vrátila do České republiky. Pivot do soukromé sféry přišel někdy během období covidu. Začala jsem se doučovat Python a další dovednosti a zároveň posílala životopisy.

Posílala jsi životopisy finským firmám?

Ano, ano, snažila jsem se najít práci zejména tam, kde nebyla vyžadována finština. Finština byla pro mě velkou výzvou – naučila jsem se nějaké základy, ale nebyla jsem schopná ji použít na pracovišti.

Co jsi ještě udělala v rámci pivotu?

Existuje nezisková organizace, možná už dnes není neziskovka, jmenuje se Integrify a pomáhá cizincům ve Finsku dostat se do oblastí technologií, protože to může být poměrně náročné. Finsko má problém s tím, že mnoho vzdělaných lidí skončí na méně kvalifikovaných pozicích, pokud jsou cizinci, a tím jsou často nespokojeni a dříve nebo později z Finska odcházejí. S Integrify jsem strávila půl roku intenzivního kurzu Data Science a Machine Learning, dělali jsme případové studie pro různé firmy a doučovala jsem soft skills, jako například přípravu na pracovní pohovory. Něco jako kurz pro cizince.

To zní skvěle. Když ses pak vrátila, zjistila jsi, že můžeš spolupracovat s těmito lidmi?

Ano, začala jsem mentorovat a snažím se jim nějak pomoci, když mám čas, vrátit něco zpět komunitě.

Jakou práci jsi tedy získala ve Finsku bez znalosti finštiny?

První práci jsem získala díky Integrify ve firmě Hynca Performance. V Česku o ní moc lidí neví, ale ve Finsku je poměrně známá, protože nabízí komplexní a holistický přístup ke koučování a well-beingu. Firma poskytuje well-being programy firmám, což bylo během covidu velmi potřeba – péče o zaměstnance, kteří byli zavření doma a čelili vysokému riziku vyhoření. Obzvlášť drahé jsou případy vyhoření v rámci leadershipu, proto byla prevence velmi žádaná. Dostala jsem se tam díky propojení se sociologickým výzkumem – firma využívala prvky dotazníkového výzkumu a já pak analyzovala data v Pythonu a vytvářela automatizované výstupy. To byla má první práce, která propojovala to, co jsem dělala předtím, co jsem studovala, s tech prostředím a privátní sférou.

Tam jsem byla asi rok, pak se změnil management a celý R&D tým odešel. Já byla součástí tohoto exodu.

Další firmou byla Utopia Music. Jsem velkým fanouškem hudby, ale ne finského black death metalu, což je často otázka, kterou dostávám – jestli jsem se stěhovala kvůli sauně a metalu. Saunu jsem si opravdu oblíbila po šesti letech ve Finsku, ale k metalu jsem se neskláněla.

Utopia Music byl startup typu fast rise, fast burn, který už neexistuje. Líbila se mi jejich vize – "Fair Pay to Every Play". Chtěli bojovat proti tomu, že malí umělci nedostávají adekvátní odměnu za svou tvorbu, vzhledem k tomu, jak složitý je systém sledování a vyplácení práv. Systém trackování hranosti hudby je velmi nedokonalý a oni chtěli přinést zlepšení. Jako nápad skvělé, ale nakonec se ukázalo, že nalezení product-market fitu je obtížné.

V týmu jsem pracovala na fingerprinting algoritmu, který poslouchal rádia a identifikoval přehrávané skladby, dobu jejich hraní, aby bylo možné správně počítat autorské poplatky. Testovali jsme, jak algoritmus funguje a ladili jsme ho pro lepší výkon.

Byla to velmi technická práce v oblasti, která mě zajímala, a pracovali jsme v mezinárodním kolektivu. Měli jsme se tam velmi dobře, než přišly několikeré kola propouštění. Rozhodla jsem se odejít, navíc jsme si s přítelkyní řekly, že už nechceme žít ve Finsku. Jsme obě z Česka, a proto bylo nejjednodušší se vrátit domů, kde mám sociální síť a nemusím začínat úplně od začátku.

Napsala jsem několika kamarádům z naší skupiny, jestli nevědí o nějaké práci v IT, v oblasti dat. Kamarádka mi odpověděla ve čtvrtek, že mají otevřenou pozici. Bylo to už na konci výběrového řízení, takže jsem přes víkend udělala case study a v pondělí jsem se setkala s budoucím týmem. Dostala jsem nabídku, takže to celé proběhlo velmi rychle. Nestihla jsem ani přestěhovat všechno z Finska do Česka a už jsem měla práci v News, což bylo příjemné, protože jsem měla méně stresu se samotným stěhováním.

Stačilo to být OSVČ ve Finsku, protože nemůžeš být zaměstnanec české firmy, pokud nežiješ v České republice, ale to není úplně důležité.

Mohu říct, že jsem měla velmi rychle práci díky využití sítí. Doporučuji vždy kontaktovat přátele a známé, to je nejjednodušší cesta, jak práci získat.

Na jakou pozici jsi nastupovala?

Nastupovala jsem do produktových týmů jako seniorní datová analytička právě v News, která je společností v oblasti pohostinství (hospitality). Jeden tým se zabýval rezervacemi a celým rezervačním procesem, druhý tým se jmenoval Account a zaměřoval se spíše na profily zákazníků, například věci ohledně věrnostních programů a strukturování profilu tak, aby to bylo co nejvíce přínosné těm, kteří pracují v pohostinství, když sledují informace o zákaznících.

Když zde byl Vojta Kupál, mluvil o velkých změnách ve struktuře v News a ve způsobu práce. Ty jsi tam přišla v jaké době? Byla tam už ta nová struktura? U vás není centralizovaný datový tým, ale spíš pracujete v týmech podle domén, které řešíte, že?

Ano, přesně tak. Když jsem do News nastoupila před dvěma a půl roky, byli jsme plně embedovaní v produktových týmech. Můj manažer byl manažer i frontendistů, backendistů a QA. Bylo to skvělé, protože byli blízko a rozuměli týmu, ale zároveň je těžké, kdy manažer nerozumí doméně, takže podpora a růst v technické oblasti a odbornosti nebyla optimální.

Několik měsíců poté došlo ve firmě k přesunu – zůstali jsme stále decentralizovaní, ale reportingová linie se centralizovala. Náš management je nyní součástí datového tribu, ale stále jsme embedovaní v jednotlivých týmech, což pomáhá. Často řešíme podobné problémy v různých týmech, ale dříve každý řešil vše zvlášť a objevoval znovu to, co jiní už dříve. Díky částečné centralizaci můžeme společně pracovat na projektech a sdílet znalosti, užívat kód, který někdo jiný napsal.

Mně to přijde jako ideální kombinace. Nedokážu si představit skákat mezi různými doménami, kdybych měla dělat stále něco jiného, to by mě asi zbláznilo. Je dobré držet se jedné oblasti a být v ní expert, ale zároveň mít podporu a spolupráci datového tribu.

A co technologický stack? Musela ses něco nového doučit, nebo ti finská zkušenost stačila a spíš ses učila specifika MUSE jako produktu a jejich klientů?

Určitě novinkou pro mě byl Looker a LookML, se kterým jsem na začátku bojovala. Dále pracujeme v Databricks – s tím jsem už měla zkušenosti z Finska, což je obecně super platforma. Používáme stále GitHub, který už také znám.

Nové pro mě byly frontendové věci, protože ve firmách, kde jsem předtím pracovala, se nesledovaly takové detaily jako uživatelské pohyby na platformě, takže například Gainsight a cookie tracking, tedy sledování pohybu uživatele na platformě, bylo nové. Také observabilita, kde nyní používáme Neuralik a přecházíme na Coralogix, což bylo také nové.

Základ zůstává Python, kterým již disponuji.

Další novinkou bylo DBT, které používáme pro modelování základních vrstev dat, aby se nepracovalo rovnou s masivními surovými daty. Na toto máme dedikovaný tým analytických inženýrů, kteří modelují data v DBT, což je pro mě rovněž novinka.

Super, to je dobrý kontext pro hlavní příběh, kterým se budeme dále věnovat. Ten už částečně znám díky Jirkovi Vinárkovi z jednoho z DataMeshů.

Pověz nám příběh o tom, jak jste začali být cílem phishingových útoků – respektive vaši klienti, tedy klienti vašich klientů.

Jak jsi už zmínila, MUSE působí v hospitality sektoru, jste tzv. Property Management System, což je taková kombinace, kterou si vždycky představuji jako chatu v lese spojenou se službami.

Ano, Property Management System zajišťuje všechny potřeby hotelu v jednom balíku.

Přesně tak, zajišťujeme vše potřebné a dnes už nejsme pouze Property Management System, ale máme multiproduktové prostředí – housekeeping, revenue management, event management a PMS, který se stará o veškerý chod systému či všeho, co hotel potřebuje.

Před prací v News jsem nikdy nevěděla, jak komplexní je celý systém v pohostinství. Doteď mě to fascinuje, jak je vše propojené a co všechno je potřeba.

My působíme v B2B segmentu, naši klienti jsou hotely, jim zajišťujeme vše, co by mohli v jejich práci potřebovat.

Phishing se neobjevil u nás teprve v posledním roce, jde o velmi rozsáhlou a sofistikovanou kampaň, která zasáhla celý sektor pohostinství. My jsme byli v rané až střední fázi, protože jsme už dostatečně velkou cílovou organizací, která někoho zajímá.

To, co se nám stalo, nebylo příjemné, a je to takový hořkosladký moment – je dobré, že je firma dostatečně velká, abychom byli relevantní, ale zároveň je to výzva s těmito útoky bojovat.

Co se tedy konkrétně dělo?

Vezmu to z pohledu hosta, který přijíždí do hotelu. Představ si, že zítra přijedeš do hotelu v Barceloně a dnes ti přijde zpráva, například na WhatsApp nebo e-mail, kde máš potvrdit svou rezervaci.

Zpráva obsahuje číslo rezervace, tvoje jméno, všechno je správně naformátováno a vypadá legitimně. Žádají tě, abys rezervaci potvrdil a zaplatil nějakou částku, protože to vyžaduje proces rezervace.

Zpráva vypadá velmi pravdivě a důvěryhodně. Ty bys třeba…

Jakože zaplatíš, ale pak přijdeš do hotelu a zjistíš, že nic takového od nich nepřišlo nebo nic takového neposílali, a zjistíš, že co se vlastně tobě stalo, je to, že byla ukradnuta tvoje data z naší platformy, protože nějaký třeba člověk, který pracuje v tom hotelu, kliknul na phishingový odkaz a skrze to se oni dostali do naší platformy a byli schopní získat tvoje data. A takto na tom bohužel získali spoustu peněz právě na těch lidech, co jedou do toho hotelu.

Takže útokem nebo cílem toho phishingového útoku samotného, té první vrstvy, je zaměstnanec hotelu. Přesně tak. A toho "nachytali" tak, že třeba lidé v hotelech se mohou různě střídat a možná si ne každý pamatuje, jak vypadá naše stránka pro přihlášení, nebo ji nemá uloženou. Půjde na Google, vyhledá „news.com“, zobrazí se mu sponzorovaná reklama, která vypadá úplně stejně, má stejný vizuál, jak news stránky mají mít. Člověk na to klikne, proklikne se na stránku, která vypadá stejně, ale nevšimne si, že to není news, ale možná nějaká podobně vypadající stránka, například „mňaus“ nebo něco velmi podobného. Napíše tam své přihlašovací údaje a tím pádem je má útočník. Bohužel i když člověk má nastavenou multifaktorovou autentizaci, když hacker to dělá v tu chvíli, ukradne i verifikační kód a přihlásí se jako první a pak tě zase hodí zpátky na naši stránku. Ty si říkáš, news, nepodařilo se mi přihlásit, tak se přihlásím znovu a možná si ani neuvědomíš, že se tam někdo byl pokusit dostat.

Skrze to byli útočníci schopní pohybovat se v našem produktu a vzít právě ta data, která mířila na zákazníky, tedy na lidi, co pojedou do toho hotelu.

Aha, takže útočník byl na přihlašovací údaje přímo těch administrátorů nebo uživatelů vaší platformy, tedy hotelových zaměstnanců, a cíl byly retailové osoby, normální hoteloví hosté, na které pak útočil další phishingový útok tvářící se jako hotel.

Přesně tak, tomu se říká spear phishing.

Spear phishing? To zní jako něco, co bych považoval za prázdnou frázi...

Vlastně jde o použití různých identifikátorů nebo informací, které toho člověka, co dostane zprávu, zmátou tak, že věří, že ta zpráva opravdu patří jemu, že jde opravdu od toho hotelu. Jsou tam jeho ID, informace o rezervaci, kontaktní údaje, které jsou správné, informace jsou dobře formátované a napsané, takže opravdu vytvoří pocit důvěry, že je ta zpráva pravá, že je od hotelu, a nebojí se, že pokud pošle nějaké peníze, přijde o ně.

A právě tyto informace byli útočníci schopní získat nebo získávali skrze náš produkt, tím že phishovali lidi, kteří náš produkt používali.

No a moje první otázka je, že ten kontaktní bod je Google, že?

Ano, přesně to to bylo. Taky nemám všechno uložené v záložkách a místo toho zadávám do vyhledávače, například napíšu „News Login“ nebo „Asana Login“, „Toggle Login“, otevřu si první odkaz, co vidím, zatímco mám najít ten správný.

Chování mám vlastně stejné a to jsem celkem poučený o bezpečnosti už. Bohužel to byl právě Google, kde probíhaly největší kampaně.

Pro nás bylo těžké se k tomu dostat, protože ty kampaně byly krátkodobé a lokální, a často nás blokovaly IP adresy Google, takže jsme na stránku ani nemohli jít, abychom viděli, co se tam děje.

Další problém je, že tyto kampaně jsou tak krátké, že i kdyby Google teoreticky chtěl něco udělat, nestačil by je zastavit dřív, než je využijí všichni jejich cíloví uživatelé.

Samozřejmě je tam víc problémů. Google s námi úplně nespolupracoval a několikrát se vyjádřil, že phishing není proti jejich Podmínkám použití.

Phishing není proti jejich Podmínkám použití?

Ne.

No, asi se k tomu raději nebudu víc vyjadřovat. Bylo tam hodně nejasností.

Takže samozřejmě jsme později spolupracovali s různými nástroji na takzvaný domain takedown, tedy blokování domén, ovšem na to je třeba, aby kampaň trvala dostatečně dlouho. Ty domény často zmizí nebo se přesunou a už na ně není možné kliknout z reklamy.

Byl to hon na kočku s myší a my jsme byli ta myš.

A ještě jsi proti tomu měla Google, který v tom nehájí zájmy, ani to aktivně nezastavuje. Nevím, jestli vůbec dokáže.

Bylo to složité.

Dobře, chápu problém.

Na začátku jsi říkala, že dvoufaktorové ověření nepomůže, protože útočníci ho také obejdou.

Ano, nepomůže.

Ale na začátku, minulý rok, konkrétně před létem, mnoho našich klientů ještě nemělo nastavenou dvoufaktorovou autentizaci.

Práce v hotelnictví nebo cestovním ruchu se snaží nějak inovovat, ale je to obtížné posunout se od stavu, kdy se hesla píší na papírky nebo se používá jeden účet s více lidmi a heslem, a lidé jsou nekonečně přihlášeni na počítači.

To se těžko mění.

Věřím, že spousta z nás na střední škole nebo na začátku vysoké školy dělala například na recepci v hotelu, kde se lidé často střídají, hlavně v hostelech.

Bezpečnostní hygiena není úplně optimální, což v některých fázích pomohlo útočníkům.

Na začátku ani nemuseli provádět sofistikované útoky typu man-in-the-middle a krást kódy z dvoufázového ověřování.

Dělali jen takzvaný credential harvesting, tedy získávání přihlašovacích údajů.

Tento proces trval několik měsíců na různých platformách.

Pak v létě provedli velkou kampaň.

Ještě než půjdeme do léta, co je credential harvesting?

Útočníci dělali různé kampaně na různá hotelová zařízení v různých lokalitách, na News a další velké hráče v hotelnictví.

Každý uživatel, který se přihlásil a neměl dvoufaktorovou autentizaci, měl své přihlašovací údaje uloženy.

Prozatím s nimi nedělali nic dalšího, pouze je sbírali a čekali.

Pak v létě, kdy je nejrušnější sezóna v hotelnictví – zima nebo prázdniny –, kdy bezpečnostní týmy jsou k dispozici jen v omezené kapacitě, spustili velkou kampaň, kdy denně bylo pod útokem stovky hotelů.

Stačil jeden uživatel v daném hotelu, který měl přístup k potřebným datům.

Co je specifické v tomto průmyslu, je, že nad jednotlivými hotely existují hotelové řetězce.

Uživatelé, kteří pracují v rámci řetězce, mohou mít přístup do desítek hotelů, což může způsobit daleko větší problém, pokud takový uživatel je "vyphishovaný".

Na druhou stranu si nemyslím, že by tito uživatelé měli vyšší bezpečnostní vědomí než například recepční na nižší úrovni.

Nicméně jejich odpovědnost je větší.

Předpokládám, že systémy mají role tak, že recepční nemá přístup k citlivým datům.

Paradoxně pokud je targetem recepční, tak to může i pomoci, protože recepční by měl vidět data o hostu, aby mohl například zavolat, když se host opozdí, ověřit informace nebo alergie.

Takže bohužel různí uživatelé mají přístup k citlivým datům, protože je legitimně potřebují.

Ano, je to velký bezpečnostní problém.

Řeší to váš tým bezpečnosti?

Ano.

Do toho naskakuješ ty a Jirka Vinárek.

Ano. To bylo minulý rok v létě.

Já jsem se v srpnu vrátila do práce a připadalo mi, že je tam úplný chaos.

V první fázi vás informují jeden či dva klienti, že se něco děje, a člověk tomu zprvu nevěří, nedokáže si představit rozsah problému.

Lidé si myslí, že je to v pořádku, našli nějakou IP adresu, která podle nich škodí, a říkají si, že se to stalo jen tam dvěma hotelům.

Pak to začíná nabírat rychlé tempo a všichni si uvědomují, že je to mnohem větší, že jsme skutečně pod útokem.

Je dobré říct, že my nejsme přímo terčem útoku.

My jsme platforma, která drží data, zprostředkovává je a poskytuje služby.

Občas zapomínám říct, že phishing není náš problém, ale je problém hotelů, protože nemají dostatečné bezpečnostní opatření a hygienu.

Samozřejmě se to ale děje na naší platformě, takže máme možnost sledovat, vyšetřovat a zjišťovat, co, kde a jak se stalo.

Proto jsme do toho zapojení.

Chci jen připomenout, že to není věc, za kterou bychom mohli legálně odpovídat.

V momentě, kdy jsme si uvědomili, že je to rozsáhlý útok, náš bezpečnostní tým byl malý a neměl dostatečné nástroje pro vyšetřování.

Byli to převážně bezpečnostní inženýři – tedy lidé, kteří pomáhají inženýrům s bezpečnostními praktikami při vývoji produktu.

Oblast bezpečnostních operací, tedy detekce, reakce na incidenty a investigace, u nás prakticky neexistovala.

Byli jsme ve fázi startupu, tedy přecházeli jsme do fáze scale-upu, a takové problémy se ještě neřešily, protože jsme nepředpokládali, že bychom je měli řešit.

Já jsem působila v rezervační doméně, zprávy o rezervacích byly hlavním cílem útoků, a proto jsem začala pomáhat s investigacemi.

Bezpečnostní tým byl rád za jakoukoli pomoc, protože nevěděli, kam se dívat.

Po čase jsme museli přehodnotit přístup a uvědomili si, že to není jen o několika IP adresách, které jsme na začátku zaznamenali.

Bylo jich stovky.

Takže se nedá dělat jen manuální práce.

S Jirkou jsme vytvořili detekční pipeline z různých metod detekce, které ještě popíšu.

Jelikož o tom nejsem odborník, řeknu, co jsem předpokládal.

První kontakt a nejbolestivější pro nás byl login.

Zkusili jste Googlu zastavit cestu útočníka tímto touchpointem?

Ano, zjistili jsme, že tudy cesta nevede.

Google to neřeší.

Je jim to jedno.

I když jsou naši klienti, kteří u nás utracují více peněz než vy.

Zkoušeli jsme přeplatit reklamy, ale neměli jsme takový rozpočet jako oni.

Jako za odlehčení, mají daleko větší marketingový rozpočet než my.

Mně se líbilo, jak jsi řekla, že je to hra kočky a myši a my jsme ta myš.

Ano, je to ilustrativní.

Takže na to není jednoduchá oprava.

Opravdu nelze vyřešit autentizaci uživatelů.

Další krok bylo donutit co nejvíce klientů používat dvoufaktorovou autentizaci.

Magic linky jsou asi nejlepší, co můžeš mít; jsou odolné vůči phishingu, tedy multifaktorová autentizace.

Podívali jsme se na detekci a jak rychle zastavit útok.

Jednou z metod, co nám pomohla, byla detekce škodlivého refereru, tedy toho, odkud uživatel přišel na naši stránku.

Zjistila jsem, odkud člověk přišel do News – jak jsem říkala, phishingové stránky pošlou člověka na naši přihlašovací stránku.

Takže detekce refereru byla velmi důležitá.

Používali jsme Levenshteinovu vzdálenost k určení, jak moc podobný je název domény News.

Čím více identický nebo podobný, tím pravděpodobněji šlo o phishingovou stránku.

Dále jsme zapojili náš nástroj na domain takedown, který umožňuje zablokovat domény, když využívají některé naše prvky.

Když už mluvíme o uživateli, který přijde z phishingové domény, chtěli jsme rychle detekovat tuto událost, ukončit jeho relaci, aby nemohl nic škodlivého udělat, automaticky mu resetovat heslo, aby nemohli údaje zneužít znovu, a eliminovat škody.

Ne vždy se to povedlo rychle, ale aspoň jsme mohli klientovi dát vědět, který uživatel byl „phishnut“, co se stalo, co vytáhl za data, nebo kde byl.

Někdy jsme to nestihli, ale později jsme byli schopni klienta rychle informovat.

To bylo něco, co se dělalo na začátku.

Ne vždy se však podařilo zachytit problémy včas, protože útoky probíhaly ve velkém měřítku.

Museli jsme nasadit automatizaci, kterou nyní máme, ale dříve jsme neměli.

Spíš jsme hledali, jak dobře detekovat pohyb útočníka, co tam dělá, a jak odstranit stopy po něm.

Na začátku si útočníci vytvářeli další uživatele, ke kterým měli přístup, dokonce si vytvořili vlastní hotel, kde si testovali své metody.

Možná když tě přeruším – credential phishing znamená, že se někam přihlásili s ukradenými přihlašovacími údaji.

Byl jejich pohyb spíš robotický, automatizovaný, nebo se jednalo o farmu útočníků?

Bylo to obojí.

Na začátku, když nebyla dvoufaktorová autentizace, neřešili, co dělají a jestli budou detekováni.

S novými bezpečnostními opatřeními se však i jejich metody vyvíjely.

Například v počátku upravili e-mailové šablony hotelů, které jsou zasílány hostům před rezervací, a změnili je na škodlivé šablony.

Takže hotel posílal phishingové e-maily.

Museli jsme detekovat, které e-maily byly škodlivé.

Provedla jsem rozsáhlou analýzu a seskupování těchto e-mailů.

...

Templateů. Používala jsem na to BERT Topic a vlastně výzva ještě před tím, než jsem mohla ty témata vůbec klastrovat, byla v tom, že jsou naparsovaná v HTML, což vlastně ani nemůžeš přečíst, takže to musíš nejdřív rozkódovat. Na to jsme používala Beautiful Soup a pak tedy BERT Topic a klastrování a nějaký UMAP na redukci dimenzí, abychom mohli vidět, jak to vypadá.

A vlastně ty větší klastry, které byly složené z různých entit, různých hotelů a byly si hodně podobné, tak často vznikaly díky změnám, které byly...

Ahoj, já jsem nějakého toho atakera potkala a díky tomu jsme byli schopni ve větší škále tyto věci promazat a detekovat, než kdybychom to procházeli všechno manuálně. Takže nám to například hodně pomohlo, bylo to velmi zajímavé, a člověk si obecně uvědomí ten vývoj, jak oni pracovali.

Na začátku byly velmi hloupé zprávy, které posílali klientům hotelů, ale pak se našly zprávy typu, které zvyšují povědomí o tom, jak se nechovat v rámci bezpečnosti, na co neklikat a aby si dávali pozor, a pak tam přidali odkaz, na který máš kliknout a s někým ho nesdílet, protože je jenom pro tebe. Takže jo, je fascinující sledovat i jejich vývoj, ale musíš se s nimi neustále vyvíjet.

Jednou z velkých věcí, které jsme museli řešit, je detekce větších extrakcí rozsáhlejších dat či obecně eventové anomálie na endpointech, které drží citlivá data nebo citlivé akce. O tom právě mluvil Jirka na datameshi. Například migrující IP, která se nikdy nepřihlásila, má nyní tento vzorec chování? Bohužel to takto není.

To byl náš počáteční případ, nebo něco, co jsme na začátku zkoušeli prozkoumat – zda to může být skutečně podezřelé, že IP adresu jsme nikdy předtím neviděli, že to bude nějaký problematický aktér. Ale protože lidé pracují na dálku a také v pohostinství – lidé se hodně stěhují, můžeš mít člověka, který spravuje hotely v jiné zemi, ale je to naprosto legitimní a třeba si na chvíli sedne v kavárně a tam něco dělá. Takže tato cesta nebyla správná.

Spíše jsme hledali, zda sledují větší rozměr dat, zda to dokážeme detekovat. V jedné fázi dělali webscraping, kdy data nestahovali, ale jen scrapovali, a to hodně excesivně. Nechtěli kliknout na export, ale fungovalo to přímo takto. Nicméně museli roboticky, nebo určitě roboticky, poměrně rychle procházet systémem, a to jsme pak flagovali skrze anomálie těch eventů pomocí nástroje, který zmiňoval právě Jirka, Tukis Fensis.

Co jsou Tukis Fensis? Tukis Fensis je velmi jednoduše řečeno excesivní nadužívání určitých endpointů, a to bylo to, na co jsme se zaměřovali. Porovnáváš to s nějakou baseline běžného užívání a tady nám to flagovalo případ, kdy bylo užívání příliš intenzivní.

A slyším, že přestože jste neměli bezpečnostní operace, tak datový základ byl výborný, protože jste měli kontinuální datovou analýzu ve firmě, pokud jde o produkty, rezervace, události a to, co tam lidé dělají.

Mně se kdysi líbilo, nebo stále líbí, co kdysi Vojta vyprávěl, že chcete, aby s platformou uživatel interagoval co nejméně, aby vlastně byla dosažena user disengagement. Tím, že priorita a fokus byl na toto, jste měli hezké dataset, se kterými se dalo pracovat, ne? Přijde mi to jako štěstí v neštěstí, že díky produktové analytice a UX jste tato data měli. Bez těchto dat by obrana a opatření byla podstatně složitější.

Určitě, v něčem nám to hodně pomohlo, také proto, že jsme tam byli já a Jirka Vynárek, které jsme zvyklí na práci s daty, a také je hodně důležitý ten kontext. Dělali jsme detekce, které jsou více businessové než...

Než že by byly ryze matematické, vycházely z toho, jak by se člověk měl nebo neměl v produktu pohybovat, ale to zase jenom z toho kontextu, protože s daty pracuješ. Samozřejmě jsme měli data-ready, ale myslím, že jak v bezpečnosti, tak v datech řešíme velmi podobné problémy, co se týče nečistoty dat a že občas musíš dotazovat obrovské množství dat, což stojí peníze.

My jsme postavili docela velký detekční systém, ale pořád platí, že můžeš postavit něco skvělého na detekci, ale bude tě to stát spoustu peněz. Takže jednak jsou to nedokonalá data, která musíš správně parsovat, abys na ně dokázal komplexně nahlížet, ale pak existují limity, nad nimiž musíš hodně přemýšlet a které musíš obhájit.

Některé momenty to bylo velmi snadné obhájit, protože se nám skutečně stávalo to, co jsme detekovali, ale dlouhodobě musíš přemýšlet, aby bezpečnost nebyla jen nákladové středisko. Výhody tam byly, ale pain pointy jsou podobné, ale protože je známe, tak nás to nepřekvapilo. Netrápili jsme se víc, než obvykle.

Pokud odhlédneme od reality, že se to děje, a že velmi rychle jste vystřízlivěli z naivity, že to není náhoda a že proti vám stojí celá průmyslová odvětví – útočí nejen na pár hotelů a vás, ale na celou oblast – že tento rok je rokem útoků v pohostinství a příští rok bude na elektrárny.

Co pro tebe bylo zajímavé z oborového a expertního pohledu? Jako Senior Data Analyst jdete do bezpečnosti, bylo to podobné z hlediska problémů na doméně? Protože jde o podobná data? Nebo je to úplně jiné uvažování? A teď jsi Senior Security Data Analyst, tak už máš bezpečnost v názvu i na tričku – vtáhlo tě to, zaměření na bezpečnost je skvělé. Znáš mnoho datových analytiků, kteří se specializují na bezpečnost, přestože to dává smysl kromě antivirů?

Hele, já jsem dlouhodobě obrovský fanoušek kyberbezpečnosti, přijde mi to extrémně zajímavé, můj nejoblíbenější podcast je Darknet Diaries, nevím, jestli ho znáš, mluví o různých hecích a hecích, nebo mluví právě s hackery a lidmi působícími v této doméně.

Mě to zajímá už dlouho, takže mi přišlo fascinující, že se to děje nám a že u toho můžu být a řešit to. Pro mě to bylo nejlepší období v mé kariéře. Shodneme se i v týmu, i když to bylo velmi těžké, byly dlouhé dny a občas i noci, kdy jsme to řešili, stále mě to baví – je to exciting.

Vidím tam velmi blízké propojení s daty, protože hledáš vzorce, hledáš, jak dobře to můžeš detekovat, a zároveň minimalizovat false positives, aby tam nebylo příliš mnoho alertů a člověk se z toho nezbláznil. Doménové znalosti v rámci rezervací a pohostinství, které jsem získala za dva roky, možná rok a půl, mi hodně pomohly při stavbě detekcí.

Myslím si, že je to velmi podobné. Teď jsme s novým týmem – máme nový security operations tým, vybíráme linku a zavedeme detekce, které kompletně pokryjí náš systém.

Prošli jsme fází, kdy jsme postavili detekce velmi specifické na problém z minulého roku. Pokud se pattern změní, my jej už nevidíme. Proto musíme detekce zobecňovat a...

Jasně, ale to vede k většímu množství false positives.

Přesně, je to nekonečný cyklus vylepšování a doladění a musíš být také neustále v obraze co se děje v průmyslu.

V tom vidím mnoho podobností a baví mě doména jako taková – ta akce. Občas skončíš v půl desáté večer, ale děláš něco, co tě baví.

A co ses musela naučit z bezpečnosti? Je to tak, že jsi nováček a do titulu ti přibyla nová role – je to jen aplikace toho, co umíš, nebo jsou tam principy, technologie, které jsou specifické pro bezpečnost, které jsi se musela naučit podobně jako kdysi Python?

Je to úplně nový svět, hlavně co se týče konceptů a žargonu. Když žargon v datech je problematický, tak bezpečnost je pro mě úplně jiná liga, stále se to učím.

Jaké je tvoje oblíbené bezpečnostní žargonové slovo?

Ty zkratky jsou strašné. Například slyšíš SDLC, nebo SSDLC, což znamená Secure Software Development Lifecycle, ale nikdo ti neřekne, co to znamená, protože všichni používají jen ty zkratky.

Nebo vybíráme dodavatele na SIEM, což je Security Information and Event Management, tedy systém, kde budeme stavět detekční systém v reálném nebo téměř reálném čase, oproti tomu, co máme postavené na datech, která se nesynchronizují ani každou minutu, což v bezpečnosti potřebuješ.

A obecně? Například jsem se naučila koncepty jako man in the middle, spear phishing, credential harvesting – to jsou pro mě nové věci a musíš se neustále učit.

To je něco, co mám obecně ráda ve své profesi – stále se posouvám a učím nové věci. Nemám ráda rutinu, což přesně tento obor nezahrnuje.

Jsem senior, ale spíš senior datový analytik, v bezpečnostní doméně jsem stále nováček, ale mám spoustu chytrých kolegů, od kterých se každý den učím. Je skvělé být s takovými lidmi v místnosti a mít šanci se učit.

Ještě jsi zmiňovala platformu a to, že systém bude real-time nebo near real-time. To mě nenapadlo, že vy když jste vycházeli z dat, stavěli jste to vlastně nad současnými reportovacími datovými pipeline.

Celý stack, Databricks a vše bylo postavené a optimalizované na use case „vygeneruj reporty“, „tady udělej eventy“ a „sbírej data“, ale use case real-time bezpečnostní kontrolka „jsme pod útokem z H&T Session“ – to byla výzva, ne?

Použili jsme kombinaci dvou systémů. Pro hlavní detekční systém jsme použili Databricks, měli jsme šanci zkrátit interval synchronizace během období největšího útoku. Samozřejmě to mělo svoje limity, ale v dané době dávalo smysl.

Pak jsme měli i bezpečnostní tooling, kde se například reagovalo na škodlivý referer, takže akce mohly probíhat mnohem rychleji a bylo možné reagovat rychleji, protože bezpečnostní tooling musí reagovat rychle, ne na všechny detekce.

My jsme museli reagovat takto rychle, ale konkrétní detekce například „malicious referer začíná session“ znamenalo ukončení seance, zabití seance, resetování hesla – to byly automatické procesy, pokud byla doména potvrzena jako škodlivá.

Jedna věc, kterou mě to naučilo a co bych chtěla všem říci, je, aby lidé nevěřili věcem na internetu bez rozmyslu.

Jsou firmy, které nás chtějí oklamat. Spolupracují s Googlem, používají mnoho bezpečnostních nástrojů, které my máme ve stacku, a byli schopni nás aktivně blokovat.

Nepůjdu do detailů, ale je fascinující, jak jsou lidé na druhé straně chytrí.

Pokud si někdy myslíte, že někdo je hloupý, protože se nechal oklamat, dnes to už neplatí. E-maily vypadají perfektně, vědí o tobě všechno.

My také poskytujeme spoustu informací veřejně, takže oklamat nás nemusí být tak snadné, ale neočekávejte už, že to bude někdo jednoduchý, jako nigerijský princ.

Mají velké rozpočty, dokonce větší na marketing než některé firmy, jak jsem zmínila.

Proto si všichni dejte pozor, kontrolujte si, jestli stránka vypadá správně a jestli je opravdu ta, kde máte být.

Raději se zeptejte v rámci své firmy, zda e-mail skutečně někdo posílal, než abyste se nechali nachytat.

Je mi velmi líto našich prarodičů, protože proti tomu nemají šanci.

Mám pocit, že žijeme v době, kdy nikdo z nás šanci nemá.

Je dobře, že se šance vyrovnávají, aspoň se všichni napálíme stejně.

Ano, bylo doba, kdy jsme řešili: „Jak můžeš být tak hloupý, že jsi na to skočil?“, ale teď jsou útoky mnohem sofistikovanější a díky LLM a automatizaci ve firmách stojí méně, ale přinášejí lepší technologie.

Stejné platí pro firmy, jejichž obchodem je vás oklamat.

Je to AI na obou stranách, takže nám může pomáhat rychlost reakce, ale útočníkům pomáhá craftovat zprávy, aby byly co nejdůvěryhodnější.

Bohužel.

Moc děkuji za tuto zprávu a otevřenost.

Vím, že není jednoduché mluvit o nepříjemnostech a není běžné přiznat, že jste byli pod útokem, přestože za to nejste zodpovědní a vaše aktivita byla proaktivní a pomáhala klientům, ale odpovědnost nebyla ani legální, ani morální.

Jste platforma a přesto mohou někoho sofistikovaným útokem prostě dostat.

Mrzí mě to u Google, Meta, protože jsem v tom trochu ztracená, ale ukazuje to, jak velká část rozpočtu musí jít na obranu proti těmto útokům.

Kdyby to byly jen 2 % rozpočtu, věřím, že by stálo za to to řešit, ale podle posledních studií jde o násobně více a už je to částka, o kterou je pro ně těžké přijít, i kdyby chtěli.

Je to legitimní byznys.

Takže jde o průmysl, který v HDP neuvidíte.

Ještě zmíním, že jsme si s týmem nedávno řekli a máme to také schválené, že o tom chceme více mluvit, protože je to součást odhalování tech debt v pohostinství.

O tom ale veřejně mluvit samozřejmě nemůžeme.

Všem, prostě to je součást práce v kybernetické bezpečnosti, ale ty věci, které nám třeba jako pomohly, a co by mohly pomoct někomu jinému, nebo prostě obecně vědět o tom, že se tady ty věci dějí, je hrozně důležité, ať jsme všichni lépe připravení.

Mně se hrozně líbí tvé nadšení a zápal, to, že jde vidět, že jsi objevila novou misi, a že při jednom projektu najednou vznikl nový tým, jehož jsi součástí, a zase posouváš. Mám tady hosty, kteří jsou na své židli dlouho, a zase to nejzajímavější jsou teď Lmka, ale je to nějaká postupná progresivní změna. A u tebe jde vidět, že tím žiješ, a chápu to, jak je to románové.

Ano, ale já mám zároveň nějaké štěstí, štěstí, že přišel ten phishing, ale obecně ten phishing mi pomohl posunout se právě do produktové bezpečnosti. Obecně už předtím jsem nějakou dobu dělala v produktové analýze a chtěla jsem se odtamtud posunout. Mluvila jsem s mojí tehdejší manažerkou právě o data science tracku, nevěděla jsem také, jestli jít třeba směrem managementu, ale mě ta technická část teď tak baví, že jsem ji nechtěla pustit.

A pak se tedy stal phishing a bylo mi nabídnuto, že bych mohla jít právě do toho týmu, za což jsem opravdu velmi vděčná. Strašně mě to baví, ale vidím to jako určitý vzorec v rámci NEWS, že interní mobilita tam funguje dobře.

Můj kolega, který je teď security engineer, přišel z ITS, což je korporátní strana bezpečnosti a interní bezpečnosti. Pak další kolega, který byl datový analytik, je teď manažer, což je klasický posun. Máme tedy takový track právě od analytika k data science, ale nově máme i lidi, kteří přestoupili z datové analytické role na analytics engineer, což je role, která modeluje biznisovou vrstvu, aby se zefektivnilo to, jak pracujeme s daty.

Obecně celkově je data demokratizace a shift left něco, o čem se hodně mluví v NEWS, ať už v rámci data demokratizace nebo dat obecně. My však mluvíme v rámci bezpečnosti o jakémsi self-service, aby když se něco děje, mohlo to zkontrolovat více lidí a nemuseli jsme být tím úzkým hrdlem.

A to je něco, co já vidím obecně pozitivně, že vidím, jak se lidé posouvají a rozvíjejí v rámci NEWS. Že jsem tak měla možnost a nyní mám roli senior security data analytika.

Nevím, jaká bude moje role za rok, protože je to úplně nová doména a někam se vyvíjím, ale je skvělé, že mám tu možnost a nemusím jít někam jinam začínat od začátku v něčem, co by mě mohlo potenciálně víc bavit.

Zní to krásně, moc gratuluji a jsem rád, že tu máme takové zaměstnavatele, kteří dávají příležitosti a nezapýříš se tím vstupním titulem. Na začátku jsem se přihlásila do BI a příštích deset let budu dělat BI. Už navždy.

Mám z toho radost, moc ti fandím, děkuji za tvou energii a nadšení, držím palce, ať se ti děje víc dobrých věcí a ať se vám daří bojovat proti těm špatným. Těším se zase příště.

Já děkuji moc za pozvání a za platformu. Díky.

Kdo poslouchal? Já jsem. A děkujeme také našim partnerům, členům Datatalk klubu. Těmi jsou Intex, Saska, Bystreet, Colors of Data, Revolt BI, Good Data, Kebula, Emark, Karl Data Company, Datamind, Notino a Flo.

A pokud chcete zůstat v obraze, co se týče české datové scény a globálních datových technologií, nezapomeňte se zaregistrovat k odběru našeho týdenního newsletteru na datatalk.cz.

Nechť vás provází data.

Podcast

Data Talk #164: Lenka Křenková (MEWS)

Strojový přepis

Odebírejte Data Talk