Newsletter

#124 Nestrukturovaná data? Žádný problém

Ahoj,

Google vydal knihovnu pro extrakci strukturovaných dat, Kaggle uspořádal turnaj AI modelů v šachu a Meta vytvořila model pro předvídání reakcí mozku.

A taky je tady další Data Talk Newsletter.

Newsletter nyní odebírá 1808lidí, které zajímají datové technologie, AI a česko-slovenská datová scéna.

Máte memes nebo vtipné obrázky, o které se chcete podělit? Pošlete nám je na michal@fenekpr.cz

📅 Kalendář datových akcí

Následující týden:

Pak:

📰 Novinky, linky a drby

Potřebujete vytáhnout strukturovaná data z prostého textu? Google na to má knihovnu!

Google vydal LangExtract, open-source Python knihovnu pro extrakci strukturovaných dat z nestrukturovaného textu. Využívat k tomu bude AI model, sekterým ji propojíte. Buďto nějaký můžete volat přes API, nebo můžete využít model, který provozujete lokálně, pokud máte například obavy odatovou bezpečnost.

Aby vám data strukturovala tak, jak chcete, stačí jí poskytnout několik příkladů – konkrétní pasáže textu a k nim ideální výstup. Obecná pravidla pro strukturování si z nich sama vyvodí.

Aby předešla chybám, používá řadu metod jako přesné zdrojování dat kekonkrétním znakům v původním textu nebo několikanásobné procházení každého jeho úseku.

Navíc obsahuje vizualizační nástroj, kterým vám extrahovaná data zobrazí vinteraktivním HTML formátu.

Pokud vás knihovna zaujala, stáhnout si ji můžete na GitHubu.

Další novinky:

Články, papery a newslettery:

Data gossip:

Podcasty, videa, přednášky:

Random trivia

Věděli jste, že HTTP error 451 je odkazem na 451 stupňů Fahrenheita?

HTTP kód 451 – Unavailable For Legal Reasons se vrací, když je přístup k URL zakázán z právních důvodů, buďto právním předpisem, nebo rozhodnutím soudu. Je tak otevřeným přiznáním státní cenzury, na rozdíl od toho, kdyby web vracel neurčité 403 – Forbidden nebo 404 – Not Found. Číslo kódu odkazuje na román Raye Bradburyho 451 stupňů Fahrenheita, ve kterém byly státem zakázány a páleny knihy.

Přístup k dané webové stránce vám většinou nezakazuje ona sama, ale nějaký prostředník, přes kterého data tečou – například poskytovatel internetového připojení, provozovatel proxy serverů, content delivery networku nebo internetového vyhledávače. Přes ně totiž může stát zákazy vymáhat nejefektivněji, zejména když se jedná o weby provozované z jiného státu. Jedinou zásadnější výjimkou jsou mimoevropské weby, které nechtějí řešit legislativu EU (zejména GDPR) a jejím občanům raději přístup úplně odepřou.

Návrh na přidání tohoto HTTP kódu do jejich oficiálního registru organizace IANA podal poBradburyho smrti jistý Tim Bray z Googlu v roce 2013, zařazen byl pak v roce 2015.

Podle specifikací by měla chybová hláška obsahovat kdo a na základě čeho blokování stránky nařídil. Autoritářské režimy se ale obvykle tváří, že u nich žádná cenzura rozhodně neprobíhá, a tak i když se například v Číně nebo Rusku naspoustu webů nedostanete, s errorem 451 se vůbec nesetkáte.

⚒️ DATA JOBS

Jestli vaše firma hledá někoho na pozici spojenou s daty, pošlete nám odkaz na inzerát na michal@fenekpr.cz a my ho rádi zveřejníme.

Data jobs taky taháme ze stránek partnerů, Startupjobs, Cocumy, z newsletteru prg.aia vlastě odkudkoliv se dá.

Chcete si přečíst naše starší newslettery? 

Někdo vám newsletter přeposlal a vy jej chcete taky dostávat?

Data Talk není pay to play! Pokud chcete sdílet svoje know-how či obsah od vaší firmy, napište nám!

A pokud vás naše práce baví a poskytuje vám hodnotu,

můžete nám poslat finanční podporuna kafe!