Apify a data z webu: proč AI pořád potřebuje scraping

Apify se dá popsat jako platforma pro web scraping a automatizaci prohlížeče. To je přesné, ale dnes už neúplné. V době, kdy firmy staví RAG systémy, trénují specializované modely a měří konkurenci v reálném čase, se z webových dat stává provozní surovina. Apify je jedna z českých firem, která tuto surovinu balí do opakovatelného produktu: actorů, schedulerů, datasetů, proxy infrastruktury, API a marketplace pro vývojáře.

Méně modelu, více potrubí

Většina debat o AI začíná modelem. V praxi se ale první bolest objeví dřív: kde vezmeme aktuální data, v jakém formátu, s jakou licencí, jak často je budeme obnovovat a kdo ponese odpovědnost, když zdroj změní strukturu stránky. Apify tento problém neřeší akademicky. Umožňuje spustit scraper jako cloudovou úlohu, ukládat výsledky do datasetu a připojit je k dalším nástrojům.

Veřejný profil Apify uvádí 113 public actorů, 1,5 milionu celkových uživatelů a 170 tisíc měsíčních uživatelů. Tato čísla je potřeba číst opatrně, protože marketplace metriky nejsou totéž co opakující se enterprise tržby. Přesto ukazují rozsah vývojářského ekosystému. Pro AI týmy je podstatné, že stejný actor může jednou posloužit pro jednorázovou analýzu trhu a podruhé jako denní pipeline pro vyhledávání nových položek, recenzí nebo cen.

Kde končí legální zkratky

Scraping je technicky jednoduchý jen na první pohled. U komerčního využití se hned objeví otázky autorského práva, smluvních podmínek, ochrany osobních údajů a přiměřené zátěže cílových webů. Apify ve svých materiálech správně odděluje technickou schopnost něco stáhnout od právního oprávnění data použít. Pro firmy je to zásadní rozdíl.

Pokud jde o financování, veřejně dohledatelné zdroje u Apify zmiňují investory J&T Ventures a Reflex Capital a kolo kolem 2,8 milionu eur. Zadání tohoto článku pracovalo i s motivem EQT funding, ale veřejnou investici EQT do Apify se nám nepodařilo potvrdit. Proto s ní v textu nepracujeme jako s faktem. V B2B AI je to dobrý test disciplíny: lepší je přiznat limit veřejných dat než přidat do příběhu jméno fondu, které může být záměnou.

Data pro RAG nejsou training data

AI týmy často míchají dva režimy: použít webová data jako kontext pro odpověď a použít je pro trénování modelu. Technicky mohou oba režimy začínat stejným crawlerem, ale právně a produktově se liší. RAG potřebuje přesný zdroj, čas stažení, deduplikaci a možnost citovat původ. Trénování vyžaduje ještě tvrdší kontrolu licence, osobních údajů a dlouhodobých dopadů na model.

Apify je zajímavé právě tím, že stojí před touto hranicí. Platforma dokáže získat data, ale odpovědnost za účel zůstává u zákazníka. To může znít jako právnická samozřejmost, ale v praxi to odděluje profesionální datový program od chaotického stahování webu do jedné složky. Firemní AI projekt by měl mít u každého datasetu alespoň pět údajů: zdroj, účel, právní titul, datum poslední obnovy a pravidla mazání.

Technická stránka je stejně důležitá. Scraper, který funguje v pondělí, může ve čtvrtek selhat kvůli změně frontendu, ochraně proti botům nebo nové přihlašovací vrstvě. Produkční datová pipeline proto potřebuje monitoring, vzorkování výstupů, alerty na změnu schématu a pravidelnou kontrolu kvality. AI týmy mají tendenci řešit embeddingy a modely, ale zkažený vstup se vektorovou databází nezlepší. Apify v tomto smyslu prodává méně romantickou část AI: provozní spolehlivost sběru dat, který se každý den potýká s webem takovým, jaký skutečně je.

To je důvod, proč se kolem scrapingu vrací i open-source komunita. Crawlee a podobné nástroje umožňují týmům začít vlastní cestou, zatímco spravovaná platforma dává smysl ve chvíli, kdy scraping přestane být vedlejší úkol a stane se součástí produktu. Firma by měla dopředu vědět, kdy jí stačí knihovna a kdy už potřebuje provozní službu.

Co to znamená

Pro zakladatele a produktové týmy je Apify připomínka, že model bez čerstvých dat rychle stárne. Ceníky konkurence, dostupnost zboží, lokální recenze, regulační změny nebo katalogy veřejných zakázek nejsou statický korpus. Většina firem proto nepotřebuje jeden velký scraping projekt, ale malý počet stabilních datových linek se zodpovědným provozem.

Pro český trh je Apify cenné ještě v jedné věci. Nestaví na tom, že bude vlastnit největší model. Staví na infrastruktuře, kterou budou potřebovat téměř všichni, kdo chtějí AI napojit na proměnlivou realitu webu. To je méně viditelné než chatbot v demu, ale pro B2B hodnotu často důležitější. V AI ekonomice se totiž neplatí jen za odpověď. Platí se za to, že odpověď vychází z dat, která jsou aktuální, dohledatelná a použitelná bez skrytého provozního dluhu.