GDPR a generativní AI: legitimní zájem není kouzelná věta

GDPR nebylo napsané pro éru velkých jazykových modelů, ale jeho základní otázky se nezměnily. Jaký je účel zpracování, jaký je právní titul, jaká data jsou nezbytná, kdo je správce, kdo zpracovatel a jak člověk uplatní svá práva. Generativní AI tyto otázky neodstraňuje. Jen je dělá méně pohodlnými, protože data mohou zmizet v promptu, embeddingu, logu nebo trénovacím korpusu.

EDPB zpřesnil tři sporné body

Evropský sbor pro ochranu osobních údajů v prosinci 2024 přijal stanovisko 28/2024 k některým aspektům zpracování osobních údajů v kontextu AI modelů. Zabývá se třemi otázkami: kdy může být model považován za anonymní, zda lze použít legitimní zájem při vývoji a používání AI modelů a co se stane, pokud byl model vyvinut na datech zpracovaných protiprávně.

Pro firmy je nejdůležitější druhý bod. Legitimní zájem může být použitelný právní titul, ale jen pokud projde klasickým testem účelu, nezbytnosti a vyvážení práv subjektů údajů. Není to věta do privacy policy, která legalizuje všechno. U AI modelů se navíc posuzuje očekávání lidí, rozsah dat, riziko opětovné identifikace, možnost námitek a dopad na jednotlivce.

Prompt je také datový tok

Většina firem začala s generativní AI přes uživatele: někdo vložil text smlouvy, export z CRM, seznam kandidátů nebo interní e-mail do veřejného nástroje. Právní problém nevzniká až při trénování modelu. Vzniká už v okamžiku, kdy osobní údaje odcházejí do služby, jejíž účel, uchování a subdodavatelé nejsou pod kontrolou správce.

Inline figure for GDPR and generative AI

Praktická politika pro generativní AI proto nemá začínat zákazem všeho. Má rozlišit datové třídy. Veřejné informace, interní neveřejné dokumenty, obchodní tajemství, osobní údaje, zvláštní kategorie údajů a klientská data nemohou mít stejná pravidla. U každé třídy musí být jasné, do jakých nástrojů smí, zda se může logovat, jak dlouho se uchovává a kdo má přístup k výstupu.

Práva lidí nekončí u embeddingu

Firmy často předpokládají, že jakmile data převedou do vektoru, přestávají být osobním údajem. To je nebezpečně zjednodušené. Pokud lze vektor nebo jeho použití spojit s konkrétní osobou, nebo pokud slouží k rozhodnutí o ní, GDPR zůstává relevantní. Podobně výstup modelu může být osobním údajem, pokud popisuje identifikovatelnou osobu, i když je nepřesný.

GDPR navíc obsahuje vysoké sankční stropy. U závažných porušení může správní pokuta dosáhnout 20 milionů eur nebo 4 procent celosvětového ročního obratu, podle toho, která částka je vyšší. Tato čísla nemají vést k panice. Mají připomenout, že práce s osobními údaji v AI není oblast pro improvizaci bez dokumentace.

Další praktická otázka je oprava a výmaz. U klasické databáze lze řádek změnit nebo odstranit. U modelu, embedding indexu a logů to může být složitější. Firma proto musí dopředu vědět, kde se osobní údaj nachází a zda je schopná reagovat na žádost subjektu údajů. Pokud to nejde, musí umět vysvětlit proč a jaké zvolila náhradní opatření. V generativní AI se tak z data governance stává nejen compliance funkce, ale technický návrhový princip.

V dodavatelských smlouvách by se proto mělo objevit víc než standardní zpracovatelská doložka. Potřebujete vědět, zda se vstupy používají k dalšímu učení, kdo jsou subdodavatelé, kde leží logy, jak se řeší bezpečnostní incident a jak rychle lze data odstranit. U interních nástrojů platí totéž, jen bez pohodlné možnosti ukázat na externího dodavatele.

Interní vlastník musí tato pravidla nejen schválit, ale pravidelně kontrolovat v provozu. Jinak zůstanou jen v politice.

Co to znamená

Proč na tom záleží: většina firem dnes neporušuje GDPR tím, že by chtěla zneužít data. Porušuje ho tím, že neví, kudy data tečou. Generativní AI přidává nové kanály, které jsou pro uživatele příliš snadné a pro správce příliš málo viditelné. To je kombinace, která rychle vytváří shadow AI.

Minimum pro rok 2026 je datová mapa generativní AI. Jaké nástroje se používají, kdo je schválil, jaké typy dat do nich smí, kde se uchovávají logy, zda se data používají k dalšímu trénování a jak se řeší žádosti subjektů údajů. K tomu patří proces pro DPIA u citlivějších use casů, jasné instrukce pro zaměstnance a smluvní kontrola dodavatelů.

GDPR není zákaz generativní AI. Je to požadavek na účel, přiměřenost a odpovědnost. Firmy, které si tyto principy přeloží do konkrétních pravidel pro prompty, RAG databáze a modelové logy, budou rychlejší než ty, které nechají každý tým vymyslet vlastní praxi. Ochrana osobních údajů v AI nebude vyhraná jedním právním stanoviskem. Bude vyhraná provozní hygienou.