Hogyan tréningeld az algoritmusokat anélkül, hogy megsértenéd a GDPR-t?

A mesterséges intelligencia (AI) és a gépi tanulás fejlődésével egyre több szervezet szeretne adatvezérelt rendszereket fejleszteni. Az algoritmusok tanítása azonban nemcsak technológiai kérdés, hanem adatvédelmi is. Amint a modell tréningezése során személyes adatok is megjelennek, rögtön felmerül a GDPR (General Data Protection Regulation) alkalmazása. Milyen adat használható fel, milyen célból, milyen jogalappal, és milyen garanciák mellett? A GDPR alapelvei, legyen az a célhoz kötöttség, az adattakarékosság és a biztonság, ilyenkor végig meghatározzák a projekt kereteit.

Ez a cikk azt mutatja be közérthetően, hogyan lehet algoritmusokat fejleszteni és tanítani úgy, hogy közben a GDPR szempontjai is érvényesüljenek. Szó lesz arról, mikor számít valami személyes adatnak, miért nem használható fel automatikusan minden meglévő adat modelltréningre, hogyan segíthet a pszeudonimizálás vagy az anonimizálás, és milyen gyakorlati lépések csökkenthetik a kockázatokat már a tervezés elején.

Az AI-rendszerek tanítása mint érzékeny adatkezelési terület

Sokan úgy gondolnak a modelltréningre, mint egy technikai folyamatra:

adatbázisok összegyűjtése,

adattisztítás,

címkézés,

tanítás,

tesztelés.

A valóságban ez ennél jóval több. Ha az adatkészletben természetes személyhez kapcsolható információk szerepelnek, akkor az egész folyamat adatkezelésnek minősülhet. Ez pedig azt jelenti, hogy nem elég a technikai célokat meghatározni, hanem adatvédelmi szempontból is igazolni kell a folyamatot. A GDPR nem azt mondja, hogy algoritmust nem szabad tréningezni személyes adatokon, hanem azt, hogy ezt csak meghatározott feltételek mellett lehet megtenni.

A fő probléma általában nem maga a technológia, hanem az, hogy a projekt elején túl sok adat kerül be a rendszerbe. Gyakori hiba, hogy „majd az algoritmus eldönti, mi hasznos” alapon minden rendelkezésre álló adat feltöltésre kerül a tréningbe. A GDPR logikája viszont ennek éppen az ellenkezője. Előbb a célt kell pontosan meghatározni, és csak azután szabad kiválasztani az ehhez valóban szükséges adatokat. A célhoz nem szükséges adatok bevonása már önmagában kockázatot jelenthet.

Valóban személyes adatról van szó?

A GDPR szerint személyes adat minden olyan információ, amely egy azonosított vagy azonosítható élő személyre vonatkozik. Nemcsak a név vagy az email-cím tartozik ide, hanem minden olyan adat is, amely önmagában vagy más adatokkal együtt alkalmas lehet valaki beazonosítására. Ez különösen fontos AI-projektek esetén, mert egy első ránézésre ártalmatlannak tűnő adatmező is személyes adattá válhat, ha más elemekkel összekapcsolva már azonosításra alkalmas.

Ilyen lehet például:

egy ügyfélazonosító,

egy IP-cím,

egy hangfelvétel,

egy lokációs adat,

egy vásárlási vagy használati mintázat,

vagy több apró adat együttese, amelyből már kirajzolódik, kiről van szó.

Ez azért lényeges, mert sok projekt ott hibázik, hogy a közvetlen azonosítókat ugyan eltávolítják, de a maradék adatállomány továbbra is visszavezethető emberekhez. Ilyenkor a GDPR továbbra is alkalmazandó.

A modelltréning új adatkezelési célt is jelenthet

Az egyik legfontosabb GDPR-elv a célhoz kötöttség. Ez leegyszerűsítve azt jelenti, hogy az adatokat

meghatározott,

egyértelmű,

jogszerű célból kell gyűjteni,

és nem lehet őket korlátlanul új célokra fordítani.

Ha egy szervezet például rendelésteljesítéshez vagy ügyfélszolgálathoz kezel adatokat, attól még nem biztos, hogy ugyanazok az adatok automatikusan felhasználhatók modelltréningre is.

Egy webshop például jogszerűen kezelheti a vevők nevét, címét és rendelési adatait a szállításhoz. Ebből azonban nem következik automatikusan, hogy ugyanezeket az adatokat korlátozás nélkül fel lehet használni egy ajánlórendszer, egy chatbot vagy egy predikciós modell tanítására. Az új célhoz új adatvédelmi vizsgálat szükséges, hogy összeegyeztethető-e az eredeti céllal, van-e megfelelő jogalap, kaptak-e az érintettek megfelelő tájékoztatást, és valóban szükség van-e ezekre az adatokra a tréninghez.

Scientists studying neural connections. Programmers writing codes for machine brain. Vector illustration for artificial intelligence, machine learning, data science concepts

A jogalap kérdését nem lehet megspórolni

A személyes adatok kezelése csak akkor jogszerű, ha annak megfelelő jogalapja van. AI-tréning esetén sokan rögtön a hozzájárulásra gondolnak, de ez nem mindig a legjobb megoldás. A hozzájárulásnak ugyanis önkéntesnek, konkrétnak, tájékozottnak és visszavonhatónak kell lennie. Egy összetett modelltréning esetében ez nehezen kezelhető lehet, főleg akkor, ha

a betanítás több körben zajlik,

az adatkészlet folyamatosan változik,

vagy a hozzájárulás visszavonása technikailag nehezen követhető.

Bizonyos esetekben más jogalap is szóba jöhet, például jogos érdek, de ez sem automatikus menekülőút. Ilyenkor érdekmérlegelésre van szükség, és igazolni kell, hogy a szervezet célja nem írja felül az érintettek jogait és szabadságait. Vagyis a „fejlesztési célból kell” önmagában nem elegendő indok. A GDPR logikája szerint a jogalap nem adminisztratív formalitás, hanem a teljes adatkezelés egyik alappillére.

Az adattakarékosság fontossága az AI-projektnél

A GDPR egyik legismertebb alapelve az adattakarékosság, más néven adatminimalizálás. Ez azt jelenti, hogy csak olyan személyes adat használható fel, amely valóban szükséges az adott cél eléréséhez, és nem terjed túl azon. Egy modelltréningnél ez különösen fontos, mert technológiai oldalról mindig csábító lehet minél több adatot felhasználni, jogilag viszont ez kockázatos.

A gyakorlatban ez azt jelenti, hogy minden adatmezőnél fel kell tenni a kérdést, hogy tényleg szükség van-e erre a modell tanításához. Ha a válasz nem egyértelmű igen, akkor inkább ki kell hagyni.

Érdemes különösen óvatosnak lenni az alábbi adatokkal:

név, email-cím, telefonszám,

pontos lakcím vagy geolokáció,

születési dátum,

ügyfélszám vagy más egyedi azonosító,

szabad szöveges megjegyzések, amelyekben váratlanul személyes információk lehetnek,

metaadatok, amelyekből közvetve azonosítható valaki.

Sok esetben az is elég lehet, ha a rendszer csak aggregált, csoportosított vagy leegyszerűsített adatokat kap.

A pszeudonimizálás nem jelent teljes megoldást

Sok adatvédelmi projektben előkerül a pszeudonimizálás mint biztonsági megoldás. Ez álnevesítést jelent, azaz a közvetlen azonosítók eltávolításra vagy kóddal való helyettesítésre kerülnek. Így az adatállomány első ránézésre kevésbé kapcsolható konkrét személyhez. Ez valóban hasznos védelmi intézkedés lehet, ugyanakkor fontos látni, hogy a pszeudonimizált adat továbbra is személyes adat maradhat.

Vagyis ha egy külön kulccsal, más adatbázissal vagy reális módon még vissza lehet vezetni az adatot egy személyhez, akkor a GDPR továbbra is vonatkozik rá. A pszeudonimizálás tehát nem mentesít a szabályok alól, csak csökkenti a kockázatot.

A pszeudonimizálás előnye lehet, hogy:

mérsékli a jogosulatlan hozzáférés kockázatát,

segíti a „need to know” elv szerinti hozzáférés-kezelést,

csökkentheti a belső visszaélés lehetőségét,

javíthatja egy AI-projekt adatvédelmi védhetőségét.

Viszont fontos, hogy önmagában nem old meg mindent. Ha a háttérben megmarad a visszakapcsolási lehetőség, akkor továbbra is körültekintően kell eljárni.

Miben más az anonimizálás?

Az anonimizált és a pszeudonimizált adat között fontos különbség van. A pszeudonimizált adat továbbra is személyes adatnak számít, mert bizonyos módon még visszavezethető lehet egy személyhez, míg a megfelelően anonimizált adatnál az érintett már nem azonosítható, ezért arra a GDPR sem vonatkozik.

Ez jól hangzik, de a gyakorlatban az anonimizálás sokkal nehezebb, mint elsőre tűnik. Különösen nagy, részletes, sokváltozós adatkészleteknél reális veszély a visszaazonosítás. Ezért az anonimizálás nem egy gyors technikai gombnyomás, hanem komoly módszertani feladat. Ha nincs valódi anonimizálás, akkor nem szabad úgy tenni, mintha az adat már kívül esne a GDPR hatályán.

Az érzékeny adatok kérdése

Vannak olyan adatok, amelyekre a GDPR különösen szigorú feltételeket ír elő. Ide tartoznak például

az egészségügyi adatok,

genetikai adatok,

biometrikus adatok,

vallási vagy politikai meggyőződésre utaló információk,

valamint több más érzékeny kategória.

Ezek kezelése AI-tréningben különösen magas kockázatú lehet.

A veszély itt nemcsak az, ha ezek az adatok közvetlenül jelen vannak az adatbázisban. Probléma lehet az is, ha az algoritmus más mezőkből nagy valószínűséggel képes ezekre következtetni. Vagyis előfordulhat, hogy az adatkészlet látszólag nem tartalmaz egészségügyi vagy más különleges adatot, de a mintázatok alapján mégis érzékeny következtetések születhetnek. Ezért az ilyen projektek különösen alapos előkészítést igényelnek.

Adatvédelem már a tervezés legelejétől

A GDPR egyik fontos logikája a beépített és alapértelmezett adatvédelem elve. Ez azt jelenti, hogy az adatvédelemnek nem utólagos javításnak kell lennie, hanem már a projekttervezés során meg kell jelennie. Egy algoritmus esetében ez különösen fontos, mert ha a teljes tréningfolyamat eleve túl széles adatkörrel, homályos céllal és gyenge dokumentációval indul, akkor később ezt sokkal nehezebb rendbe tenni.

A gyakorlatban ez többek között azt jelenti, hogy már a projekt elején érdemes tisztázni:

mi a modell pontos célja,

pontosan milyen adat kell hozzá,

melyik adat hagyható el,

mi lesz a jogalap,

mennyi ideig marad meg az adat,

kik férhetnek hozzá,

kell-e adatvédelmi hatásvizsgálat.

Ez nem felesleges adminisztráció, hanem a jogszerű és védhető működés alapja.

Adatvédelmi hatásvizsgálat és audit

Ha az adatkezelés valószínűsíthetően magas kockázattal jár az érintettek jogaira és szabadságra nézve, akkor a GDPR szerint adatvédelmi hatásvizsgálatot kell végezni. AI-projekteknél ez gyakran releváns lehet, különösen akkor, ha nagy mennyiségű személyes adat, megfigyelési jellegű feldolgozás, profilalkotás vagy érzékeny adatok is megjelennek.

A hatásvizsgálat nem puszta formalitás. Segít végiggondolni, hogy:

milyen kockázatokat hordoz a modell,

lehet-e visszaazonosítás,

érhet-e hátrány valakit egy hibás döntés miatt,

milyen technikai és szervezési garanciák csökkenthetik a veszélyeket.

Minél korábban készül el ez az elemzés, annál könnyebb még időben korrigálni a projekt irányát.

Fontos megemlíteni, hogy az audit nem ugyanaz, mint a hatásvizsgálat. Míg a hatásvizsgálat elsősorban előzetesen méri fel a tervezett adatkezelés kockázatait, az audit inkább azt ellenőrzi, hogy a már működő folyamat valóban a szabályok szerint működik-e a gyakorlatban. AI-projekteknél ez azért fontos, mert idővel változhatnak az adatforrások, a hozzáférések vagy a modell működésének körülményei. Egy rendszeres audit segíthet időben észrevenni, ha a projekt eltávolodik a GDPR-nak megfelelő működéstől.

A biztonság nemcsak IT-kérdés

A GDPR előírja, hogy a kezelőknek a kockázatokhoz igazodó megfelelő technikai és szervezési intézkedéseket kell alkalmazniuk, például a bizalmasság és a biztonság védelmére. Ez AI-tréning esetén nem merül ki abban, hogy van jelszó a rendszerhez. Az is fontos, ki látja a nyers adatokat, ki fér hozzá a címkézési folyamathoz, hol történik a tárolás, készül-e naplózás, van-e titkosítás, és mennyire elkülönített a fejlesztői környezet a többi rendszertől.

Külön figyelmet érdemel a hozzáférés-kezelés. Nem szükséges, hogy minden fejlesztő minden adatot lásson. A „need to know” elv, vagyis hogy csak az férjen hozzá az adatokhoz, akinek tényleg szüksége van rá, adatvédelmi és információbiztonsági szempontból is alapelv. Ezt az Európai Bizottság több adatkezelési tájékoztatójában is hangsúlyozza.

A szintetikus adat használata

Egyre több helyen jelenik meg a szintetikus adat mint lehetséges megoldás. Ennek lényege, hogy a tréninghez nem valódi személyekhez kapcsolódó nyers adatok kerülnek felhasználásra, hanem mesterségesen előállított, statisztikailag hasonló minták. Ez sok esetben ígéretes út lehet, mert csökkentheti a közvetlen adatvédelmi kockázatokat. Ugyanakkor önmagában attól, hogy egy adat „szintetikus”, még nem biztos, hogy minden kockázat eltűnik. Ha a generálás túl szorosan követi a valós személyes adatokat, vagy visszakövetkeztethető mintázatokat őriz meg, akkor továbbra is körültekintésre van szükség.

Mit érdemes megtenni a gyakorlatban?

Ha egy szervezet GDPR-kompatibilis módon szeretne algoritmust tréningezni, először pontosan meg kell határoznia a tréning célját, majd külön meg kell vizsgálnia, valóban szükség van-e személyes adatok felhasználására. Csak a ténylegesen szükséges adatokat érdemes bevonni, lehetőleg úgy, hogy előnyt kapjanak a pszeudonimizált, aggregált vagy megfelelően anonimizált megoldások. Emellett

tisztázni kell a megfelelő jogalapot,

gondoskodni kell a megfelelő tájékoztatásról és a belső dokumentációról,

magas kockázat esetén pedig adatvédelmi hatásvizsgálatot is szükséges végezni.

Mindezt erős technikai és szervezési védelmi intézkedésekkel kell kiegészíteni ahhoz, hogy a fejlesztés ne csak hatékony, hanem adatvédelmi szempontból is védhető legyen.

A legfontosabb tudnivalók

Az algoritmusok tanítása és a GDPR nem egymást kizáró fogalmak. A valódi kérdés nem az, hogy lehet-e személyes adatokkal AI-rendszereket fejleszteni, hanem az, hogy ez mennyire tudatosan, indokolhatóan és arányosan történik. A GDPR alapelvei ebben nem akadályt jelentenek, hanem kapaszkodót. Segítenek eldönteni, milyen adat kell valóban a modellhez, milyen garanciák szükségesek, és hol húzódnak a kockázatos határok.

A legbiztonságosabb megközelítés mindig az, ha egy AI-projekt nem azzal indul, hogy „milyen adat áll rendelkezésre”, hanem azzal, hogy „mi a cél, és ehhez mi a legkevesebb szükséges adat”. Ha ez a szemlélet már a tervezés elején megjelenik, akkor sokkal nagyobb eséllyel lehet olyan algoritmusokat tréningezni, amelyek nemcsak hatékonyak, hanem adatvédelmi szempontból is védhetők.

Ha fontos, hogy vállalkozásánál az AI-fejlesztés ne csak hatékony, hanem adatvédelmi szempontból is védhető legyen, érdemes már a tervezés elején tudatos döntéseket hozni. Vegye fel velünk a kapcsolatot, ha olyan megoldást keres, amelyben a technológiai fejlődés és a GDPR-megfelelés együtt kap hangsúlyt!

Vélemény, hozzászólás? Válasz megszakítása