Data Scraping și GDPR

Article Data Scraping și GDPR

Introducere

În prima parte a lunii mai 2024, autoritatea olandeză pentru protecția datelor a publicat liniile directoare referitoare la extragerea datelor de pe paginile web. Aceasta afirmă că este puțin probabil ca prelucrarea datelor cu caracter personal într-un astfel de mod să fie legală, având în vedere că interesul legitim bazat pe motive pur comerciale nu este valabil în opinia sa. Aceste opinii ale unei autorități de protecție a datelor au atras multe comentarii și interpretări critice datorită poziției ferme chiar și în urma comentariilor adresate de către Comisia Europeană.

 

Interes legitim și scopuri comerciale

Poziția autorității cu privire la interesul legitim, așa cum am menționat mai sus, este una controversată, mulți experți dezbătând faptul că se poate baza pe informații părtinitoare sau eronate cu privire la modul în care se desfășoară procesele automate, cum ar fi colectarea automată datelor de pe paginile web. Cu toate acestea, autoritatea este de părere că, într-adevăr, este puțin probabil ca un alt temei juridic decât interesul legitim să poată fi aplicabil într-o astfel de situație. Autoritatea afirmă, de asemenea, că, dacă aveți un interes pur comercial în prelucrarea datelor cu caracter personal, atunci nu vă puteți baza pe interesul legitim.

Acesta este unul dintre nucleele controversei, în timp ce interpretarea obișnuită este că un interes poate fi legitim atâta timp cât nu este contrar legii, autoritatea olandeză pare să ridice ștacheta foarte sus în ceea ce privește aplicabilitatea. Interpretarea în cauză este de asemenea, în contradicție aparentă cu opiniile Comisiei Europene, precum și cu practica CEJ.

Comisia Europeană a adoptat o poziție fermă, criticând această interpretare a "interesului legitim" în trecut. Această critică provine din poziția menționată mai sus a autorității Olandeze, potrivit căreia prelucrarea datelor exclusiv în scopuri comerciale nu poate fi considerată niciodată un interes legitim.

Comisia Europeană consideră că această interpretare este strictă și incompatibilă cu RGPD, cu jurisprudența relevantă și cu orientările autorităților pentru protecția datelor (WP29/CEPD). Principalul argument este că împiedică mediul de afaceri, acest lucru pare să fie în concordanță cu majoritatea opiniilor experților care afirmă punctul de vedere cum că interpretarea ar fii nepractică și deconectată de realitățile mediului de afaceri și tehnologic din prezent.

 

Categorii speciale de date și obligații legale

 Autoritatea olandeză abordează, de asemenea, prelucrarea categoriilor speciale de date cu caracter personal, solicitând scraperilor să identifice excepțiile aplicabile înainte de colectarea acestor date. Această abordare nu ia în considerare dacă scraping-ul ar putea servi libertății de informare în mod similar cu motoarele de căutare, presupunând că CEJ nu va echivala cele două. Desigur, în ceea ce privește metodele de extragere care sunt utilizate, este puțin probabil ca cerința care este obligatorie să fie efectuată înainte de prelucrarea propriu-zisă, cum ar fi obligațiile de transparență, să fie o soluție viabilă în practică, deoarece aceasta ar implica cunoașterea datelor care urmează să fie colectate și a categoriilor incluse. În general, nu este cazul, deoarece punctul principal al extragerii este colectarea în masă a datelor disponibile public pe paginile web.

Deși nu suntem în dezacord cu punctul de vedere al autorității conform căruia simplul fapt că datele sunt disponibile public nu implică în mod automat că acestea pot fi colectate și utilizate în orice scop definit de operator fără o evaluare adecvată și garanții suficiente de securitate, aceste garanții, precum și măsurile necesare ar trebui să fie viabile și practice pentru a promova acțiuni proactive în rândul operatorilor.

După cum s-a menționat anterior, există măsuri potențiale pentru a reduce impactul unei astfel de prelucrări și pentru a minimiza cantitatea de date cu caracter personal implicate în prelucrare. Tehnici precum recunoașterea modelelor pentru a evita anumite câmpuri ale site-ului web în care este de așteptat să fie întâlnite date cu caracter personal sau chiar limitarea colectării datelor în cadrul anumitor etichete ale codului HTML, astfel încât să fie mai relevante pentru scopul specific pe care îl implică colectarea, indiferent dacă este vorba de formarea unui LLM sau de un alt scop.

 

Autoritatea italiană și colectarea automată datelor

 În timp ce îndrumările autorității olandeze se învârt în jurul interzicerii în principal a colectării automate a datelor datelor în scopuri comerciale, interpretând strict condițiile "interesului legitim" care trebuie să se aplice unei astfel de prelucrări, autoritatea italiană (Garante) a emis instrucțiuni legate de colectarea automată datelor, care se concentrează mai mult pe ceea ce pot face operatorii site-urilor web pentru a limita o astfel de expunere la riscurile potențiale ale răzuirii datelor și pentru a se apăra de acestea, în timp ce să nu împovăreze vizitatorii site-urilor web menționate.

Orientările au o abordare pragmatică, recunoscând că:

"Inteligența artificială generativă este un vestitor al beneficiilor comunității care nu pot fi limitate, negate sau diminuate".

Astfel, stabilirea tonului că limitările impuse scraperelor web ar putea fi de fiabilitate variată. Este important să rețineți că Garante a declarat anterior anumite activități de colectare automată a datelor efectuate de operatori ca fiind ilegale, cel mai faimos fiind cazul Clearview. Chiar și având în vedere acest context, autoritatea subliniază totuși faptul că măsurile adecvate care urmează să fie puse în aplicare pot varia puternic și trebuie evaluate de la caz la caz.

Autoritatea italiană menționează patru categorii de tehnici potențiale de apărare pentru a proteja mai bine datele cu caracter personal în cazul răzuirii datelor:

1.     Crearea zonelor în care accesul este restricționat

Crearea unor domenii specifice care fac obiectul înregistrării, în special pentru site-urile web care necesită colectarea de informații mai sensibile sau pentru cele care oferă un spațiu public pentru schimbul de informații, documente sau alte tipuri de conținut care ar putea conține date cu caracter personal, s-ar putea dovedi foarte eficace pentru protejarea datelor cu caracter personal împotriva roboților care colectează date.

În același timp, Garante avertizează împotriva riscului de prelucrare excesivă a datelor cu caracter personal pentru înregistrare și, prin urmare, a nerespectării principiului minimizării datelor, prin urmare ar trebui să fie întotdeauna evaluat de la caz la caz.

2.     Includerea clauzelor ad-hoc în termeni de serviciu

Interzicerea explicită a tehnicilor de web scraping în Termenii și condițiile (ToS) ale unui site web sau ale unei platforme online constituie o clauză contractuală. În cazul în care această clauză este încălcată, aceasta acordă operatorilor dreptul de a acționa în justiție pentru a declara încălcarea contractului. Această măsură juridică, care se aplică retroactiv, servește drept instrument preventiv, acționând ca un factor disuasiv. În consecință, îmbunătățește protecția datelor cu caracter personal împotriva activităților neautorizate de web scraping.

3.     Monitorizarea traficului de rețea

Monitorizarea solicitărilor HTTP primite de un site web sau de o platformă poate detecta fluxurile anormale de date și poate permite contramăsuri de protecție adecvate. Această monitorizare poate fi asociată cu limitarea ratei, o măsură tehnică de limitare a traficului de rețea și a numărului de solicitări prin selectarea doar a celor de la anumite adrese IP. Acest lucru ajută la prevenirea traficului excesiv de date, în special din cauza atacurilor DDoS sau a web scraping-ului. Aceste precauții tehnice, deși indirecte, pot spori protecția datelor cu caracter personal împotriva activităților de web scraping utilizate pentru antrenarea modelelor generative de inteligență artificială.

4.     Intervenția botului

În cele din urmă, în timp ce cea mai mare parte a răzuirii datelor este efectuată de roboți, orice metodă de restricționare a eficacității roboților ar avea un impact de succes în protejarea datelor personale împotriva răzuirii datelor. Astfel de tehnici pot include includerea CAPTCHA ca mijloc de blocare a accesului non-uman, modificarea periodică a marcajului HTML pentru a împiedica activitatea botului, monitorizarea jurnalului pentru a bloca orice utilizatori nedoriți etc.

Concluzie

Necesitatea unor reguli mai clare pentru protejarea datelor cu caracter personal în mediul tehnologic actual este mai clară ca niciodată și, în mod obiectiv, opiniile pe această temă par a fi mai divergente și mai puțin relevante pe zi ce trece, atât pentru companiile care caută să implementeze noi tehnologii, furnizorii care încearcă să lege cerințele legale cu dezvoltarea, cât și pentru experții care caută să găsească soluții pentru clienți. Deși autoritățile pentru protecția datelor par în contradicție, avănd opinii contradictorii  cu privire la subiecte importante, acum este foarte probabil ca cel puțin o parte din aceste întrebări să trebuiască să fie testate și clarificate în instanțele de judecată înainte de a putea constitui norme clare.

 

Share:
DECALEX  TEAM
Autor: DECALEX TEAM We make privacy easy

PUNE O INTREBARE