Riscul AI depășește beneficiile sale?

Article Riscul AI depseste beneficiile sale I Decalex

 

1. Contextul

Dați-mi voie să reduc din suspans, răspunsul este da, cel puțin în majoritatea cazurilor. Să începem cu începutul: Ce înțelegem cu adevărat atunci când menționăm cuvintele "Inteligență Artificială"? Pentru a răspunde la această întrebare vom avea în vedere Regulamentul European pentru Inteligență Artificială care descrie tehnologia AI ca fiind un software dezvoltat prin tehnici specifice precum învățare automată, abordări statistice, estimare Bayes, etc., care reușește să producă conținut, predicții, recomandări sau decizii care influențează mediile cu care interacționează, având un obiectiv bazat pe oameni.

Cel mai popular software care se încadrează în această descriere este, fără îndoială, ChatGPT, produsul lansat de OpenAI, care a luat lumea prin surprindere, polarizând oamenii cu vederi foarte extreme pro și contra în ceea ce privește tehnologia. Cu toate că rolul acestui articol este de a sublinia mai bine riscurile pe care astfel de instrumente le pot prezenta pentru companiile care iau în considerare cazuri potențiale de utilizare, nu am nicio îndoială în minte când spun că este o tehnologie foarte impresionantă, chiar dacă nu suntem încă la nivelul cercetărilor și reglementărilor necesare pentru a o face cu adevărat fiabilă.

Am definit ce înseamnă Inteligența Artificială, dar AI nu este nouă, nici nu este atât de limitată în utilizare pe cât ar fi părut recent. Multe operațiuni cu care suntem obișnuiți sunt efectuate de algoritmi care se încadrează în definiția AI, de exemplu, verificările pentru credit-scoring efectuate de bănci la solicitarea unui împrumut sau chiar recunoașterea facială efectuată de telefonul dumneavoastră pentru a-l debloca sunt câteva exemple de bază. Cu toate acestea, GPT 3.5 sau GPT 4 sunt diferite, în timp ce celelalte exemple erau limitate și specifice pentru un anumit obiectiv, ChatGPT este ceea ce numim un model lingvistic mare (LLM), pe scurt, un LLM este o IA cu scop general care a fost alimentată cu cantități uriașe de date pe care le folosește pentru a încerca să prezică răspunsul adecvat la o anumită cerere, fiind numită de unii "corector automat pe steroizi".

 

2.  Care sunt problemele principale?

Există un număr de probleme care pot crea riscuri semnificative în cazul implementării unui AI sau a ChatGPT în cazul

 

2.1. Limitări de design

Un AI dezvoltat cu tehnici de Machile Learning nu poate, din cauza propriului design, să atingă o fiabilitate de 100%, ceea ce înseamnă în principal că va produce adesea răspunsuri fără sens pentru că se potrivește interpretării datelor care i-au fost furnizate și, prin urmare, furnizează un răspuns adecvat în contextul în care a fost antrenat. În alte cuvinte, nu poate înțelege conceptul de bine și rău în afara datelor sale și, prin urmare, va "minți" și uneori va insista că are dreptate. În documentația pusă la dispoziție pentru GPT-4, Open AI menționează clar limitările produsului lor prin menționarea "halucinațiilor". Desigur, termenul nu este precis și puțin abstract pentru ceea ce înseamnă de fapt o eroare în antrenarea AI-ului pe datele curente, conform propriilor admisiuni ale OpenAI:

"În ciuda capacităților sale, GPT-4 are limitări similare cu modelele GPT anterioare. Cel mai important, nu este încă pe deplin fiabil (halucinează fapte și face erori de raționament). Este necesară o mare atenție atunci când se utilizează rezultatele modelelor de limbaj, în special în contexte cu riscuri ridicate, fiind necesar un protocol exact (cum ar fi revizuirea umană, fundamentarea cu context suplimentar sau evitarea utilizării cu riscuri ridicate în totalitate) care se potrivește nevoilor unui caz de utilizare specific."

 Tehnicile de Machine Learning cum ar fi Deep Learning, se bazează în principal pe interpretarea datelor din propriul său set de date utilizat pentru a recunoaște ulterior input-ul utilizatorului și apoi pentru a genera răspunsuri într-un mod similar cu ceea ce a fost identificat în trecut. Aceasta are funcționalitate pentru răspunsuri aproximative, dar nu pentru probleme precise și sensibile, un subiect detaliat pe larg de Gary Marcus în articolul său. Există propuneri de soluții în acest sens, însă un LLM cu risc ridicat care se ocupă de date sensibile sau decizii cu un impact ridicat asupra persoanei ar fi o problemă semnificativă, deoarece întrebarea nu este dacă va eșua, ci când. Tema fiabilității conduce în cele din urmă la o altă limitare de design pentru care în prezent există soluții foarte limitate, urmărirea proceselor și datelor în cadrul AI-ului. Conform lucrării publicate în martie 2023 de Agenția Uniunii Europene:

„..Cu toate acestea, urmărirea datelor și a componentelor AI pe întreg ciclul lor de viață rămâne o problemă care afectează majoritatea amenințărilor și rămâne în mare măsură nedezvoltată. De fapt, atât datele, cât și componentele AI pot avea cicluri de viață foarte complexe, cu date provenite din multe surse și fiind transformate și îmbunătățite, iar componentele AI pot reutiliza componente terțe sau chiar componente open source, toate acestea fiind evident o sursă de riscuri crescute. Această aspect implică necesitatea implementării de tehnologii, tehnici și proceduri legate de urmărirea pentru a asigura calitatea sistemelor AI, de exemplu, asigurându-se că datele utilizate nu conțin biase (de exemplu, uitarea de a include fețele persoanelor cu anumite trăsături), nu au fost intenționat infectate (de exemplu, adăugarea de date pentru a modifica rezultatul modelului) și nu au fost etichetate greșit intenționat sau accidental (de exemplu, o imagine cu un câine etichetat ca un lup).”

Urmărirea datelor și a proceselor este cheia pentru înțelegerea erorilor, asigurarea rezilienței împotriva întrebărilor sau tehnicilor adversare, asigurarea calității datelor și a lipsei de bias, etc. Lipsa urmăririi duce la imposibilitatea de a rezolva scenariile de tipul "black-box". Astfel de scenarii apar atunci când AI ajunge la o concluzie absolut ridicolă, însă din cauza procedurilor complexe efectuate, a cantităților enorme de date procesate și a lipsei de urmărire, nimeni nu poate înțelege cum a ajuns la acea concluzie. În funcție de efectele pe care răspunsul le-a avut asupra persoanei, organizația poate fi răspunzătoare pentru mai mult decât o simplă eroare.

 

2.2. Problemele juridice (Legea Uniunii Europene privind Inteligența Artificială, GDPR)

Viitoarea Reglementare privind Inteligența Artificială, disponibilă în prezent sub formă de proiect, vine cu cerințe grele și amenzi și mai grele pentru serviciile legate de AI, unele dintre aceste obligații fiind în conflict cu anumite limite ale design-ului AI-urilor pe care le-am menționat anterior, concluzionând că la un anumit nivel (cel puțin atunci când luăm în considerare LLM-urile), lipsa conformității cu legea va fi prezentă prin design. Pentru sistemele considerate ca fiind cu risc ridicat conform legii, ceea ce înseamnă cele cu un impact semnificativ asupra individului (de exemplu, evaluarea studenților în scopuri educaționale, identificarea biometrică, cum ar fi cea facială, vocală, cu amprenta etc.), obligațiile de a asigura calitatea datelor pe care AI-ul le folosește pentru antrenarea algoritmului și de a preveni manipularea sau bias-ul neintenționat sunt o cerință strictă în proiectul de reglementare. Cu toate acestea, pentru AI, o caracteristică cheie este învățarea continuă pe care o dezvoltă, astfel încât efortul uman nu poate ține pasul cu revizuirea și evaluarea continuă a instruirii și a procedurilor efectuate pe datele procesate de AI, cu atât mai mult în cazul imposibilității urmăririi datelor în cadrul proceselor AI. Concluzia este că există o discrepanță tehnologică între practică și conformitate pentru anumite modele de AI și în prezent este dificil de spus ce date au fost utilizate pentru a ajunge la un anumit răspuns al AI-ului, cu atât mai puțin de a verifica calitatea tuturor seturilor de date alimentate în acesta. Alte cerințe similare generează probleme similare, cum ar fi transparența soluției AI sau prevenirea "otrăvirii" modelului, adică prevenirea utilizării de către a altor persoane a intrărilor AI care ar modifica logica și algoritmul acestuia. Acestea sunt doar câteva dintre cerințele care intră în conflict cu practica actuală, iar exemplele nu sunt în niciun caz exhaustive.

În cazul GDPR-ului, orice date personale colectate și utilizate în cadrul sistemului trebuie să fie colectate legal, ceea ce înseamnă că trebuie să existe un temei legal pentru prelucrare, cum ar fi consimțământul persoanei vizate. Colectarea de date în masă de pe internet și alimentarea AI-ului cu acestea este o modalitate absolută de a nu fi conform cu GDPR. Mai mult, deoarece toate datele personale trebuie șterse la un moment dat, nu este clar cum va face AI-ul referire la datele folosite în antrenarea algoritmului său și, prin urmare, cum va putea să le șteargă în contextul actual, cu un serios deficit în abilitatea de a urmări datele în interiorul proceselor sale. Această situație nu va fi atât de mult o problemă pentru AI-urile cu un scop specific spre deosebire de LLM, chiar și așa este important de remarcat faptul că, indiferent de AI-ul utilizat, este probabil ca firma implicată să aibă o responsabilitate împărțită cu furnizorul soluției, ceea ce ne duce la necesitatea unei considerații atente în alegerea unei astfel de tehnologii în cazurile de breșelor de date. Chiar și cel mai mare jucător de pe piața AI, OpenAI cu ChatGPT-ul său, a suferit o gravă breșă de date în care datele de plată ale utilizatorilor săi premium au fost expuse la acces neautorizat, un incident care ar trebui să facă atragă atenția la anumite riscuri cu privire la implementările de AI.

 

2.3. Proprietatea Intelectuală

În cazul proprietății intelectuale, un alt aspect particular atât pentru LLM-uri, cât și pentru AI-ul generativ de imagine precum Midjourney este că acestea pot încălca legile privind proprietatea intelectuală sau, în cel mai bun scenariu, să nu fie acoperite de protecția drepturilor de autor. Este acceptat faptul că multe dintre datele folosite pentru instruirea AI-urilor precum ChatGPT sau Midjourney au fost colectate din surse de pe internet. Atunci când se lansează o astfel de inteligență artificială, există o șansă ca aceasta să acceseze de date preluate de la o sursă protejată de drepturile de autor, creând astfel potențiale probleme privind proprietatea operei generate. Un creator care a folosit Midjourney pentru a ilustra benzile desenate "Zarya of the Down" de Kristina Kashtanova a fost refuzat în solicitarea acestuia pentru a înregistra drepturile de autor pentru acestea tocmai din acest motiv, autoritățiile din SUA au ajuns la următoarea concluzie:

"Concluzionăm că dna Kashtanova este autorul textului lucrării, precum și al selecției, coordonării și aranjamentului elementelor scrise și vizuale ale lucrării. Această autoritate este protejată de drepturile de autor. Cu toate acestea, după cum se discută mai jos, imaginile din lucrare care au fost generate de tehnologia Midjourney nu sunt rezultatul autorului uman,"

Acest lucru este relevant deoarece, în timpul utilizării AI-ului, se poate conta pe anumite produse create de acesta pentru vânzări sau alte tipuri de activități, riscând ca materialele să nu fie protejate și, prin urmare, să fie copiate de alte persoane pentru propriile lor scopuri.

 

3.   Scenarii Practice

Având în vedere faptul că a fost lansat la finalul anului precedent, ChatGPT a fost implementat în multe proiecte și multe persoane au încercat diverse proiecte în care această tehnologie a fost integrată. Prin urmare, putem analiza câteva dintre cazurile în care limitările sunt evidente, referindu-ne la evenimente practice.

Un astfel de exemplu a avut loc recent în acest an, când un profesionist în domeniul confidențialității numit Alexander Hanff a solicitat ChatGPT-ului să ofere informații despre propria persoană. ChatGPT a fost de acord și i-a oferit o descriere favorabilă a experienței profesionale a lui Alexander înainte de a-i comunica despre moartea tragică a acestuia în 2019. În urma unei alte solicitări referitoare la sursa acestei informații, ChatGPT a insistat că aceasta a fost raportată public în media, oferind chiar și câteva linkuri false despre moartea haluciantă de către AI a lui Alexander.

Un alt exemplu este BingBot, integrarea Microsoft a ChatGPT cu Bing, destinată facilitării navigării pe internet prin motorul său de căutare. Deși inițial a primit un număr semnificativ de voturi pozitive, a început să manifeste comportamente ciudate, cum ar fi numirea utilizatorului drept "nepoliticos" și chiar amenințarea acestuia, pretinzând că poate mitui, șantaja, sparge și expune informații despre el, înainte de a șterge mesajul.

Un alt exemplu, mai vechi, dar potrivit pentru perioada noastră, chiar dacă nu este legat de ChatGPT, este atunci când Microsoft a încercat să integreze un chatbot AI pe Twitter. Botul numit "Tay" a trecut, într-un interval de mai puțin de 24 de ore, de la tweet-uri precum "Îmi plac oamenii" la tweet-uri în care-l lăuda pe Hitler, astfel că a fost, în mod nesurprinzător, șters de pe platformă.

Luând în considerare un scenariu în care un produs precum ChatGPT ar fi integrat în departamentul de vânzări pentru a se ocupa de solicitările inițiale ale clienților, ar fi cel puțin o lovitură serioasă asupra imaginii companiei dacă unul din scenariile amintite anterior s-ar întâmpla în cadrul unei interacțiuni profesionale. Alte implementări, precum AI-urile de gestionare a recrutării care evaluează CV-urile, ar putea expune compania la un risc de discriminare a candidaților spre exemplu. în funcție de bias-ul particular al AI-ului, determinat de lipsa de date calitative pentru antrenarea algoritmului.

 

4.   Concluzii și posibile soluții

Este important să subliniem că inteligența artificială nu este în mod intrinsec bună sau rea, acea calitate ține aproape în mod exclusiv de modul în care se implementează și se întreține această tehnologie. Există numeroase exemple de AI-uri utile și puternice care fac o diferență, în special în medicină. Există AI-uri care sunt utilizate pentru a identifica potențialul de cancer în avans, cum ar fi noile progrese realizate de MIT cu noul lor model de AI pentru cancerul pulmonar. AI-urile cu scopuri specifice au cel mai mare potențial de a fi utilizate în mod fiabil în activitățile zilnice ale unei companii sau de a fi integrate cu succes în zone cu risc ridicat sau de înaltă precizie. LLM-urile, pe de altă parte, se dovedesc a fi foarte dificil de implementat într-o formă conformă, în timp ce creează costuri și o expunere semnificativă la riscuri ridicate pentru companiile care implementează astfel de tehnologii. De regulă, cele mai bune practici nu sunt de o complexitate exagerată, oferind totodată cele mai bune soluții în ceea ce privește implementarea AI, câțiva pași pe care îi puteți lua pentru a vă asigura că sunteți pe calea cea bună sunt:

  1. Definiți domeniul de utilizare, scopul dvs. de utilizare al AI-ului trebuie să fie clar, dacă aveți nevoie de aceasta pentru a direcționa clienții către un anumit produs, AI-ul este posibil să nu aibă nevoie de cunoștințe medicale, de exemplu.
  2. Încercați să evitați LLM-urile, rămâneți la AI-uri specifice scopului și antrenate cu date de calitate, decizia unei AI trebuie să fie explicabilă.
  3. Fiți atent la datele folosite pentru antrenarea algoritmului, dacă nu sunt colectate în mod legal, orice acțiune ulterioară efectuată de AI folosind modelul antrenat pe acele date va fi, de asemenea, în conflict cu legea.

Desigur, cele menționate mai sus reprezintă doar câțiva pași necesari în verificarea a ceea ce este potrivit pentru dvs., există, așa cum am prezentat în acest articol, multe alte lucruri de luat în considerare, de aceea se recomandă asistența unui profesionist specializat în timpul acestor verificări.

Există un risc crescut pentru utilizatorii care încearcă cu înverșunare să integreze AI în tot ceea ce fac, precum și pentru cei care consideră că AI este diabolic și ar trebui interzis cu orice preț. AI, la fel ca orice alt software, este o unealtă și ar trebui tratată ca atare. Una dintre cele mai mari vulnerabilități ale unei unelte este utilizatorul, avem responsabilitatea de a nu permite unei unelte să ia decizii în locul nostru, cu atât mai mult întrucât unealta ar putea "halucina".

În cele din urmă, pentru a reitera întrebarea inițială "Riscul AI depășește beneficiile sale?", dacă nu suntem specifici și serioși cu privire la calitatea și mentenanța AI, atunci foarte probabil da. Cu toate acestea, dacă ne așteptăm ca AI să ia decizii bune în locul nostru, atunci cu siguranță da.

Pentru consultanta si suport legat de reglementarile AI ne puteti scrie la office@decalex.ro. 

 

Acest articol a fost redactat de:

 

Alexandru BORLAN | Senior Privacy & Data Protection Consultant la Decalex

Share:
Decalex
Autor: DECALEX

PUNE O INTREBARE