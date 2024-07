Facciamo una ricerca sul web e ci viene restituito un risultato, che riconosciamo sbagliato.

Chiediamo a ChatGPT di elaborare un testo, e scopriamo essere pieno di imprecisioni ed errori.

Tutti questi sono fenomeni comuni e quotidiani, che spesso toccano pesantemente i diritti delle persone, attraverso la produzione di informazioni false, sbagliate e fuorvianti.

In questo articolo proviamo a capire come ciò avvenga, perché e quali sono gli strumenti a nostra tutela.



AI hallucinations

Gli attuali sistemi AI (basati su Machine Learning e Large Language Models) sono concepiti e programmati per dare a tutti i costi una risposta e, più precisamente, la risposta più probabile, non necessariamente quella giusta, corretta o vera.

È bene chiarire il concetto più in profondità, ovvero che “la risposta più probabile” non significa – né sotto il profilo logico, né sotto quello sintattico, né in senso di programmazione informatica o di concezione dell’algoritmo – necessariamente che sia anche “quella corretta”, ma solo che – date delle probabilità assunte ex ante e ingenerale per categorie generiche e omnicomprensive – la risposta sia la più probabile tra quelle possibili ricercate all’interno di un dataset di informazioni finito e limitato a quanto l’AI ha accesso.

Con una simile impostazione si possono facilmente verificare le cosiddette “allucinazioni” ossia output (risposte) che non sono basati su una verità oggettiva e che sono dunque un errore – o meglio – un dato sbagliato

Statistiche recenti riportate dal New York Times indicano che le risposte delle AI afflitte da allucinazioni variano dal 3 al 27%.

Se un errore inferiore al 10% può sembrare comunque basso, proviamo a pensare a che significa non tanto che una risposta su dieci sia sbagliata (peggio una su 3) quando dato un testo complessivo richiesto ad una AI generativa (diciamo un testo di 10mila parole) oltre il 10% di questo testo (oltre 1000 parole nel caso considerato) si riferiscono a informazioni e contengono dati sbagliati.

Immaginiamo di chiedere ad una Ai di generare un profilo su un candidato per una posizione professionale, per una anamnesi medica, per un articolo di giornale o per un profilo penale… e consideriamo poi che anche solo il 5% (senza finire al 25%) di questo profilo sia falso.

E adesso immaginiamo che – in tutti questi contesti – il profilo di cui parliamo sia il vostro.

Sin qui il dato “falso”.

Adesso prendiamo in considerazione sia qualitativamente che quantitativamente il testo di cui stiamo parlando.

Come da esperienza comune – ad esempio – la maggior parte dei siti e dei media di informazione più accreditati (dal NYTimes ai siti delle agenzie di stampa, dalla Treccani al telegiornale) non autorizzano i sistemi di Ai all’uso dei propri contenuti per gli addestramenti di AI (siano essi Machine Learningo Large Language Models).

Questo significa che il restante diciamo 90% del testo viene elaborato sulla base di dati e informazioni, e sulla sintassi e il modello di scrittura, che stanno a metà tra Wikipedia e Facebook, e qualche blog amatoriale.

Se a tutto questo associamo che – in assenza di ulteriori variabili – l’IA non ha modo di scegliere arbitrariamente o di discriminare altrimenti tra i 100 profili social di omonimi, e deve trarre “una media” delle informazioni trovate, possiamo comprendere di quale attendibilità stiamo parlando in concreto.

2. Le tutele del GDPR

Questa associazione erronea tra persona e dato di output fa scattare il sistema di allarme e di tutela della GDPR sotto diversi profili. Dei tanti diritti di tutela e autotutela assumono un ruolo centrale il diritto di accesso (Art.15) e il diritto di rettifica (Art.16).

L’esattezza dei dati personali è un principio consolidato da decenni nella privacy e racchiuso nell’art. 5.1d) GDPR.

Tale principio non prevede solo l’esattezza ma anche la possibilità di aggiornamento del dato.

In questo contesto è bene ricordare che il GDPR – per fortuna – è una normativa che non solo copre tutti i cittadini in tutti casi di gestione dati nel territorio dell’Unione Europea, ma impone precise regole di adeguamento anche in quei casi – sempre meno – di società del web che ad esempio on hanno dovessero avere una sede nell’Unione ma devono adeguarsi per il solo fatto di rendere nell’Unione disponibili i propri servizi e prodotti (ad esempio OpenIA con ChatGPT).

L’art. 15 GDPR corrisponde al diritto dell’interessato di ottenere – tra le altre cose – dal titolare la conferma del trattamento dei suoi dati, l’accesso agli stessi e la modalità di trattamento. L’accesso è dunque anche una manifestazione del principio di trasparenza (artt. 5 e 12 GDPR).

L’art. 16 GDPR, invece, riguarda il diritto di ottenere la rettifica dei dati personali inesatti.

In proposito va sottolineato e ricordato con forza e chiarezza che l’aggiornamento e la completezza sono una facoltà dell’interessato ma la rettifica è un obbligo per il titolare ogni volta che ha o dovrebbe avere contezza che sta trattando dati inesatti.

L’importanza di queste norme diviene ancora più rilevante se pensiamo che questi output sono totalmente automatizzati e che risulta difficile anche per il titolare del trattamento ricostruire la procedura seguita dall’AI per generare un determinato output.

OpenAI ad esempio ha negato l’accesso e la rettifica dei dati in alcuni casi sostenendo l’impossibilità di correggerli. La soluzione proposta sarebbe stata quella di applicare un filtro ai prompt che, però, impedirebbe a ChatGPT di filtrare qualsiasi informazione relativa all’interessato.

Google ad esempio consente accesso e rettifica dati “sino a un certo punto” – ovvero quelli detenuti in maniera diretta e funzionale – ad esempio quelli di registrazione dell’utente ai suoi servizi – dichiarando con chiarezza che “il dato di ricerca quando diventa metadato” (praticamente sempre) non è accessibile nemmeno a Google.