Metodi di addestramento algoritmi IA: il Garante indaga

Scarica PDF Stampa

Il Garante privacy indaga sulla raccolta dei dati per addestrare gli algoritmi di intelligenza artificiale. Vediamo come funziona l’IA e come addestrarla in modo “etico”.
L’Autorità Garante per la protezione dei dati personali ha avviato una indagine per il momento solo conoscitiva per capire le modalità di addestramento degli algoritmi di intelligenza artificiale. In particolare interessa al Garante sapere se, da parte di siti pubblici e privati che utilizzato algoritmi di intelligenza artificiale, vengono utilizzate tecniche di webscraping online senza il consenso degli interessati, fenomeno che costituirebbe una violazione delle norme del GDPR e del Digital Services Act: quest’ultimo regolamento, recentemente entrato in vigore, impone alle piattaforme che forniscono servizi digitali di aumentare il livello di sicurezza e controllo degli utenti sui propri dati personali, fornendo loro maggiori strumenti e soprattutto maggior consapevolezza.
Per ampliare il più possibile i risultati dell’analisi ed avere un campione di indagine maggiormente significativo, il Garante ha rivolto “un invito alle associazioni di categoria interessate, alle associazioni di consumatori, ad esperti e rappresentanti del mondo accademico affinché facciano pervenire i loro commenti e contributi sulle misure di sicurezza adottate e adottabili contro la raccolta massiva di dati personali a fini di addestramento degli algoritmi”.
A conclusione dell’indagine, il Garante si riserverà di adottare, anche in via d’urgenza, i necessari provvedimenti contro chi sarà trovato privo delle misure di sicurezza adeguate.
Per capire meglio di che cosa si sta parlando e perché l’indagine del Garante è così importante, è utile fornire una breve spiegazione sugli algoritmi di intelligenza artificiale, sull’intelligenza artificiale generativa e sul fenomeno del webscraping.

Indice

1. Che cos’è e come funziona un algoritmo di IA


Un algoritmo di intelligenza artificiale (AI) è una sequenza di istruzioni o regole logiche progettate per risolvere un problema specifico o compiere una determinata attività, simulando alcune capacità cognitive umane. Gli algoritmi di AI sono alla base del funzionamento dei sistemi di intelligenza artificiale e del machine learning.
Esistono diversi tipi di algoritmi di AI, ognuno progettato per affrontare specifici compiti o problemi.
Reti neurali: Ispirate al funzionamento del cervello umano, le reti neurali artificiali sono utilizzate nel deep learning per compiti come il riconoscimento di immagini, il riconoscimento vocale e la traduzione automatica.
Algoritmi di apprendimento supervisionato: Questi algoritmi apprendono dai dati di addestramento etichettati, cercando di fare previsioni o classificazioni.
Algoritmi di apprendimento non supervisionato: Questi algoritmi operano su dati non etichettati, cercando di scoprire modelli o strutture in modo autonomo.
Algoritmi di apprendimento per rinforzo: Utilizzati nell’apprendimento automatico, questi algoritmi imparano a compiere azioni in un ambiente per massimizzare una ricompensa. Sono spesso utilizzati in applicazioni come i giochi o il controllo di robot.
Algoritmi di elaborazione del linguaggio naturale (NLP): Questi algoritmi comprendono e generano il linguaggio umano, consentendo a sistemi di rispondere a domande, tradurre testi o generare contenuti.

2. Che cos’è l’intelligenza artificiale generativa e come si addestra?


L’Intelligenza Artificiale Generativa (IA generativa) è un ramo dell’intelligenza artificiale (IA) che si concentra sulla creazione di modelli e algoritmi in grado di generare nuovi dati che sono simili a quelli presenti nei dati di addestramento. Questa area ha visto notevoli progressi grazie a modelli di deep learning avanzati, in particolare alle reti neurali generative.
Le reti neurali generative, o GAN (Generative Adversarial Networks), sono uno dei principali esempi di IA generativa. In una GAN, ci sono due reti neurali: il generatore e il discriminatore. Questi due modelli sono allenati simultaneamente attraverso una competizione, dove il generatore cerca di creare dati che siano sempre più difficili da distinguere dai dati reali, mentre il discriminatore cerca di migliorare la sua capacità di distinguere tra dati reali e generati.
L’IA generativa trova applicazioni in diversi campi, tra cui:
Generazione di immagini: Le GAN possono essere utilizzate per generare immagini realistiche di volti, paesaggi, oggetti e altro ancora. Questa capacità trova applicazioni nell’arte digitale, nella creazione di contenuti visivi e nella sintesi di dati.
Elaborazione del linguaggio naturale: Modelli generativi possono essere utilizzati per generare testi in modo coerente e contestuale. Ciò è utile nella creazione automatica di contenuti, nel riepilogo automatico di testi e nella generazione di dialoghi.
Creazione di musica e suoni: L’IA generativa può essere impiegata per creare nuovi brani musicali, generare effetti sonori e sperimentare con la composizione musicale.
Progettazione di prodotti: Nell’ambito del design, i modelli generativi possono essere utilizzati per generare proposte di design, modelli 3D e altro ancora.
Medicina e biologia: L’IA generativa può essere utilizzata per generare molecole chimiche, simulare processi biologici e contribuire alla scoperta di nuovi farmaci.
Come si addestra un algoritmo di intelligenza artificiale?
L’addestramento di un algoritmo di intelligenza artificiale coinvolge diverse fasi e dipende dal tipo specifico di algoritmo che si sta utilizzando. Di seguito, fornisco una panoramica generale del processo di addestramento per un modello di machine learning, che è una delle sottocategorie più comuni di algoritmi di intelligenza artificiale.
Raccolta dei dati: Il primo passo è raccogliere un insieme di dati di addestramento rappresentativo del problema che si desidera risolvere. I dati dovrebbero includere esempi etichettati, se si tratta di un problema supervisionato, o potrebbero essere non etichettati se si tratta di un problema non supervisionato.
Preelaborazione dei dati: I dati raccolti possono richiedere preelaborazione per renderli adatti all’addestramento. Questa fase può includere normalizzazione, gestione dei dati mancanti, conversione di formati, estrazione di caratteristiche rilevanti, ecc.
Divisione del dataset: Il dataset viene suddiviso in almeno due parti: un insieme di dati di addestramento utilizzato per insegnare al modello e un insieme di dati di test utilizzato per valutare le prestazioni del modello su dati non visti durante l’addestramento.
Scelta del modello: Scegliere il tipo di modello di machine learning più adatto al problema.
Configurazione del modello: Impostare i parametri del modello e la sua architettura. Questo può includere la scelta del numero di strati e nodi in una rete neurale, la scelta della funzione di attivazione, ecc.
Addestramento del modello: Utilizzare il dataset di addestramento per insegnare al modello a fare previsioni. Durante l’addestramento, il modello cerca di minimizzare l’errore tra le sue previsioni e le etichette effettive.
Validazione e ottimizzazione: Utilizzare l’insieme di dati di test per valutare le prestazioni del modello. Se necessario, ottimizzare il modello modificando la sua configurazione o regolando i parametri.
Valutazione finale: Una volta soddisfatti delle prestazioni del modello, è possibile utilizzarlo per fare previsioni su nuovi dati.

Potrebbero interessarti anche:

3. Da quale fonte provengono i dati?


I dati utilizzati per addestrare algoritmi di intelligenza artificiale possono provenire da diverse fonti. La raccolta dei dati dipende dal tipo di problema che si sta affrontando e dalla natura dell’algoritmo che si vuole addestrare. Ecco alcune fonti comuni di dati:
Basi di dati esistenti: Molte organizzazioni e istituzioni raccolgono e mantengono enormi basi di dati che possono essere utilizzate per addestrare algoritmi. Ad esempio, database governativi, banche dati aziendali, e archivi scientifici possono essere sfruttati per una varietà di scopi.
Webscraping: L’estrazione di dati da siti web è un metodo comune per ottenere informazioni. Tuttavia, è importante farlo in conformità con le leggi e le politiche sulla privacy, poiché alcuni siti possono vietare o limitare l’accesso ai loro dati.
Sensori e dispositivi IoT: I dispositivi IoT (Internet delle cose) e i sensori generano una grande quantità di dati in tempo reale. Questi dati possono essere utilizzati per addestrare modelli che comprendono e rispondono alle condizioni ambientali o alle interazioni con i dispositivi. Anche in questo caso è essenziale valutare le implicazioni dal punto di vista privacy.
Partecipazione degli utenti: In alcuni casi, i dati possono essere raccolti attraverso la partecipazione diretta degli utenti. Ad esempio, le recensioni degli utenti su prodotti o servizi, i sondaggi online o i feedback degli utenti possono essere utilizzati per addestrare modelli.
Dati generati dall’utente: Alcuni algoritmi di intelligenza artificiale, come le reti neurali generative, possono essere addestrati utilizzando dati generati dall’utente stesso. Questi dati potrebbero includere immagini, testi o altri tipi di informazioni.
Dati open source: Esistono molte risorse di dati aperti disponibili gratuitamente su Internet. Questi dataset coprono una vasta gamma di argomenti, dalla scienza ai social media, e possono essere utilizzati per vari scopi

4. Come effettuare il webscraping in modo etico e sicuro


Il webscraping è un’attività che può sollevare preoccupazioni etiche e legali, poiché può violare i termini di servizio di alcuni siti web e, in determinate circostanze, le normative sulla privacy. Tuttavia, è possibile eseguire il webscraping in modo etico e rispettoso della privacy seguendo alcune linee guida, anche quando si parla di addestramento degli algoritmi.
Rispetto dei termini di servizio: Prima di iniziare qualsiasi attività di webscraping, è essenziale leggere e comprendere i termini di servizio del sito web. Alcuni siti vietano espressamente il webscraping nei loro termini di utilizzo. Se ciò è il caso, è necessario ottenere il permesso esplicito dal proprietario del sito web.
Utilizzo del file robots.txt: Molti siti web forniscono un file robots.txt che specifica quali parti del sito possono essere o non possono essere oggetto di scraping da parte dei robot dei motori di ricerca. Si tratta di un file di testo standard utilizzato dai siti web per comunicare agli spider e ai crawler web quali parti del sito possono essere esplorate e raccolte e quali parti dovrebbero essere ignorate. Questo file fornisce linee guida agli agenti degli spider dei motori di ricerca e ad altri crawler web su come devono comportarsi durante la scansione del sito. Quando si dice di “rispettare il file robots.txt del sito web”, si intende che, durante l’attività di webscraping, è importante osservare le direttive specificate in questo file. Queste direttive possono includere istruzioni su quali percorsi o pagine del sito sono consentiti o vietati ai crawler. L’obiettivo principale è evitare di sovraccaricare il server del sito con troppe richieste o di raccogliere dati da aree che il proprietario del sito preferisce mantenere private o inaccessibili. Ad esempio, se un sito web ha un file robots.txt che indica che alcune directory o pagine non dovrebbero essere esplorate dai motori di ricerca o dai crawler, rispettare questo file significa che il tuo webscraper dovrebbe evitare di raccogliere dati da tali sezioni del sito.
Limitare la frequenza delle richieste: Evitare di inviare troppe richieste al sito web in un breve periodo. L’invio di un numero eccessivo di richieste può mettere sotto stress il server del sito, danneggiando le prestazioni o addirittura causando un blocco dell’indirizzo IP.
Rispettare la politica sulla privacy: Se si raccolgono dati personali, è essenziale rispettare le normative sulla privacy, come il Regolamento Generale sulla Protezione dei Dati (GDPR) in Europa, in particolare le norme in merito a informativa e consenso.
Evitare l’accesso non autorizzato: Non cercare di accedere a aree del sito web che richiedono autenticazione o che sono chiaramente protette da misure di sicurezza. Questo può violare non solo i termini di servizio, ma anche leggi sulla sicurezza informatica.
Monitorare e aggiornare: Monitorare costantemente le attività di webscraping per assicurare che siano in conformità con i termini di servizio del sito web e con le normative sulla privacy.
Anonimizzazione dei dati: Prima di utilizzare i dati per l’addestramento degli algoritmi, sarebbe opportuno considerare l’anonimizzazione dei dati personali e rimuovere le informazioni che potrebbero identificare direttamente gli individui.
Si tratta solo di alcuni esempi di linee guida che possono contribuire a garantire che il webscraping per l’addestramento di algoritmi di intelligenza artificiale sia condotto nel rispetto della privacy degli utenti e in conformità con le normative applicabili.
Ma, come sempre, l’ultima parola spetterà al Garante ed all’esito delle sue verifiche.

Vuoi ricevere aggiornamenti costanti?


Salva questa pagina nella tua Area riservata di Diritto.it e riceverai le notifiche per tutte le pubblicazioni in materia. Inoltre, con le nostre Newsletter riceverai settimanalmente tutte le novità normative e giurisprudenziali!
Iscriviti!

Iscriviti alla newsletter

Si è verificato un errore durante la tua richiesta.

Scegli quale newsletter vuoi ricevere

Autorizzo l’invio di comunicazioni a scopo commerciale e di marketing nei limiti indicati nell’informativa.

Cliccando su “Iscriviti” dichiari di aver letto e accettato la privacy policy.

Iscriviti

Iscrizione completata

Grazie per esserti iscritto alla newsletter.

Seguici sui social


Scrivi un commento

Accedi per poter inserire un commento