I chatbot dotati di intelligenza artificiale hanno bisogno di più libri per imparare e diverse biblioteche statunitensi sono disposte a prestarglieli.

Tutto ciò che abbiamo sentito su internet è stato solo l'inizio dell'insegnamento all'intelligenza artificiale sull'umanità. Ora, le aziende tecnologiche si stanno rivolgendo a un deposito di conoscenza ancora più antico : gli scaffali delle biblioteche .

Quasi un milione di libri pubblicati a partire dal XV secolo , in 254 lingue, fanno parte di una collezione dell'Università di Harvard recentemente condivisa con i ricercatori. Presto saranno inclusi anche tesori di vecchi giornali e documenti governativi conservati dalla Biblioteca Pubblica di Boston.

L'apertura delle casseforti per accedere a tomi vecchi di secoli potrebbe significare una grande quantità di dati per le aziende tecnologiche che dovranno affrontare cause legali da parte di romanzieri, artisti visivi e altri, le cui opere creative sono state utilizzate senza il loro consenso per addestrare chatbot basati sull'intelligenza artificiale.

Pubblico dominio

"È una decisione prudente iniziare con le informazioni di pubblico dominio perché, a questo punto, sono meno controverse rispetto ai contenuti ancora protetti da copyright", ha affermato Burton Davis, vicedirettore generale di Microsoft.

Davis ha osservato che le biblioteche contengono anche "grandi quantità di dati culturali, storici e linguistici interessanti", che negli ultimi decenni sono stati assenti dai commenti online da cui i chatbot di intelligenza artificiale hanno tratto gran parte del loro insegnamento. Il timore di esaurire le informazioni ha inoltre spinto gli sviluppatori di intelligenza artificiale a ricorrere a dati "sintetici", creati dagli stessi chatbot e di qualità inferiore.

Grazie al supporto di donazioni illimitate da parte di Microsoft e OpenAI, il produttore di ChatGPT, l'Institutional Data Initiative, con sede ad Harvard , sta collaborando con biblioteche e musei di tutto il mondo per trovare il modo di rendere le loro collezioni storiche pronte per l'intelligenza artificiale, in modo da apportare benefici anche alle comunità che servono.

"Stiamo cercando di trasferire parte del potere attualmente nelle mani dell'intelligenza artificiale a queste istituzioni", ha affermato Aristana Scourtas, a capo della ricerca presso il Library Innovation Lab della Harvard Law School . "I bibliotecari sono sempre stati custodi di dati e informazioni".

Chatbot. Archivio Clarín.

Il dataset appena pubblicato da Harvard, Institutional Books 1.0, contiene oltre 394 milioni di pagine cartacee scansionate . Una delle opere più antiche risale al XV secolo: le riflessioni manoscritte di un pittore coreano sulla coltivazione di fiori e alberi. La maggiore concentrazione di opere risale al XIX secolo e riguarda argomenti quali letteratura, filosofia, diritto e agricoltura, tutti meticolosamente conservati e organizzati da generazioni di bibliotecari.

Migliorare la precisione

Promette di essere molto utile per gli sviluppatori di intelligenza artificiale che cercano di migliorare l'accuratezza e l'affidabilità dei loro sistemi.

"Molti dei dati utilizzati nell'addestramento dell'IA non provengono da fonti originali", ha osservato Greg Leppert, direttore esecutivo dell'iniziativa sui dati, nonché direttore tecnico del Berkman Klein Center for Internet & Society di Harvard, un'organizzazione focalizzata sullo studio del cyberspazio. Questa raccolta di libri copre "fino alla copia fisica scansionata dalle istituzioni che hanno effettivamente raccolto quei materiali", ha aggiunto.

Prima che ChatGPT scatenasse la frenesia commerciale nell'intelligenza artificiale, la maggior parte dei ricercatori di intelligenza artificiale non era particolarmente interessata alla provenienza dei passaggi di testo che estraevano da Wikipedia, forum di social media come Reddit e, a volte, da vasti archivi di libri piratati . Avevano solo bisogno di quelli che gli informatici chiamano token: unità di dati, ognuna delle quali può rappresentare un frammento di parola.

Chatbots.REUTERS/Dado Ruvic/Illustrazione

La nuova collezione di addestramento AI di Harvard conta circa 242 miliardi di token, una quantità difficile da comprendere per gli umani, ma che è solo una goccia nell'oceano di ciò che viene immesso nei sistemi di intelligenza artificiale più avanzati. Ad esempio, Meta, la società madre di Facebook, ha affermato che l'ultima versione del suo esteso modello linguistico di intelligenza artificiale è stata addestrata su oltre 30 trilioni di token estratti da testo, immagini e video.

Meta sta anche affrontando una causa da parte della comica Sarah Silverman e di altri autori pubblicati che accusano la società di aver rubato i loro libri da "biblioteche fantasma" di opere piratate.

Ora, con qualche riserva, le biblioteche reali impongono le loro condizioni.

Violazioni del copyright

OpenAI, che sta affrontando anche una serie di cause legali per violazione del copyright, quest'anno ha donato 50 milioni di dollari a un gruppo di istituti di ricerca, tra cui la Bodleian Library dell'Università di Oxford, risalente a 400 anni fa, che sta digitalizzando libri rari e utilizzando l'intelligenza artificiale per trascriverli.

Quando l'azienda si è rivolta per la prima volta alla Biblioteca pubblica di Boston, una delle più grandi degli Stati Uniti, la biblioteca ha chiarito che tutte le informazioni digitalizzate sarebbero state disponibili a tutti , ha affermato Jessica Chapel, direttrice dei servizi digitali e online.

"OpenAI era interessata a enormi quantità di dati di training. Noi siamo interessati a enormi quantità di oggetti digitali. Quindi, questo sembra essere un caso in cui gli interessi coincidono ", ha affermato Chapel.

La digitalizzazione è costosa. Ad esempio, la biblioteca di Boston ha dedicato un lavoro scrupoloso alla scansione e all'organizzazione di decine di giornali del New England in lingua francese, ampiamente distribuiti tra la fine del XIX e l'inizio del XX secolo tra le comunità di immigrati canadesi in Quebec. Ora che questo testo viene utilizzato per addestrare l'intelligenza artificiale, sta contribuendo a finanziare progetti che i bibliotecari desiderano comunque portare avanti.

Chatbots.REUTERS/Dado Ruvic/Illustrazione

La collezione di Harvard aveva già iniziato a essere digitalizzata nel 2006 per un altro gigante della tecnologia, Google, nell'ambito del suo controverso progetto di creare una biblioteca online consultabile con oltre 20 milioni di libri.

Google ha trascorso anni a respingere le cause legali degli autori sulla sua biblioteca online , che includeva molte opere recenti e protette da copyright. Ha finalmente trovato una soluzione nel 2016, quando la Corte Suprema degli Stati Uniti ha confermato le sentenze dei tribunali di grado inferiore che avevano respinto le denunce per violazione del copyright.

95 anni di protezione

Ora, per la prima volta, Google ha collaborato con Harvard per estrarre i volumi di Google Libri dal pubblico dominio e aprire la strada alla loro condivisione con gli sviluppatori di intelligenza artificiale. Negli Stati Uniti, la protezione del copyright dura in genere 95 anni, e più a lungo per le registrazioni audio.

La nuova iniziativa è stata applaudita dallo stesso gruppo di autori che ha fatto causa a Google per il suo progetto letterario e che più di recente ha citato in giudizio le aziende di intelligenza artificiale.

"Molti di questi titoli sono presenti solo sugli scaffali delle principali biblioteche, e la creazione e l'utilizzo di questo dataset amplieranno l'accesso a questi volumi e alla conoscenza che contengono", ha dichiarato Mary Rasenberger, direttrice esecutiva della Writers Guild, in una nota. "Soprattutto, la creazione di un dataset legale completo per la formazione democratizzerà la creazione di nuovi modelli di intelligenza artificiale".

Fotografia fornita da Google che mostra le due pagine di post di Gemini, il chatbot di intelligenza artificiale (IA) di Google. EFE/Google

Resta da vedere quanto tutto ciò sarà utile per la prossima generazione di strumenti di intelligenza artificiale , poiché i dati vengono condivisi sulla piattaforma Hugging Face, che ospita set di dati e modelli di intelligenza artificiale open source che chiunque può scaricare.

La collezione di libri è linguisticamente più diversificata rispetto alle tipiche fonti di dati dell'IA. Meno della metà dei volumi è in inglese, sebbene le lingue europee rimangano predominanti, in particolare tedesco, francese, italiano, spagnolo e latino.

Immensamente cruciale

Una raccolta di libri intrisa di pensiero del XIX secolo potrebbe anche rivelarsi "estremamente cruciale" per i tentativi dell'industria tecnologica di creare agenti di intelligenza artificiale in grado di pianificare e ragionare come gli esseri umani, ha osservato Leppert.

"All'università si trova un sacco di materiale didattico sul significato del ragionamento", ha osservato. "Si hanno molte informazioni scientifiche su come eseguire i processi e come effettuare le analisi".

Allo stesso tempo, ci sono anche molti dati obsoleti , che vanno da teorie scientifiche e mediche screditate a narrazioni razziste e coloniali.

"Quando si ha a che fare con un set di dati così ampio, sorgono alcune questioni spinose legate a contenuti e linguaggio dannosi", ha affermato Kristi Mukk, coordinatrice dell'Harvard Library Innovation Lab, secondo cui l'iniziativa mira a fornire indicazioni per mitigare i rischi dell'uso dei dati, "aiutando così gli utenti a prendere decisioni informate e a utilizzare l'intelligenza artificiale in modo responsabile".

Con informazioni dall'Associated Press.

Clarin

I chatbot dotati di intelligenza artificiale hanno bisogno di più libri per imparare e diverse biblioteche statunitensi sono disposte a prestarglieli.

Notizie simili

Kate Middleton svela gli adorabili nuovi membri della famiglia per il compleanno del principe William

Il proprietario dell'azienda di cosmetici Trendy ha sostenuto la riforma del lavoro.

Taylor Swift indossa una tuta celeste e una gonna a ballerina con Travis Kelce all'appuntamento a New York

Invima ha emesso un'allerta sanitaria per l'acqua micellare alla rosa Pomys: ecco i lotti interessati.

Yeferson Cossio e Yina Calderón recitano in un momento virale ai Medellín Icon Awards.