L’Intelligenza Artificiale legge più libri degli italiani

Il mercato editoriale in Italia rappresenta ancora il primo comparto culturale per fatturato, di almeno 3,125 miliardi di euro.

Abbiamo deciso di approfondire il ruolo dell’intelligenza artificiale nel mondo editoriale. Simonetta Montemagni, dell’Istituto di linguistica computazionale Zampolli del CNR di Pisa, con Fabio Ferri di Mondadori e Paolo Ongaro di Gruppo Meta, si sono occupati di relazionare questa materia a The Publishing Fair.

Il dibattito a Torino ha affrontato gli ambiti editoriali in cui l’IA ha avuto applicazione in editoria e le conseguenze tecniche che si generano nell’incontro. Montemagni, in particolare, ha rilevato come questo argomento sia al centro della riflessione editoriale internazionale, fatto dimostrato anche dal white paper pubblicato da Gould Finch and Frankfurter Buchmesse.

Editoria e Intelligenza Artificiale: un rapporto fruttuoso

Abbiamo contattato Andrea Bolioli di CELI-Language Technology per saperne di più su Intelligenza Artificiale e tecnologie del linguaggio.

L’azienda Celi opera nel settore dell’Intelligenza Artificiale e delle tecnologie del linguaggio. Quali sono le applicazioni nel mondo editoriale?

Le tecnologie del linguaggio consentono di analizzare in modo (semi)automatico i testi scritti: sia le collezioni molto grandi che non potrebbero essere analizzate a mano (come ad esempio un grande archivio storico di un giornale, tutti i testi di una biblioteca, tutta la base dati documentale di un editore specialistico), sia singole opere in modo molto approfondito (ad esempio annotando automaticamente le citazioni contenute, i luoghi, i personaggi, oltre ai termini più frequenti, le relazioni sintattiche nelle frasi…). Si tratta quindi di lavori che non potrebbero essere fatti solo da persone fisiche, perché richiederebbero troppo tempo e la gestione di volumi di informazioni che le persone non possono affrontare. Non sono però operazioni solamente automatiche; richiedono necessariamente l’intervento dei professionisti del settore e del dominio particolare che viene affrontato.

Può spiegarmi il progetto dell’Annotazione Semantica per le edizioni digitali e di Librare?

Il progetto sull’Annotazione Semantica è stato realizzato con l’Università di Torino e riguardava le cosiddette scholarly digital editions. Il progetto di ricerca Librare è stato realizzato insieme a molte scuole, del Piemonte e non solo, e riguardava le biblioteche scolastiche, la lettura tradizionale e con strumenti digitali.

Che futuro può avere il libro con l’Intelligenza Artificiale?

Credo che per le persone il libro sia come il disco di vinile, cioè un oggetto culturale per appassionati del genere. Poche persone leggono complessivamente pochi libri. I sistemi di AI invece “leggono” moltissimi libri e iniziano a capirli, oltre ovviamente a ricordarli. Leggono anche i post, le pagine web, le chat, e non solo. Non so prevedere come sarà la lettura in futuro. È un tema affascinante di cui si sono occupati studiosi eccellenti.

I sistemi di Intelligenza Artificiale stanno modificando esigenze degli utenti e prospettive di mercato. I risultati potrebbero abbattere i costi dell’editoria e aiutare il business della lettura?

In estrema sintesi, credo di no. Sono personalmente molto appassionato dal tema della lettura, credo nella sua utilità sociale ed educativa, oltre al fascino e al divertimento che suscita in noi lettori. Più in generale, sono appassionato di semiotica. Credo anche che il web sia una grandissima biblioteca e che gli umanisti e gli editori abbiano lasciato troppo spazio alle aziende ICT in un campo che non era il loro. In questo momento l’IA secondo me non è interessata alla lettura, ma alla gestione di immagini e video, all’interazione vocale (sistemi di dialogo), e più in generale allo sviluppo di sistemi predittivi basati sulla disponibilità di molti dati e informazioni.

L’Italia è al passo con la ricerca in tema IA, rispetto agli altri Paesi?

Il tema è articolato e difficile da sintetizzare in poche righe, ma posso dire che in Italia la ricerca IA è al passo con quella degli altri Paesi del mondo. Conosco diversi ricercatori italiani che sono andati a lavorare in centri di ricerca di università o grandi aziende internazionali dopo aver lavorato in centri di ricerca in Italia. Semplificando, si può dire che nell’IA di questi anni contano le dimensioni, la potenza di calcolo, la quantità di informazioni disponibili. Grandi aziende e grandi università in Cina e negli USA hanno più potenza di calcolo e più informazioni (dati) rispetto ad aziende e università più piccole.

Il trattamento del linguaggio naturale e le recommendation

“L’IA interviene nel trattamento del linguaggio naturale e permette l’accesso al contenuto testuale”, ci spiega Enrico Lanfranchi, consulente editoriale esperto in transizione al digitale. “Gli strumenti di analisi linguistica riconoscono le parti grammaticali e sintattiche della frase, dalle quali verranno così estratte entità nominate. L’NLP permette di individuare gli elementi rilevanti di contenuto e di estrarre relazioni fra i singoli elementi, permettendo di organizzare e rappresentare la conoscenza con la costruzione di veri e propri grafi.”

Il Natural Language Processing (NLP), in italiano “elaborazione del linguaggio naturale”, è un processo che prevede diverse fasi, poiché le caratteristiche del linguaggio umano sono innumerevoli. I primi sistemi sviluppati, che venivano definiti SHRDLU, lavoravano con vocabolari ristretti ottenendo risultati ottimali. Successivamente, i sistemi si ritrovarono a far fronte a situazioni più realistiche che evidenziavano un’interazione complessa e ambigua.

Nel frattempo i progressi raggiunti in questo campo sono importanti. L’ambito nel quale lavora l’NLP abbraccia la ricerca interdisciplinare tra informatica, Intelligenza Artificiale e linguistica, al fine di comprendere realmente, attraverso algoritmi studiati, il linguaggio naturale scritto o parlato. Viene fornita la struttura sintattica del testo e in secondo luogo la semantica.

Altro ambito è il mondo delle recommendation. Il loro scopo è selezionare i contenuti per poterli sottoporre all’attenzione del lettore-acquirente. Non solo consigli di lettura: nelle piattaforme digitali stabiliscono connessioni logiche fra contenuti diversi, siano essi di carattere didattico, enogastronomico, turistico o medico.

“La crescita del pubblico che partecipa ai mezzi digitali – continua Enrico Lanfranchi – ha reso l’assistenza ai clienti un punto cruciale. Nascono così i sistemi di chatbot e di user interaction, che sono in grado di rispondere alle domande di clienti e utenti. L’IA interviene nelle fasi della produzione editoriale: se in ambito della traduzione si è passati da risultati scadenti nei primi anni Duemila, oggi la qualità della traduzione supera il 93% per l’italiano e il 95% per l’inglese.”

“La vera novità dell’intervento dell’IA nella fase di stesura e creazione dei testi è più vicina a forme di intelligenza umana assistita. Un primo contributo può essere dato nella fase di redazione degli indici, vero tormento per i redattori poiché richiede un lavoro di grande precisione. Nasce così il progetto Indexact, strumento per la redazione di indici mediante sistemi di IA: vengono riconosciuti i singoli elementi, raggruppati in base alle caratteristiche e filtrati in base al tipo di opera con le pagine da indicizzare e da escludere, ottenendo la costruzione di indici dei nomi, dei luoghi e indici analitici di tipo tematico. L’autore umano ha dunque enormi facilitazioni nel collegare le informazioni, nell’analizzarne la qualità e nel costruire testi più efficaci e utili in base all’argomento che gli interessa.”

Ricerca sull’IA: l’Italia è al passo degli altri Paesi?

“Si parla di robotica”, afferma Enrico Lanfranchi, “e su questo l’Italia ha sicuramente delle eccellenze sia in ambito universitario sia industriale, ma si parla anche di intelligence (intesa come controllo sociale): in questo caso spero proprio che l’Italia non eccella, perché si tratta di strategie che spesso possono confinare con il controllo delle attività dell’uomo a fini politici, non a fini della crescita personale e sociale. Lascio volentieri questa eccellenza a nazioni di stampo autoritario di tipo orwelliano”.

“Forse potremmo dire – continua Lanfranchi – che le eccellenze italiane rispecchiano le caratteristiche della nazione: sicuramente sul fronte linguistico e culturale l’Italia è in grado di esprimere con l’IA capacità e tecnologie avanzatissime perché ha un patrimonio museale, culturale, turistico ed enogastronomico che non ha pari al mondo.”

“Come ha sottolineato la professoressa Montemagni durante l’incontro, sul fronte culturale e linguistico le ricerche ora si stanno rivolgendo verso delle sistematizzazioni e generalizzazioni che superino le specificità di una singola lingua per avere un valore più generale: ovviamente sul fronte della generalizzazione vincono le ricerche di chi ha più interesse ad avere strumenti generici, universali.”

Lanfranchi conclude: “Nei prossimi anni vedremo ulteriori accelerazioni legate agli investimenti (per ora abbastanza modesti) in ambito industriale, e agli investimenti ben più ampi legati ai progetti di ricerca europea. Riprendendo un tema caro a famosi studiosi di IA, a me piace pensare che stiamo progettando non tanto dei sistemi di Intelligenza Artificiale, ma dei sistemi di Intelligenza Assistita legata agli interessi della nostra società. Grazie a queste forme di assistenza ciò che una singola mente non potrebbe dominare (il patrimonio artistico, culturale, scientifico) può essere oggi maggiormente controllato e guidato grazie alla potenza di questi strumenti.”

Gregorio Pellegrino e la descrizione automatica delle immagini per ipovedenti

Gregorio Pellegrino, Chief Accessibility Officer della Fondazione LIA, ha prodotto insieme a Tommaso Dringoli, studente al Master in Editoria dell’Università di Siena, pubblicazioni digitali accessibili agli utenti che hanno difficoltà con la lettura della stampa.

“In collaborazione con un editore didattico – ci spiega Pellegrino – che desiderava creare un progetto pilota di un libro di testo, abbiamo avuto l’opportunità di affrontare questo impegnativo problema per creare una pubblicazione completamente accessibile di un libro di layout complesso. È così che abbiamo iniziato a chiederci come potremmo semplificare e possibilmente automatizzare il processo di descrizione delle immagini.”

“Il progetto pilota sulla generazione automatica di descrizioni alternative di immagini attraverso l’uso di tecnologie di Intelligenza Artificiale, presentato in occasione del Digital Publishing Summit 2019 di Parigi, rientra nell’ambito delle attività di ricerca e sviluppo che la Fondazione svolge, spesso in collaborazione con università o centri di ricerca italiani. Come Chief Accessibility Officer della Fondazione LIA, ingegnere informatico e appassionato di tecnologia, sono molto affascinato dall’approccio all’apprendimento automatico e all’Intelligenza Artificiale che sta caratterizzando sempre più la ricerca scientifica, un’area sulla quale sono stato formato e informato negli ultimi anni.”

“Partendo da queste considerazioni, abbiamo sviluppato un progetto di ricerca in collaborazione con Tommaso Dringoli, laureato dell’Università di Siena, per testare l’utilizzo di alcuni algoritmi di intelligenza artificiale disponibili sul mercato al fine di generare automaticamente la descrizione alternativa delle immagini nel campo dell’editoria digitale. Il progetto della Fondazione LIA si prefigge l’obiettivo di dare la possibilità agli oltre 362.000 non vedenti e agli 1,5 milioni di ipovedenti italiani di accedere agli stessi titoli di narrativa e saggistica negli stessi tempi e modi di un qualsiasi altro lettore. Il progetto è stato coordinato dall’Associazione Italiana Editori e finanziato dal Ministero per i Beni e le attività culturali del Turismo.”

La saldatura non semplice tra Intelligenza Artificiale e intelligenza umana

A questo punto, domando a Gregorio Pellegrino a quale conclusione sia giunto attraverso i suoi esperimenti, e se l‘Intelligenza Artificiale può aumentare quella umana.

“Mi sono chiesto come utilizzare l’Intelligenza Artificiale per automatizzare la descrizione alternativa delle immagini nel mondo dell’editoria, anche tenendo conto che i grandi operatori tecnologici (Microsoft, Google, Amazon, Facebook…) hanno iniziato a offrire servizi basati su reti neurali artificiali e machine learning per aggiungere la descrizione automatica delle fotografie pubblicate sulle loro piattaforme. Rispetto all’utilizzo in altri settori, ci siamo resi conto che la complessità delle immagini nel mondo dell’editoria è elevata, e quindi le normali soluzioni disponibili sul mercato non bastano da sole.”

“Ci siamo resi conto che al momento non esiste un servizio così forte in grado di creare descrizioni appropriate per tutte le categorie di immagini che abbiamo identificato. Questo è un aspetto molto importante da considerare, in quanto la maggior parte del contenuto grafico e delle immagini disponibili nei libri di layout complessi (libri scolastici, pubblicazioni accademiche, scientifiche e professionali), non sono fotografie, ma disegni o illustrazioni come grafiche, infografiche, immagini complesse, diagrammi, schemi scientifici, schemi scientifici; per questi tipi di immagini è necessaria una nuova generazione di algoritmi.”

“Il potenziale di questa tecnologia è chiaro”, conclude Pellegrino, “e attraverso l’uso di algoritmi migliorati, set di dati ampliati e forse analizzando l’immagine nel contesto di qualsiasi testo circostante, l’accuratezza e la qualità delle descrizioni di immagini generate automaticamente ha il potenziale per migliorare in modo significativo, e offre promesse per il futuro.”