Il Natural Language Processing in breve
- Il Natural Language Processing (NLP) è un insieme di algoritmi di Intelligenza Artificiale che permette alle macchine di comprendere, analizzare e generare il linguaggio umano, trovando applicazione in correttori ortografici, traduttori automatici, chatbot e assistenti virtuali.
- Le applicazioni aziendali dell’NLP spaziano dall’analisi automatica di email e documenti alla comprensione del sentiment sui social media, fino alla ricerca intelligente di informazioni in grandi archivi documentali.
- L’arrivo dei Large Language Model (LLM) e dell’AI Generativa ha aperto nuovi scenari, soprattutto nella Smart Search e nella creazione di chatbot capaci di dialogare su documenti specifici aziendali.
- Le principali sfide per l’italiano riguardano la scarsità di dataset di addestramento e la complessità della lingua, con i suoi modi di dire, dialetti e sfumature di significato difficili da catturare per le macchine.
Attraverso la Ricerca dell’Osservatorio Artificial Intelligence del Politecnico di Milano vedremo in questo articolo cos’è l’NLP, ovvero il Natural Processing Language, come funziona e i principali utilizzi.
Cosa si intende per NLP (Natural Language Processing)?
Per NLP (acronimo di Natural Language Processing) o elaborazione del linguaggio naturale si intendono algoritmi di Intelligenza Artificiale in grado di analizzare, rappresentare e quindi comprendere il linguaggio naturale. Le finalità possono variare dalla comprensione del contenuto, alla traduzione, fino alla produzione di testo in modo autonomo a partire da dati o documenti forniti in input.
Correttori ortografici, sistemi di traduzione automatici e assistenti virtuali sono solo alcune delle applicazioni di NLP che usiamo nella vita quotidiana.
A differenza dei linguaggi di programmazione, che seguono regole ben precise e sono facilmente interpretabili dalle macchine, la lingua da noi utilizzata non è facilmente rappresentabile. Poiché interagiamo con le macchine quotidianamente, però, è necessario creare sistemi in grado di comprendere e rispondere all’uomo. Ed è qui che entra in gioco la linguistica computazionale. Si tratta dello studio di sistemi informatici per l’analisi e l’elaborazione del linguaggio naturale, e si concentra sul funzionamento del linguaggio naturale in modo da elaborare programmi eseguibili dalle macchine.
Come funziona il Natural Language Processing
L’NLP si occupa principalmente di testi, intesi come sequenze di parole che in una lingua esprimono uno o più messaggi (es. pagine web, post, tweet, log, informazioni aziendali). L’elaborazione del parlato (riconoscimento vocale) è considerato un ambito a sé.
Il dialogo tra uomo e macchina coinvolge diversi aspetti, quali fonetica, fonologia, morfologia, sintassi, semantica, pragmatica e il discorso nel suo complesso. Di conseguenza, sono numerosi i task di NLP che automatizzano queste aree, ad esempio compiti semplici come:
- il riconoscimento della lingua;
- la scomposizione della frase in unità elementari;
- l’analisi semantica;
- l’analisi del sentiment.
Per svolgere questi compiti, le imprese adottano numerosi task di NLP:
- Text Analysis: analisi di un testo e, laddove richiesto, individuazione di elementi chiave (es. argomenti, persone, date);
- Text Classification: interpretazione di un testo per classificarlo in una categoria predefinita (es. spam);
- Sentiment Analysis: rilevamento dell’umore all’interno di un testo (es. recensione positiva/negativa);
- Intent Monitoring: comprensione del testo per prevedere comportamenti futuri (es. la volontà di acquisto da parte di un cliente);
- Smart Search: ricerca, all’interno di archivi, dei documenti che meglio corrispondono ad un’interrogazione posta in linguaggio naturale;
- Text Generation: generazione automatic di un testo;
- Automatic Summarization: produzione di una versione sintetica di uno o più documenti testuali;
- Language Translation: traduzione di testi scegliendo, volta per volta, il significato migliore a seconda del contesto.
Quali sono le applicazioni dell’NLP
Le imprese sono sempre più interessate alle soluzioni di NLP, o Natural Language Processing. Sono diverse le opportunità di business dei sistemi di elaborazione del linguaggio naturale per il business:
- analisi di e-mail aziendali, ad esempio per riconoscere messaggi indesiderati e classificare per argomento la posta in arrivo);
- estrazione di informazioni da documenti di governance, quali report e procedure, per garantirne una rapida consultazione;
- progetti per l’analisi di documenti amministrativi, quali fatture e contratti, e soluzioni per l’analisi delle comunicazioni interne all’azienda quali mail di help-desk;
- analisi di post sui Social Network, ad esempio per comprendere il sentiment degli utenti e consolidare la brand reputation dell’azienda);
- algoritmi per comprendere le query di navigazione nei siti web e reindirizzare correttamente la ricerca;
- soluzioni per l’analisi di notizie giornalistiche, per riconoscere le fake news, per esempio.
Quali sono i vantaggi dell’NLP per le aziende
L’adozione di soluzioni di Natural Language Processing porta con sé una serie di benefici concreti per le organizzazioni:
- automazione dei processi: analizzare migliaia di email, documenti o recensioni diventa questione di pochi secondi invece che di ore o giorni, riducendo la necessità di intervento umano costante e dispendioso;
- estrazione di insight da dati non strutturati: le aziende possono comprendere meglio le esigenze dei clienti, individuare trend emergenti e prendere decisioni più informate basandosi su evidenze concrete piuttosto che su intuizioni;
- miglioramento dell’esperienza utente: chatbot e assistenti virtuali possono rispondere in tempo reale alle richieste, sistemi di Smart Search permettono di trovare informazioni rilevanti più velocemente, e strumenti di traduzione automatica abbattono le barriere linguistiche;
- maggiore efficienza e soddisfazione: tutto questo si traduce in un servizio più efficiente e in una maggiore soddisfazione da parte di clienti e dipendenti.
Quali sono le sfide delle soluzioni di NLP in Italia
Nonostante il potenziale, l’adozione di soluzioni NLP nel nostro Paese procede ancora a rilento. Le organizzazioni che hanno iniziato a implementare questi sistemi si sono scontrate con alcune difficoltà significative:
- Scarsità di dataset: il primo ostacolo è la mancanza di dataset già pronti per addestrare i motori di Intelligenza Artificiale sulla lingua italiana. Preparare un dataset adeguato richiede investimenti considerevoli di tempo e risorse. Alcune imprese utilizzano dati proprietari, che però devono essere puliti ed etichettati accuratamente prima del training. Non mancano comunque acquisti di dati da provider specializzati e collaborazioni con altri attori della filiera, quali Vertical Solution Provider, consulenti o System Integrator.
- Mancanza di competenze specifiche: un’altra criticità riguarda la necessità di competenze interne specializzate, non sempre facili da reperire sul mercato del lavoro.
- Complessità della lingua italiana: l’italiano rappresenta una sfida particolare. È una lingua complessa, caratterizzata da modi di dire, espressioni gergali e influenzata da numerosi dialetti. Gli algoritmi di NLP faticano quindi a garantire prestazioni paragonabili a quelle ottenute con l’inglese.
- Comprensione delle sfumature: forse l’ostacolo più complesso è capire ironia, sarcasmo e doppi sensi. Interpretare il sentiment reale di un testo e dedurne il significato profondo resta una delle frontiere più difficili da conquistare. Ed è proprio qui che si gioca una delle sfide principali per il futuro dell’NLP: sviluppare un Quality Natural Language Understanding, cioè la capacità di riconoscere il contesto, l’ironia e applicare il buon senso come farebbe un essere umano.
L’evoluzione tecnologica dell’NLP: dal Machine Learning alle reti neurali
Il passato, il presente, ma soprattutto il futuro del NLP si intrecciano con le tecniche di Machine Learning (o apprendimento automatico) e Deep Learning (o apprendimento approfondito).
Negli anni Novanta nasce il Natural Language Processing statistico, un insieme di approcci basati sull’utilizzo di Machine Learning, quindi sull’apprendimento dai dati, che hanno la capacità di arricchire il modello alla loro base a fronte di ulteriori dati.
Intorno agli anni 2000, e soprattutto nell’ultimo decennio, l’introduzione delle reti neurali artificiali ha rivoluzionato il campo. In particolare, le reti neurali ricorrenti (RNN – Recurrent Neural Networks) e le loro varianti più avanzate, come le LSTM (Long Short-Term Memory), si sono rivelate particolarmente efficaci nell’elaborazione del linguaggio. Queste architetture sono in grado di “ricordare” le informazioni delle parole precedenti mentre analizzano quelle successive, catturando così le dipendenze a lungo termine tipiche del linguaggio naturale.
Più recentemente, l’architettura Transformer ha segnato un’ulteriore svolta. Introdotta nel 2017 con il meccanismo di “attention“, questa tecnologia permette ai modelli di concentrarsi sulle parti più rilevanti del testo, elaborando le informazioni in modo parallelo invece che sequenziale. È proprio grazie ai Transformer che sono nati i moderni Large Language Model.
Oggi l’NLP ci pone di fronte all’analisi di frasi complesse, che per essere interpretate correttamente devono essere scomposte in unità elementari: le parole. Oltre all’analisi della singola parola, è necessaria la comprensione della semantica dell’intera frase. Da un punto di vista tecnico, per passare dalla dimensione di analisi della singola parola alla comprensione della frase nel suo complesso (Natural Language Understanding), sono principalmente tre i task da prendere in considerazione:
- Word Sensing Disambiguation: associare alle parole, nel contesto, i corretti significati (es. nei motori di ricerca online);
- Semantic Role Labeling: portare l’attenzione su una parola e cercare di evidenziare lo scenario di utilizzo e identificare i ruoli all’interno della frase (es. per eseguire comandi in ambito Smart Home);
- Semantic Parsing: trasformare il testo in una rappresentazione semantica strutturata (nella pratica, rispondere a domande data una specifica frase e una collezione di documenti)
In un contesto dove le capacità dell’NLP sono sempre più rafforzate dal il Deep Learning, nel 2017 è si è registrato un traguardo importante nel mondo dell’interpretazione del linguaggio naturale con l’arrivo dell’AI Generativa.
NLP, AI Generativa e Smart Search: quali sono i nuovi scenari degli LLM
L’AI Generativa ha potenziato diverse applicazioni di Natural Langue Processing attraverso i primi LLM rilasciati da OpenAI. Se traduzione, riassunto e scrittura di testi sono state le prime aree in cui sono stati sperimentati questi modelli, oggi grandi aspettative sono rivolte nella Smart Search. Si tratta di una tecnologia progettata per comprendere le richieste degli utenti in modo più accurato, fornendo risultati pertinenti al contesto e personalizzati sulle preferenze individuali.
Per migliorare la Smart Search il passo successivo a cui si sta lavorando è quello di far dialogare un LLM sul contenuto di documenti che non gli sono stati precedentemente forniti nei suoi dati di addestramento. In questo modo si avrà un chatbot in grado di dialogare sulla base di documenti specifici, recuperando le informazioni in essi contenute per una migliore gestione della Knowledge base aziendale.
Contenuti suggeriti dell’Osservatorio Artificial Intelligence