La Computer Vision, conosciuta anche come visione artificiale, rappresenta la capacità delle macchine di analizzare e interpretare immagini e video. Questa disciplina è uno dei motori principali dell’Intelligenza Artificiale applicata, e sta conoscendo una rapida espansione sia nella ricerca che nell’adozione industriale. Secondo i dati più recenti dell’Osservatorio Artificial Intelligence della School of Management del Politecnico di Milano, nel 2024 il mercato italiano dell’Intelligenza Artificiale ha raggiunto un valore pari a 1,2 miliardi di euro, con una crescita del +58% rispetto al 2022. Questo trend positivo si riflette anche sugli investimenti in ambiti innovativi come la Computer Vision, trainati dalla domanda di automazione, sicurezza, diagnostica avanzata e industria 4.0.
In questo articolo, grazie agli approfondimenti dell’Osservatorio Artificial Intelligence, scopriremo cos’è la Computer Vision, come funziona, quali sono le sue principali applicazioni, le opportunità e le criticità legate al suo utilizzo.
Cos’è la Computer Vision
La Computer Vision o visione artificiale è un campo di studi interdisciplinare che studia algoritmi e tecniche per permettere ai computer di riprodurre funzioni e processi dell’apparato visivo umano. Non si tratta solo di riuscire a riconoscere oggetti, persone o animali all’interno di un’immagine singola o in sequenza (video), ma soprattutto di estrarre informazioni utili per la loro elaborazione, a livelli sempre più alti di astrazione e comprensione. In altre parole, si tratta della capacità di ricostruire un contesto intorno all’immagine, dandole un vero e proprio significato.
Per poter funzionare correttamente, i sistemi di visione artificiale hanno bisogno di essere addestrati con una grande quantità di immagini. Tali immagini, opportunamente etichettate, sono fondamentali per insegnare agli algoritmi a identificare pattern, categorie ed elementi rilevanti per i diversi compiti.
Come funziona la Computer Vision
L’attenzione verso la Computer Vision negli ultimi anni è fortemente cresciuta l’attenzione negli ultimi anni, grazie alla diffusione di immagini e video digitali e all’avvento di tecniche sempre più avanzate di Machine Learning. L’apprendimento automatico ha infatti permesso di raggiungere prestazioni paragonabili a quelle umane.
Ma, nella pratica, come funziona la Computer Vision? Come avviene il riconoscimento immagini di una macchina?
Gli algoritmi di Visione Artificiale possono effettuare indagini più o meno approfondite su un’immagine, a seconda delle tecniche utilizzate, della tipologia di immagine e del tipo di task effettuato. Tra i possibili task si individuano:
- Image Classification: analisi del contenuto dell’immagine e attribuzione di un’etichetta (es. cane, gatto);
- Object Detection: identificazione di una o più entità all’interno di un’immagine;
- Image Segmentation: suddivisione dell’immagine in sezioni (es. per evidenziare i pixel di un referto medico in cui si riscontra un tumore);
- Face Recognition: riconoscimento di volti di persone;
- Action Recognition: identificazione di una o più entità e della loro relazione nel tempo e nello spazio, al fine di identificare e descrivere azioni specifiche (es. un calciatore che colpisce il pallone di testa);
- Visual Relationship Detection: comprensione della relazione tra gli oggetti in un’immagine;
- Emotion Recognition: rilevamento del sentimentdi un’immagine;
- Image Editing: modifiche a un’immagine (es. oscuramento di dati sensibili).
Tra queste, attualmente le imprese rivolgono l’attenzione principalmente a soluzioni di Image Classification e Object Detection.
Le origini e l’evoluzione della Visione Artificiale
La Computer Vision ha radici che affondano nei primi anni ’60, quando i pionieri dell’informatica iniziarono a esplorare la possibilità di dotare le macchine della capacità di “vedere”. Il primo tentativo significativo risale al 1966, quando il ricercatore del MIT Seymour Papert avviò il “Summer Vision Project”, con l’ambizioso obiettivo di creare un sistema capace di riconoscere oggetti nelle immagini. Quello che sembrava un traguardo raggiungibile in pochi mesi si rivelò invece una sfida decennale.
Gli anni ’70 e ’80 videro progressi incrementali nella visione artificiale, con lo sviluppo di algoritmi per il rilevamento di bordi e forme, ma le limitazioni hardware e la complessità matematica rallentarono l’avanzamento. È solo negli anni ’90, con l’introduzione di approcci statistici e l’aumento della potenza di calcolo, che la Computer Vision iniziò a mostrare risultati promettenti in applicazioni reali.
La vera rivoluzione, tuttavia, è avvenuta nel 2012 con la vittoria schiacciante di AlexNet, una rete neurale convoluzionale (CNN), nella competizione ImageNet. Questo momento segnò l’inizio dell’era moderna della Computer Vision, dominata dal Deep Learning. Da allora, i progressi sono stati esponenziali, portando a sistemi capaci di superare le performance umane in compiti specifici di riconoscimento visivo, aprendo la strada alle molteplici applicazioni che oggi trasformano industrie, medicina, sicurezza e la nostra vita quotidiana.
Le applicazioni di Computer Vision
La Computer Vision è una tecnologia trasversale che trova impiego in numerosi settori, rivoluzionando molti processi aziendali e migliorando la qualità delle soluzioni offerte. Ecco alcuni dei più rilevanti ambiti di applicazione:
Manifattura e Industria 4.0
Le aziende integrano la Computer Vision direttamente sulle linee di produzione per:
- svolgere manutenzione predittiva, monitorando lo stato dei macchinari per prevenire guasti e ottimizzare la produttività;
- effettuare controlli di qualità automatizzati, rilevando difetti sui prodotti in fase di assemblaggio o confezionamento;
- garantire la sicurezza sul lavoro, identificando situazioni di pericolo e segnalando comportamenti non conformi degli operatori.
Sanità e Telemedicina
Sistemi di visione artificiale analizzano immagini mediche (come radiografie, TAC, risonanze magnetiche) per supportare i medici nella diagnosi precoce di patologie e nel monitoraggio dei pazienti, migliorando l’efficacia e la rapidità delle cure.
Sorveglianza intelligente e sicurezza
Le videocamere basate su Computer Vision sono utilizzate per la videosorveglianza smart, il rilevamento automatico di intrusioni, incidenti o comportamenti sospetti in ambienti pubblici, privati e nei trasporti.
Retail e grande distribuzione
La visione artificiale aiuta ad analizzare il comportamento dei clienti nei negozi, gestire in modo intelligente la disposizione dei prodotti sugli scaffali e ottimizzare le operazioni di magazzino.
Mobilità e automotive
Le soluzioni di Computer Vision sono fondamentali per la guida autonoma (autonomous driving), il riconoscimento dei segnali stradali, il monitoraggio del traffico e la prevenzione degli incidenti.
Agricoltura di precisione
Sistemi di visione artificiale analizzano immagini satellitari o riprese da droni per monitorare lo stato delle colture, identificare malattie delle piante e ottimizzare l’uso delle risorse.
Computer Vision: un esempio in ambito manifatturiero
A dimostrazione di quanto detto sulle applicazioni industriali della Computer Vision, riportiamo il caso della Gnutti Carlo S.P.A.. L’azienda manifatturiera ha sviluppato un progetto di automazione per l’identificazione delle non conformità di un componente per motori automotive. Il processo di controllo veniva svolto da personale addestrato e risultava dispendioso. Per tale ragione, dopo aver sperimentato tecniche di visione classica, l’azienda ha scelto di sfruttare l’AI e le sue potenzialità. Ha dunque adottato una soluzione di Computer Vision per identificare e classificare le anomalie presenti sulla superficie del componente meccanico.
Computer Vision e Deep Learning
I notevoli progressi che la Computer Vision sta registrando sono dovuti principalmente allo sviluppo delle tecniche di Deep Learning, il ramo più evoluto del Machine Learning.
Esistono diverse modalità con cui un’architettura di visione artificiale può estrarre informazioni dalle immagini scelte singolarmente o combinate a seconda delle esigenze dell’analisi. Queste sono l’Hand Crafted Features, la Computer Vision Features e la Data Driven Features.
L’Hand Crafted Features e si basa sul concetto che gli algoritmi possano estrarre e definire ciò che è rilevante nell’immagine (es. uno specifico colore/forma, area, grandezza). La seconda modalità, la Computer Vision Features, si fonda sulla suddivisione dell’immagine in piccole regioni per permettere un’analisi più approfondita. La vera frontiera della visione artificiale, però, sono le tecniche basate su Data Driven Features. Queste permettono il riconoscimento e la classificazione delle immagini (anche naturali) senza dover progettare la fase di estrazione dei features che viene svolta da particolari reti neurali: le reti neurali convoluzionali.
A loro volta, le reti neurali convoluzionali utilizzate per la classificazione delle immagini – che hanno contributo notevolmente allo sviluppo del Deep Learning – sono i principali esempi di Deep Neural Networks. Queste reti sono costituite da un elevato numero di layer (ossia strati di calcolo) e riescono a raggiungere dimensioni significative. Le reti deep sono altamente efficaci per l’analisi di immagini naturali e si prestano molto bene al transfer learning (ossia un insieme di tecniche che permette di riutilizzare reti addestrate in precedenza su grandi asset di dati, per risolvere task differenti e tipicamente più specifici).
Generative AI e Computer Vision
L’Intelligenza Artificiale Generativa nel campo della Computer Vision ha aperto nuove possibilità per la creazione e l’analisi di contenuti visivi. Sfruttando le tecniche di Generative AI, gli algoritmi di visione artificiale possono apprendere e formulare previsioni da un’ampia gamma di dati, risultando in un’analisi visiva più precisa e robusta.
La generazione di immagini sintetiche è difatti utile per ampliare i dataset di addestramento e accrescere la diversità dei dati. Si pensi ad esempio all’Object Detection o Face Recognition. In questo contesto la GenAI può creare immagini sintetiche simulando varie condizioni di luminosità, occlusioni o varie prospettive. Anche la metadatazione può subire benefici dalla Generative AI. Soluzioni di Computer Vision abbinate agli LLM (Large Language Model) possono ottimizzare il tagging delle immagini o la loro descrizione.
Infine, parlando di generazione di immagini non si può non citare il recente traguardo raggiunto da OpenAI (società proprietaria di ChatGPT) con il rilascio del suo modello Sora. Si tratta di un modello Text-to-video, basato su complesse reti neurali, in grado di realizzare filmati in alta risoluzione con immagini realistiche e dettagliate semplicemente partendo da un prompt di testo (ossia dall’istruzione data dall’utente alla piattaforma).
I rischi legati alla Computer Vision
Lo sviluppo di soluzioni di Computer Vision, nonostante i notevoli progressi, comporta ancora sfide significative e rischi che meritano un’attenta considerazione. Questi non sono semplici ostacoli tecnici, ma questioni fondamentali che possono determinare l’affidabilità e l’eticità di questi sistemi.
Ambiguità intrinseca delle immagini
- Nell’Image Classification un’immagine potrebbe contenere elementi che la rendono associabile a molteplici categorie. L’algoritmo deve quindi essere in grado di attribuire l’etichetta più adeguata in base al contesto e all’obiettivo specifico dell’applicazione.
- Nell’Image Segmentation, oltre a individuare le entità all’interno dell’immagine, occorre delimitarle con precisione e analizzarle singolarmente. Si tratta di una complessità che aumenta esponenzialmente in scene affollate o con oggetti parzialmente sovrapposti.
Bias nei dati di addestramento
- I sistemi di Computer Vision possono anche e amplificare pregiudizi presenti nei dati di addestramento. Ad esempio, algoritmi addestrati principalmente su immagini di persone con determinate caratteristiche etniche potrebbero avere prestazioni significativamente inferiori quando applicati a gruppi sottorappresentati, portando a discriminazioni algoritmiche con impatti reali su individui e comunità.
Privacy e tutela dei dati
- La privacy rappresenta un’altra area di preoccupazione crescente.
- Le tecnologie di riconoscimento facciale, in particolare, sollevano interrogativi sulla sorveglianza di massa e sul potenziale uso improprio da parte di governi o aziende private. L’identificazione automatica di individui in spazi pubblici, senza esplicito consenso, sfida i principi fondamentali della privacy in molte società democratiche.
Criticità tecniche nell’implementazione
- Necessità di creare un dataset sufficientemente ampio e rappresentativo per l’addestramento dell’algoritmo, evitando distorsioni sistematiche.
- L’algoritmo deve saper riconoscere le immagini anche in presenza di trasformazioni (es. condizioni di luminosità non ottimale, deformazione o copertura parziale del soggetto, variazioni di scala). Si parla in questo caso di robustezza.
- I sistemi di Computer Vision possono risultare vulnerabili ad attacchi avversari: minime perturbazioni delle immagini, impercettibili all’occhio umano, possono indurre classificazioni completamente errate.
- La trasparenza e l’interpretabilità dei modelli sono fondamentali, soprattutto nelle applicazioni ad alto rischio (come la diagnostica medica o la sicurezza): è importante poter comprendere il ragionamento seguito dall’algoritmo nelle sue decisioni, per garantire affidabilità e fiducia nell’automazione.
Affrontare questi rischi richiede un approccio multidisciplinare che combini innovazione tecnica, considerazioni etiche e quadri normativi adeguati, per garantire che la Computer Vision porti benefici alla società senza compromettere valori fondamentali.
Contenuti suggeriti dell’Osservatorio Artificial Intelligence