Computer Vision: definizione, funzionamento e applicazioni

Carlo Negri

Direttore dell'Osservatorio Space Economy e Ricercatore degli Osservatori AI e Intelligent Business Process Automation

Indice degli argomenti

La Computer Vision in breve:

La Computer Vision, o visione artificiale, rappresenta la capacità delle macchine di analizzare e interpretare immagini e video
Si tratta di uno dei motori principali dell’Intelligenza Artificiale applicata, in rapida espansione sia nella ricerca che nell’adozione industriale
Nel 2025 il mercato italiano dell’Intelligenza Artificiale, secondo i dati dell’Osservatorio Artificial Intelligence della School of Management del Politecnico di Milano, ha raggiunto un valore pari a 1,8 miliardi di euro, con una crescita del +50% rispetto al 2024
Questo trend si riflette anche sugli investimenti nella Computer Vision: le soluzioni di generazione e analisi di immagini, video e audio rappresentano il 16% del mercato italiano dell’AI

In questo articolo, grazie agli approfondimenti dell’Osservatorio Artificial Intelligence, scopriremo cos’è la Computer Vision, come funziona, quali sono le sue principali applicazioni, le opportunità e le criticità legate al suo utilizzo.

Cos’è la Computer Vision

La Computer Vision o visione artificiale è un campo di studi interdisciplinare che studia algoritmi e tecniche per permettere ai computer di riprodurre funzioni e processi dell’apparato visivo umano. Non si tratta solo di riuscire a riconoscere oggetti, persone o animali all’interno di un’immagine singola o in sequenza (video), ma soprattutto di estrarre informazioni utili per la loro elaborazione, a livelli sempre più alti di astrazione e comprensione. In altre parole, si tratta della capacità di ricostruire un contesto intorno all’immagine, dandole un vero e proprio significato.

Per poter funzionare correttamente, i sistemi di visione artificiale hanno bisogno di essere addestrati con una grande quantità di immagini. Tali immagini, opportunamente etichettate, sono fondamentali per insegnare agli algoritmi a identificare pattern, categorie ed elementi rilevanti per i diversi compiti.

Come funziona la Computer Vision

Negli ultimi anni l’attenzione verso la Computer Vision è fortemente cresciuta, grazie alla diffusione di immagini e video digitali e all’avvento di tecniche sempre più avanzate di Machine Learning. L’apprendimento automatico ha infatti permesso di raggiungere prestazioni paragonabili a quelle umane.

Gli algoritmi di Visione Artificiale possono effettuare indagini più o meno approfondite su un’immagine, a seconda delle tecniche utilizzate, della tipologia di immagine e del tipo di task effettuato.

Tra i possibili task si individuano:

Image Classification: analisi del contenuto dell’immagine e attribuzione di un’etichetta (es. cane, gatto);
Object Detection: identificazione di una o più entità all’interno di un’immagine;
Image Segmentation: suddivisione dell’immagine in sezioni (es. per evidenziare i pixel di un referto medico in cui si riscontra un tumore);
Face Recognition: riconoscimento di volti di persone;
Action Recognition: identificazione di una o più entità e della loro relazione nel tempo e nello spazio, al fine di identificare e descrivere azioni specifiche (es. un calciatore che colpisce il pallone di testa);
Visual Relationship Detection: comprensione della relazione tra gli oggetti in un’immagine;
Emotion Recognition: rilevamento del sentimentdi un’immagine;
Image Editing: modifiche a un’immagine (es. oscuramento di dati sensibili).

Tra queste, attualmente le imprese rivolgono l’attenzione principalmente a soluzioni di Image Classification e Object Detection.

Come si è evoluta la Visione Artificiale nel tempo

La Computer Vision ha radici che affondano nei primi anni ’60, quando i pionieri dell’informatica iniziarono a esplorare la possibilità di dotare le macchine della capacità di “vedere”. Il primo tentativo significativo risale al 1966, quando il ricercatore del MIT Seymour Papert avviò il “Summer Vision Project”, con l’ambizioso obiettivo di creare un sistema capace di riconoscere oggetti nelle immagini. Quello che sembrava un traguardo raggiungibile in pochi mesi si rivelò invece una sfida decennale.

Gli anni ’70 e ’80 videro progressi incrementali nella visione artificiale, con lo sviluppo di algoritmi per il rilevamento di bordi e forme. Le limitazioni hardware e la complessità matematica rallentarono però l’avanzamento. È solo negli anni ’90, con l’introduzione di approcci statistici e l’aumento della potenza di calcolo, che la Computer Vision iniziò a mostrare risultati promettenti in applicazioni reali.

La vera rivoluzione è avvenuta nel 2012 con la vittoria schiacciante di AlexNet, una rete neurale convoluzionale (CNN), nella competizione ImageNet. Questo momento segnò l’inizio dell’era moderna della Computer Vision, dominata dal Deep Learning. Da allora, i progressi sono stati esponenziali, portando a sistemi capaci di superare le performance umane in compiti specifici di riconoscimento visivo. Si è così aperta la strada alle molteplici applicazioni che oggi trasformano industrie, medicina, sicurezza e la nostra vita quotidiana.

Quali sono le applicazioni di Computer Vision

La Computer Vision è una tecnologia trasversale che trova impiego in numerosi settori, rivoluzionando molti processi aziendali e migliorando la qualità delle soluzioni offerte.

Tra i più rilevanti ambiti di applicazione troviamo:

Manifattura e Industria 4.0: le aziende integrano la Computer Vision direttamente sulle linee di produzione per svolgere manutenzione predittiva, monitorando lo stato dei macchinari per prevenire guasti e ottimizzare la produttività; effettuare controlli di qualità automatizzati, rilevando difetti sui prodotti in fase di assemblaggio o confezionamento; infine, garantire la sicurezza sul lavoro, identificando situazioni di pericolo e segnalando comportamenti non conformi degli operatori.
Sanità e Telemedicina: i sistemi di visione artificiale analizzano immagini mediche (come radiografie, TAC, risonanze magnetiche) per supportare i medici nella diagnosi precoce di patologie e nel monitoraggio dei pazienti, migliorando l’efficacia e la rapidità delle cure.Sorveglianza intelligente e sicurezza: le videocamere basate su Computer Vision sono utilizzate per la videosorveglianza smart, il rilevamento automatico di intrusioni, incidenti o comportamenti sospetti in ambienti pubblici, privati e nei trasporti.Retail e grande distribuzione: la visione artificiale aiuta ad analizzare il comportamento dei clienti nei negozi, gestire in modo intelligente la disposizione dei prodotti sugli scaffali e ottimizzare le operazioni di magazzino.Mobilità e automotive: le soluzioni di Computer Vision sono fondamentali per la guida autonoma (autonomous driving), il riconoscimento dei segnali stradali, il monitoraggio del traffico e la prevenzione degli incidenti.
Agricoltura di precisione: i sistemi di visione artificiale analizzano immagini satellitari o riprese da droni per monitorare lo stato delle colture, identificare malattie delle piante e ottimizzare l’uso delle risorse.

Come viene applicata la Computer Vision nel settore manifatturiero: il caso della Gnutti Carlo S.P.A.

A dimostrazione di quanto detto sulle applicazioni industriali della Computer Vision, riportiamo come esempio il caso della Gnutti Carlo S.P.A.. L’azienda manifatturiera ha sviluppato un progetto di automazione per l’identificazione delle non conformità di un componente per motori automotive. Il processo di controllo veniva svolto da personale addestrato e risultava dispendioso. Per tale ragione, dopo aver sperimentato tecniche di visione classica, l’azienda ha scelto di sfruttare l’AI e le sue potenzialità. Ha dunque adottato una soluzione di Computer Vision per identificare e classificare le anomalie presenti sulla superficie del componente meccanico.

Qual è il legame tra Computer Vision e Deep Learning

I notevoli progressi che la Computer Vision sta registrando sono dovuti principalmente allo sviluppo delle tecniche di Deep Learning, il ramo più evoluto del Machine Learning.

Esistono tre diverse modalità con cui un’architettura di visione artificiale può estrarre informazioni dalle immagini scelte singolarmente o combinate a seconda delle esigenze dell’analisi:

Hand Crafted Features: si basa sul concetto che gli algoritmi possano estrarre e definire ciò che è rilevante nell’immagine (es. uno specifico colore/forma, area, grandezza).
Computer Vision Features: si fonda sulla suddivisione dell’immagine in piccole regioni per permettere un’analisi più approfondita;
Data Driven Features: vera frontiera della visione artificiale, permette il riconoscimento e la classificazione delle immagini (anche naturali) senza dover progettare la fase di estrazione dei features che viene svolta da particolari reti neurali: le reti neurali convoluzionali.

A loro volta, le reti neurali convoluzionali utilizzate per la classificazione delle immagini – che hanno contributo notevolmente allo sviluppo del Deep Learning – sono i principali esempi di Deep Neural Networks. Queste reti sono costituite da un elevato numero di layer (ossia strati di calcolo) e riescono a raggiungere dimensioni significative. Le reti deep sono altamente efficaci per l’analisi di immagini naturali e si prestano molto bene al transfer learning, un insieme di tecniche che permette di riutilizzare reti addestrate in precedenza su grandi asset di dati, per risolvere task differenti e tipicamente più specifici.

Come sta cambiando la Computer Vision con la Generative AI

L’Intelligenza Artificiale Generativa nel campo della Computer Vision ha aperto nuove possibilità per la creazione e l’analisi di contenuti visivi. Sfruttando le tecniche di Generative AI, gli algoritmi di visione artificiale possono apprendere e formulare previsioni da un’ampia gamma di dati, migliorando la precisione e la robustezza dell’analisi visiva.

I principali benefici della Generative AI per la Computer Vision riguardano:

generazione di immagini sintetiche: utile per ampliare i dataset di addestramento e aumentare la diversità dei dati. In contesti come Object Detection o Face Recognition, la GenAI può creare immagini simulando varie condizioni di luminosità, occlusioni o prospettive differenti.
metadatazione: soluzioni di Computer Vision abbinate agli LLM (Large Language Model) possono ottimizzare il tagging delle immagini o la loro descrizione.
generazione video: un traguardo in questo campo è il modello Sora di OpenAI (società proprietaria di ChatGPT). Si tratta di un modello Text-to-video, basato su reti neurali complesse, in grado di realizzare filmati in alta risoluzione con immagini realistiche partendo da un semplice prompt di testo (l’istruzione data dall’utente alla piattaforma).

Secondo la Ricerca dell’Osservatorio Artificial Intelligence, le soluzioni di Image, Audio, Video Analysis & Generation Systems – in cui rientra la Computer Vision supportata da Generative AI – rappresentino il 16% del mercato dell’AI, il cui valore è pari a 1,8 miliardi di euro. Un segnale concreto di come la capacità di “vedere” e interpretare il mondo visivo stia acquisendo un ruolo chiave nelle applicazioni di Intelligenza Artificiale.

Quali sono i rischi legati alla Computer Vision

Lo sviluppo di soluzioni di Computer Vision, nonostante i notevoli progressi, comporta ancora sfide significative e rischi che meritano un’attenta considerazione. Non si tratta di semplici ostacoli tecnici: sono questioni fondamentali che possono determinare l’affidabilità e l’eticità di questi sistemi.

Ambiguità intrinseca delle immagini

In questo ambito, le sfide principali riguardano la classificazione e la segmentazione delle immagini:

nell’Image Classification un’immagine potrebbe contenere elementi che la rendono associabile a molteplici categorie, e l’algoritmo deve quindi essere in grado di attribuire l’etichetta più adeguata in base al contesto e all’obiettivo specifico dell’applicazione;
nell’Image Segmentation, oltre a individuare le entità all’interno dell’immagine, occorre delimitarle con precisione e analizzarle singolarmente: la complessità aumenta esponenzialmente in scene affollate o con oggetti parzialmente sovrapposti.

Bias nei dati di addestramento

I sistemi di Computer Vision possono anche amplificare pregiudizi presenti nei dati di addestramento. Ad esempio, algoritmi addestrati principalmente su immagini di persone con determinate caratteristiche etniche potrebbero avere prestazioni significativamente inferiori quando applicati a gruppi sottorappresentati, portando a discriminazioni algoritmiche con impatti reali su individui e comunità.

Privacy e tutela dei dati

La privacy rappresenta un’altra area di preoccupazione crescente. Le tecnologie di riconoscimento facciale, in particolare, sollevano interrogativi sulla sorveglianza di massa e sul potenziale uso improprio da parte di governi o aziende private. L’identificazione automatica di individui in spazi pubblici, senza esplicito consenso, sfida i principi fondamentali della privacy in molte società democratiche.

Criticità tecniche nell’implementazione

Le principali criticità tecniche da considerare sono:

necessità di creare un dataset sufficientemente ampio e rappresentativo per l’addestramento dell’algoritmo, evitando distorsioni sistematiche;
robustezza, dato che l’algoritmo deve saper riconoscere le immagini anche in presenza di trasformazioni (es. condizioni di luminosità non ottimale, deformazione o copertura parziale del soggetto, variazioni di scala);
vulnerabilità ad attacchi avversari, dato che minime perturbazioni delle immagini, impercettibili all’occhio umano, possono indurre classificazioni completamente errate;
trasparenza e interpretabilità dei modelli, soprattutto nelle applicazioni ad alto rischio (come la diagnostica medica o la sicurezza); è importante poter comprendere il ragionamento seguito dall’algoritmo nelle sue decisioni, per garantire affidabilità e fiducia nell’automazione.

Affrontare questi rischi richiede un approccio multidisciplinare che combini innovazione tecnica, considerazioni etiche e quadri normativi adeguati, per garantire che la Computer Vision porti benefici alla società senza compromettere valori fondamentali.