Introduzione alle tecniche di visione artificiale

Nell’epoca che stiamo vivendo, la visione artificiale è tra i campi di ricerca più caldi tra le discipline dell’ingegneria. Riadatta – e utilizza – molte materie accademiche come informatica, matematica, ingegneria, biologia e psicologia. Pertanto, grazie alla sua natura interdisciplinare, molti scienziati ritengono che in futuro si parlerà di “intelligenza artificiale generale”.

I recenti sviluppi della materia, anche nel nostro paese grazie ad una serie di aziende leader di settore tra cui softsystem srl, hanno notevolmente migliorato le prestazioni dei sistemi di riconoscimento visivo.

Per chi non è nell’ambiente ma è curioso di approfondire, ecco quali sono le cinque principali tecniche di visione artificiale.

Classificazione delle immagini

Riuscire a classificare un’immagine implica numerose sfide, tra cui la variazione del punto di vista o della scala, la deformazione dell’immagine, la sua occlusione, le condizioni di illuminazione e il disordine dello sfondo.

I ricercatori hanno escogitato un approccio basato sui dati per classificare le immagini in categorie distinte, fornendo al computer alcuni esempi di ciascuna classe di immagini permettendo agli algoritmi di apprendere l’aspetto visivo di ciascuna tipologia. In breve, prima viene accumulato un set di dati di addestramento di immagini etichettate, che poi si invia al computer per elaborare i dati.

Le reti neurali convoluzionali (CNN) sono l’architettura più famosa utilizzata per la classificazione delle immagini. Un caso d’uso tipico per le CNN è quando si alimentano con le immagini, quindi la rete classifica i dati. Le CNN tendono a iniziare con uno “scanner” di input che però non ha lo scopo di analizzare tutti i dati di addestramento contemporaneamente. Ad esempio, per un’immagine di dimensione 100×100 pixel, non è necessario un livello con 10.000 nodi.

Rilevamento di oggetti

L’attività di identificazione di oggetti all’interno delle immagini di solito comporta la creazione di riquadri che delimitano i singoli elementi. Si differenzia dall’attività di classificazione poichè in questo caso si opera su molti oggetti anziché su un singolo oggetto dominante.

Nel rilevamento di oggetti esistono solo due classi per la classificazione: i riquadri di delimitazione degli oggetti e il loro esterno, ossia il resto dell’immagine. Ad esempio, nel rilevamento dei veicoli è necessario identificarli tutti, sia a due che a quattro ruote, in una determinata immagine con i loro riquadri di delimitazione.

Per classificare le immagini localizzate viene usata una tecnica chiamata “della finestra scorrevole”, a questo punto è necessario applicare una CNN ai diversi ritagli dell’immagine, dato che la CNN classifica ogni ritaglio come oggetto o sfondo. Abbiamo quindi bisogno di utilizzare la CNN per un gran numero di posizioni e scale, e ciò risulta essere molto costoso dal punto di vista computazionale.

Tracciamento degli oggetti

Il tracciamento degli oggetti, o object tracking, è una tecnica di visione artificiale che indica il processo di seguire un particolare oggetto di interesse, o persino più elementi. Tradizionalmente ha applicazioni nei video e nelle interazioni del mondo reale, in cui le osservazioni vengono effettuate solo dopo il rilevamento iniziale dell’oggetto.

Il tracciamento può essere suddiviso in due categorie secondo il modello di osservazione:

il metodo generativo, che utilizza un modello per descrivere le caratteristiche apparenti
il metodo discriminativo, che può essere utilizzato per separare l’oggetto dallo sfondo

Le prestazioni di quest’ultimo sono più robuste, quindi piano piano sta diventando il metodo principale per il tracciamento di un’oggetto.

Segmentazione semantica

Possiamo vedere la visione artificiale come un processo di segmentazione che distingue intere immagini in raggruppamenti di pixel, i quali possono essere etichettati e classificati. La segmentazione semantica cerca di comprendere il ruolo e il significato di ogni pixel. Ad esempio, se scegliamo una foto di un paesaggio in si vedono persone, strade, automobili e alberi, dobbiamo delineare i confini di ogni oggetto. Pertanto, a differenza della classificazione, abbiamo bisogno di previsioni dettagliate in termini di pixel dai modelli.

Segmentazione dell’istanza

L’ultima tecnica di visione artificiale è la segmentazione dell’istanza, o Instance Segmentation. Essa coinvolge diversi modelli di classi, come ad esempio etichettare 5 auto con 5 colori diversi.

Nella classificazione, di solito c’è un’immagine con un singolo oggetto come focus, e il compito è identificare quale sia quell’immagine. Occorre affrontare sfide come viste complicate, diversi oggetti sovrapposti o sfondi diversi. Non solo si classificano questi altri oggetti, ma si rilevano anche i confini, le differenze e le relazioni reciproche.