Subtitrarea automată a imaginilor Google și cheia „viziunii” artificiale

Sottotitoli di immagini automatizzati di Google e la chiave per una “visione” artificiale

⌛ Reading Time: 3 minutes

Non è un segreto che Google sia diventato più attivo nella ricerca negli ultimi anni, soprattutto da quando si è riorganizzato in modo significativo nel 2015. Il 22 settembre 2016 ha annunciato il rilascio open source di un software in grado di rilevare gli oggetti e l’impostazione di un’immagine per generare automaticamente una didascalia che lo descriva. Naturalmente, non ha lo stesso livello di creatività degli esseri umani nella creazione della prosa all’interno delle didascalie, ma il codificatore di immagini altrimenti noto come Inception V3 avrebbe dovuto catturare l’attenzione per ragioni che trascendono il superficiale “guarda le didascalie può fare “motivo. Software come questo, infatti, possono essere un trampolino di lancio verso qualcosa di più grande sulla strada verso un’intelligenza artificiale più avanzata.

Gli occhi possono vedere, ma l’intelligenza “percepisce”

La vista artificiale è con noi da più di un secolo. Qualsiasi cosa con una telecamera può vedere. È una cosa molto semplice. Ma anche un cieco può superare la comprensione della telecamera di ciò che sta guardando. Fino a poco tempo fa, i computer non erano in grado di nominare facilmente e con precisione gli oggetti trovati nelle immagini senza parametri molto specifici. Dire veramente che un oggetto creato dall’uomo ha una “visione” significherebbe che ha almeno una capacità concreta di specificare che cosa sta guardando, piuttosto che semplicemente guardandolo senza raccogliere alcun contesto. In questo modo, il dispositivo potrebbe potenzialmente reagire al suo ambiente in base alla vista, proprio come facciamo noi. La percezione è una necessità assoluta. Senza di essa, ogni senso che abbiamo è inutile.

Percezione tramite sottotitoli automatici delle immagini

aivision-captioning

Sebbene generalmente crediamo che ogni immagine valga più di mille parole, Inception V3 non condivide necessariamente questa opinione. Il software di sottotitolazione automatica delle immagini ha pochissime cose da dire su ciò che vede, ma almeno ha una comprensione concreta di base di ciò che è contenuto all’interno del frame presentato.

Con queste informazioni rudimentali abbiamo fatto un passo verso la capacità del software di comprendere gli stimoli visivi. Dare a un robot questo tipo di potere gli permetterebbe di reagire a tali stimoli, portando la sua intelligenza appena al di sotto del livello degli animali acquatici più elementari. Potrebbe non sembrare molto, ma se dai un’occhiata a come stanno i robot in questo momento (se testati al di fuori dei loro parametri altamente restrittivi), scoprirai che questo sarebbe un bel salto di intelligenza rispetto al modo amebico in cui possono percepire l’ambiente circostante.

Cosa significa per l’IA (e perché è tutt’altro che perfetto)

Il fatto che ora disponiamo di un software che (con una precisione del 93%) può sottotitolare le immagini significa che abbiamo in qualche modo superato l’ostacolo di far sì che i computer diano un senso ai loro ambienti. Ovviamente, questo non significa che siamo neanche lontanamente finiti in quel reparto. Vale anche la pena ricordare che Inception V3 è stato addestrato dagli esseri umani nel tempo e utilizza le informazioni “apprese” per decifrare altre immagini. Per avere una vera comprensione del proprio ambiente, è necessario essere in grado di raggiungere un livello di percezione più astratto. La persona nell’immagine è arrabbiata? Due persone litigano? Per cosa piange la donna in panchina?

Le domande precedenti rappresentano il tipo di cose che ci chiediamo quando incontriamo altri esseri umani. È il tipo di indagine astratta che ci richiede di estrapolare più informazioni di quanto possa fare un doohickey con didascalie di immagini. Non dimentichiamo quella ciliegina sulla torta che ci piace chiamare una reazione emotiva (o “irrazionale”) a ciò che vediamo. È per questo che consideriamo i fiori belli, le fogne disgustose e le patatine fritte gustose. È qualcosa che ci stiamo ancora chiedendo se riusciremo mai a ottenere a livello di macchina senza effettivamente codificarlo. La verità è che questo tipo di fenomeno “umano” è probabilmente impossibile senza una programmazione restrittiva. Ovviamente, questo non significa che non smetteremo di provarci. Dopotutto siamo umano.

Pensi che i nostri signori robot impareranno mai ad apprezzare la complessità di un petalo di rosa al microscopio? Ditecelo in un commento!