Subtitrarea automată a imaginilor Google și cheia „viziunii” artificiale

Googles automatisierte Bildunterschrift und der Schlüssel zum künstlichen „Sehen“

⌛ Reading Time: 3 minutes

Es ist kein Geheimnis, dass Google in den letzten Jahren aktiver in der Forschung geworden ist, insbesondere seit es sich 2015 erheblich neu organisiert hat. Am 22. September 2016 kündigte es die Open-Source-Veröffentlichung einer Software an, die dies kann Erkennen Sie die Objekte und Einstellungen eines Bildes um automatisch eine Beschriftung zu generieren, die sie beschreibt. Natürlich hat es nicht das gleiche Maß an Kreativität wie Menschen bei der Erstellung der Prosa in den Bildunterschriften, aber der Bildcodierer, der auch als Inception V3 bekannt ist, sollte aus Gründen, die über den oberflächlichen „Blick auf die Bildunterschriften“ hinausgehen, Aufmerksamkeit erregen kann Motiv machen. Software wie diese kann in der Tat ein Sprungbrett für etwas Größeres auf dem Weg zu fortschrittlicherer künstlicher Intelligenz sein.

Augen können sehen, aber Intelligenz “nimmt wahr”

Künstliches Sehen ist seit mehr als einem Jahrhundert bei uns. Alles mit einer Kamera kann sehen. Es ist eine sehr einfache Sache. Aber selbst ein Blinder kann das Verständnis der Kamera für das, was sie betrachtet, übertreffen. Bis vor kurzem waren Computer nicht in der Lage, die in Bildern gefundenen Objekte ohne sehr spezifische Parameter einfach und genau zu benennen. Zu sagen, dass ein künstliches Objekt eine „Vision“ hat, würde bedeuten, dass es zumindest eine konkrete Fähigkeit zur Spezifizierung hat Was es betrachtet es, anstatt es einfach nur zu betrachten, ohne irgendeinen Kontext zu sammeln. Auf diese Weise könnte das Gerät möglicherweise auf seine Umgebung reagieren, basierend auf der Sicht, genau wie wir. Wahrnehmung ist eine absolute Notwendigkeit. Ohne sie ist jeder Sinn, den wir haben, nutzlos.

Wahrnehmung durch automatische Bildunterschrift

aivision-captioning

Obwohl wir allgemein der Meinung sind, dass jedes Bild mehr als tausend Worte sagt, teilt Inception V3 diese Meinung nicht unbedingt. Die automatische Bildunterschriften-Software hat nur sehr wenige Dinge zu sagen, was sie sieht, aber sie verfügt zumindest über ein grundlegendes konkretes Verständnis dessen, was in dem ihr präsentierten Frame enthalten ist.

Mit diesen rudimentären Informationen haben wir einen Schritt in Richtung der Fähigkeit von Software getan, visuelle Reize zu verstehen. Wenn ein Roboter diese Art von Kraft erhält, kann er auf solche Reize reagieren und seine Intelligenz auf knapp unter das Niveau der meisten grundlegenden Wassertiere bringen. Das hört sich vielleicht nicht nach viel an, aber wenn Sie sich ansehen, wie es Robotern gerade geht (wenn sie außerhalb ihrer stark restriktiven Parameter getestet werden), werden Sie feststellen, dass dies ein ziemlicher Intelligenzsprung im Vergleich zu der amöbischen Art und Weise ist, in der Sie können ihre eigene Umgebung wahrnehmen.

Was dies für KI bedeutet (und warum es alles andere als perfekt ist)

Die Tatsache, dass wir jetzt eine Software haben, die (mit einer Genauigkeit von 93 Prozent) Bilder beschriften kann, bedeutet, dass wir das Hindernis überwunden haben, Computer dazu zu bringen, ihre Umgebung zu verstehen. Das bedeutet natürlich nicht, dass wir in dieser Abteilung noch lange nicht fertig sind. Erwähnenswert ist auch, dass der Inception V3 im Laufe der Zeit von Menschen trainiert wurde und die Informationen, die er „gelernt“ hat, verwendet, um andere Bilder zu entschlüsseln. Um die Umwelt wirklich zu verstehen, muss man in der Lage sein, eine abstraktere Wahrnehmungsebene zu erreichen. Ist die Person auf dem Bild wütend? Kämpfen zwei Menschen? Worüber weint die Frau auf der Bank?

Die obigen Fragen stellen die Art von Dingen dar, die wir uns stellen, wenn wir anderen Menschen begegnen. Es ist die Art von abstrakter Untersuchung, bei der wir mehr Informationen extrapolieren müssen, als ein Doohickey mit Bildunterschriften kann. Vergessen wir nicht das Sahnehäubchen, das wir gerne als emotionale (oder „irrationale“) Reaktion auf das bezeichnen, was wir sehen. Deshalb halten wir Blumen für schön, Abwasserkanäle für ekelhaft und Pommes für lecker. Wir fragen uns immer noch, ob wir jemals auf Maschinenebene etwas erreichen werden, ohne es tatsächlich hart zu codieren. Die Wahrheit ist, dass diese Art von „menschlichem“ Phänomen ohne restriktive Programmierung wahrscheinlich unmöglich ist. Das heißt natürlich nicht, dass wir nicht aufhören werden, es zu versuchen. Wir sind schließlich Mensch.

Glauben Sie, dass unsere Roboter-Overlords jemals lernen werden, die Komplexität eines Rosenblatts unter dem Mikroskop zu schätzen? Sag es uns in einem Kommentar!

How useful was this post?

Click on a star to rate it!

Average rating 0 / 5. Vote count: 0

No votes so far! Be the first to rate this post.

[pt_view id="5aa2753we7"]

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.