Künstliche Intelligenz – Neue Software erkennt Bilder – und beschreibt sie

Publiziert

Künstliche IntelligenzNeue Software erkennt Bilder – und beschreibt sie

Zwei Forscherteams melden unabhängig voneinander die Entwicklung einer neuen Software. Die erkennt nicht nur Sachen, sie beschreibt sie auch in Worten.

Neue Fortschritte im Bereich der Bilderkennung machen es möglich, dass Computer jetzt fähig sind, Bilder so genau wie noch nie zuvor zu erkennen. Mehr noch: Sie sind sogar fähig, das «Gesehene» in Worte zu fassen. Zwei Forscherteams von Google und der Stanford-Universität haben unabhängig voneinander eine künstliche Intelligenz auf Basis neuronaler Netze entwickelt, welche die Funktionsweise des menschlichen Gehirns simuliert. Das berichtet die «New York Times».

Dem Bericht zufolge ist die K.I. bei der Dechiffrierung und Beschreibung von Bildern gar in der Lage, bis zu einem gewissen Grad die menschliche Auffassungsgabe nachzuahmen. Bisher war sogenannte «Computer-Vision» lediglich in der Lage, einzelne Objekte zu erkennen. Die neue Software, die am Montag sowohl von Forschern des Suchmaschinengiganten Google als auch von Wissenschaftlern der Stanford University gezeigt wurde, bringt sich selbst bei, ganze Szenen zu interpretieren. Beispielsweise junge Männer beim Fußballspielen oder eine Herde Elefanten, die durch die Steppe marschiert.

Vom Schlagwort zur Bildbeschreibung

Bisher müssen sich Suchmaschinen noch weitgehend auf zu ungenaue Bildbeschriftungen, -titel und -anmerkungen verlassen, um Inhalte einzuordnen. Hat die neue Software indes ein Bild analysiert, versieht sie das Dargestellte mit Schlagworten. Die Forscher fanden dabei heraus, dass daraus resultierende, vom Computer verfasste Beschreibungen erstaunlich genau sind. Die präsentierten Fortschritte ermöglichen eine weitaus genauere Katalogisierung und Suche im Milliarden Bilder und Videos umfassenden weltweiten Netz.

Die Stanford-Wissenschaftler gehen bei der computergesteuerten Bildanalyse ähnlich wie die Google-Forscher vor. Beide arbeiten mit der Kombination neuronaler Netze. Diese sind in der Lage, Ähnlichkeiten und Muster in Daten zu erkennen, von denen nicht einmal Menschen etwas wissen.

Doppelt so genau als bisher

In ihrem Bericht beschreiben die Forscher der Stanford-Universität, wie eine Netzwerkarchitektur neue Beschreibungen zu Bildbereichen zu generieren lernt. Wie leistungsfähig ihre Methode ist, wurde anhand öffentlich zugänglicher Mediatheken wie Flickr8K oder Flickr30K überprüft. Die Bildbeispiele sind von computergenerierten Bildlegenden begleitet, die nicht nur einzelne Objekte, sondern auch das dargestellte Geschehen beschreiben (siehe Bildstrecke).

Das Google-Team ging bei der computergesteuerten Bildanalyse ähnlich vor. Auch hier wurde mit zwei neuronalen Netzen gearbeitet, um Bild- und Sprachmodelle zusammenzuführen. Wie die Stanford-Wissenschaftler trainierten sie ihre Software zunächst mit einer kleinen Anzahl Bildern, die zuvor von Menschen mit Worten beschrieben worden waren. So konnte das Programm zusammenhängende Muster in den Bildern und Beschreibungen erkennen und war dann in der Lage, Objekte und Ereignisse auf noch unbeschriebenen Bildern zu definieren – doppelt so genau wie bei früheren Versuchen.

Zwar sind die maschinell erstellten Bildbeschreibungen oft noch ziemlich weit von menschlicher Wahrnehmung entfernt, doch bei einem beachtlichen Teil der Test-Bilder waren die Beschreibungen sowohl vom Stanford- als auch vom Google-System erstaunlich präzise.

(L'essentiel)

Deine Meinung