Wie die Maschine die Bedeutung der Pixel erkennt

0
2017
Achtung! Der Abgebildete hat einer Verwendung des Bildes in Sozialen Medien nicht zugestimmt! Doktorand Björn Barz am 22.02.2019 in einem Labor am Lehrstuhl für Digitale Bildverarbeitung der Friedrich-Schiller-Universität. Jenaer Informatiker haben nun im Rahmen eines von der DFG geförderten Schwerpunktprogramms ein Verfahren entwickelt, welches Methoden des Maschinellen Lernens mit menschlichem Vorwissen kombiniert, um einer Künstlichen Intelligenz die Bedeutung hinter den Pixeln eines Bildes näherzubringen. Für diese Arbeit wurden Sie im Januar 2019 auf Hawaii mit einem „Best Paper Award“ ausgezeichnet, der im Rahmen der internationalen Tagung „IEEE Winter Conference on Applications of Computer Vision (WACV)“ vergeben wurde. Foto: Jan-Peter Kasper/FSU

Informatiker der Universität Jena erhalten Auszeichnung für neuartiges Verfahren der Bildersuche

Jena (FSU/tbx) Ob auf einem Foto ein Chihuahua oder ein Muffin abgebildet ist, können wir Menschen auf den ersten Blick problemlos feststellen. Maschinen fällt es dagegen noch immer schwer, den Inhalt oder gar die Stimmung von Bildern zu begreifen. Abhilfe könnte ein Verfahren schaffen, das Björn Barz und Prof. Dr. Joachim Denzler vom Lehrstuhl für Digitale Bildverarbeitung der Universität Jena entwickelt haben. Um einer Künstlichen Intelligenz (KI) die Bedeutung hinter den Pixeln eines Bildes näherzubringen, kombinieren die beiden Informatiker Maschinelles Lernen mit menschlichem Vorwissen. Für diese Forschungsleistung sind sie jetzt im Rahmen einer internationalen Tagung des Institute of Electrical and Electronics Engineers (IEEE) auf Hawaii mit dem „Best Paper Award“ ausgezeichnet worden. Bei der renommierten Konferenz konnten sie sich gegen mehr als 500 andere wissenschaftliche Arbeiten durchsetzen, die eingereicht wurden.

Suchmaschinen könnten von Jenaer Methode profitieren

Von der neuen Methode sollen insbesondere Suchmaschinen profitieren, die im Internet angesichts der Verbreitung ständig griffbereiter Kameras eine wachsende Bilderflut durchkämmen müssen. Üblicherweise verwenden diese Suchprogramme Schlüsselwörter, mit deren Hilfe sie die gewaltigen Datenmengen auf Ergebnisse abklopfen. Eine textbasierte Arbeitsweise birgt jedoch Probleme: Einerseits können Suchanfragen mehrdeutig sein und zu völlig falschen Resultaten führen, andererseits werden unzureichend beschriebene Bilder überhaupt nicht gefunden.
Die beiden Jenaer Informatiker vermeiden solche Engpässe, indem sie im Austausch für die Begriffe eine Analyse des Bildinhaltes selbst vornehmen. „Bilder besitzen den Vorteil, dass sie gegenüber Schlüsselwörtern wesentlich aussagekräftiger sind“, erklärt Björn Barz, Doktorand am Lehrstuhl für Digitale Bildverarbeitung und Erstautor der prämierten Arbeit. „Für die Suchanfrage setzen wir daher auf ein Bild, das der Benutzer zur Verfügung stellt, und ermitteln davon ausgehend Bilder mit ähnlichen Inhalten.“ Herkömmliche Verfahren vergleichen Inhalte anhand visueller Gesichtspunkte wie Farbe, Form und Textur. Die Jenaer Methode bestimmt indes die Ähnlichkeit von Bildern, indem sie menschliches Wissen über die Bedeutung gewisser Dinge in den Lernprozess einer Maschine integriert.

Informatiker füttern KI mit Bedeutungsketten

Zur Aufnahme dieses Wissens füttern die Forscher die Künstliche Intelligenz mit Folgen von Zahlen, denen Bedeutungen zugeordnet wurden. Auf diese Weise bringen sie ihr bei, dass die Objekte der Welt in einem hierarchischen Verhältnis zueinanderstehen. Zum Beispiel, dass Chihuahua zur Familie der Hunde gehören, welche ihrerseits der Klasse der Säugetiere und ganz allgemein den Lebewesen unterstehen. Mithilfe solcher Bedeutungsketten versteht das Programm schließlich, dass ein Chihuahua einer Dogge ähnlicher sein muss als einem Muffin. In ersten Tests überzeugte die Methode und führte bei der Bildersuche zu erheblich besseren Ergebnissen.

Gorillas sind keine Menschen

„Wir denken, dass dieser Ansatz zur Integration semantischen Vorwissens in maschinelle Lernverfahren auch für andere Anwendungsgebiete fruchtbar gemacht werden kann“, blickt Denzler in die Zukunft. Als Beispiel führt er den Fall einer von Google entwickelten KI an, die in die Kritik geriet, weil sie Menschen mit dunkler Hautfarbe als Gorillas bezeichnete. Die von den Jenaer Informatikern erdachte Methode könnte dabei helfen, solche schwerwiegenden Fehler in Zukunft zu vermeiden.

Original-Publikation:
Barz B., Denzler J. (2019): Hierarchy-based Image Embeddings for Semantic Image Retrieval. IEEE Winter Conference on Applications of Computer Vision (WACV) 2019, pp. 638-647, doi: 10.1109/WACV.2019.00073

Kontakt:
Prof. Dr. Joachim Denzler
Institut für Informatik der Friedrich-Schiller-Universität Jena
Ernst-Abbe-Platz 2, 07743 Jena
Tel.: 03641 / 946301
E-Mail: joachim.denzler@uni-jena.de

HINTERLASSEN SIE EINE ANTWORT