0511 874 590 50 info@agile-im.de

Was genau versteht man unter Computer Vision?

Computer Vision ist ein Teilgebiet der künstlichen Intelligenz, das sich damit beschäftigt, Informationen aus visuellen Daten extrahieren. Zu diesen Daten können Fotos, Scans, Videosequenzen oder auch mehrdimensionale Daten, wie zum Beispiel aus medizinischen Scannern zählen. Dabei orientiert sich Computer Vision an der menschlichen Fähigkeit Bilder zu erfassen, zu verarbeiten und zu analysieren. In einigen Bereichen haben Maschinen dabei sogar die menschliche Leistung übertroffen. Unsere Artikelserie beginnend mit diesem Artikel soll einen Überblick über Aufgaben, Anwendungsgebiete und Technologie dieses breit gefächerten Themengebietes geben.

Was sind typische Aufgaben von Computer Vision?

Computer Vision soll bestimmte Objekte in Bildern identifizieren, lokalisieren und zu klassifizieren. Eine der wichtigsten Aufgaben dabei ist Object Recognition. Hier kann man zwischen verschiedenen Teilbereichen unterscheiden:

Object Classification

Bei der Kategorisierung / Klassifizierung geht es darum, Bildern diskrete Kategorien wie “Hund”, “Mensch” oder “Auto” zuzuweisen. Hierbei kann die Granularität soweit erhöht werden, dass ein System nicht nur einfach Hunde von Katzen unterscheiden, sondern einzelne Hunderassen oder bestimmte Personen identifizieren kann (Face Recognition). Dabei können auch mehrere unterschiedliche Objekte innerhalb eines Bildes erkannt und klassifiziert werden.

Image Classification: Der Assistant der Google Foto App ordnet Urlaubsbilder mit Hilfe von Computer Vision bestimmten Klassen zu.

Object Localization

Bei der Lokalisierung versucht man die Position eines Objektes im Bild zu beschreiben indem zum Beispiel eine „Bounding Box“ möglichst eng um das Objekt gelegt wird. Segmentierung kommt dagegen zum Einsatz, wenn Bilder in pixelgenaue Regionen mit symbolischer Bedeutung, beispielsweise in “Vordergrund” – “Hintergrund”, eingeteilt werden sollen. Object Recognition kann auch dazu genutzt werden die Position eines Objekts relativ zur Kamera abzuschätzen. Dies kommt beispielsweise in der Robotertechnik zum Einsatz, wenn ein Roboterarm bestimmte Gegenstände von einem Fließband greifen soll.

Localization und Classification: Das System versucht, Personen zu erkennen und ihre Position mit einer Bounding Box zu markieren.

Content Based Image Retrieval

Bei Content Based Image Retrieval wird Object Recognition eingesetzt um große Mengen an Daten nach bestimmten Inhalten durchforstet. Hierbei bezieht sich “Content” nicht auf Metadaten, wie beispielweise der Dateiname oder die Bildbeschreibung, sondern auf die Information, die in den Bildern selbst steckt. Der Vorteil gegenüber herkömmlichen Suchmaschienen liegt darin, dass man bei der Suche nicht mehr durch die Qualität der Metadaten limitiert ist. Deren Erstellung kann oft zeitintensiv und kostspielig sein.

Motion Analysis

Eine andere Aufgabe von Computer Vision ist die Bewegungsanalyse. Ein wichtiges Teilgebiet davon ist Egomotion, worunter man die Abschätzung der Kamerabewegung relativ zu einer dreidimensionalen Umgebung versteht. Diese Technik ist beispielsweise entscheidend für die Steuerung autonom fahrender Autos. Bei Tracking dagegen wird die Bewegung bestimmter Objekte in einem größerem Kontext verfolgt.

Motion Analysis: So kann die Bewegungsvervolgung bei einer Person aussehen

Reconstruction, Image Captioning und mehr

Damit ist das Potential von Computer Vision aber noch längst nicht ausgeschöpft. Zu weiteren Problemstellungen, für die Computer Vision erfolgreiche Lösungsansätze bietet, gehören beispielsweise die Erstellung von 3D Modellen von bestimmten Szenen aus einzelnen Bildern, die Entfernung von Störgeräusche aus Bildern, die Rekonstruktion fehlender Bildelemente, das Beschreiben von Bildinhalten (Image Captioning) und vieles mehr.