Computer Vision, auch Vision AI oder AI Vision genannt, ist eine spezialisierte Anwendung der Künstlichen Intelligenz (KI), die darauf abzielt, visuelle Daten zu analysieren und zu verstehen. Dazu zählen beispielsweise Videos, Fotos, Satellitenbilder oder Scans. Ähnlich wie das menschliche Sehen verleiht Computer Vision Maschinen die Fähigkeit, visuelle Informationen zu erfassen, zu interpretieren und entsprechend auch zu reagieren.
Computer Vision (auch: Vision AI, AI Vision) ist nicht einfach nur Bilderkennung. Es ist ein Bereich der KI, der es Computern und Systemen ermöglicht, sinnvolle Informationen aus visuellen Daten zu extrahieren. Diese Technologie befähigt Systeme, Maßnahmen zu ergreifen oder Empfehlungen abzugeben. Computer Vision geht damit über einfache Bildverarbeitung hinaus, indem sie Kontextinformationen berücksichtigt und intelligent auf Veränderungen in der Umgebung reagiert. Unter Verwendung von Algorithmen und Machine Learning werden Muster und Merkmale erkannt, Objekte identifiziert und Bewegungen verfolgt.
Eingesetzt werden kann Computer Vision in vielen Bereichen, darunter in der Gesundheitsversorgung, autonomen Fahrzeugen oder Sicherheitsüberwachung. In der Robotik bspw. ermöglicht es Computer Vision Robotern, ihre Umgebung visuell wahrzunehmen, Objekte zu identifizieren und darauf basierend Entscheidungen zu treffen. Dadurch können Roboter Aufgaben autonom ausführen, wie z.B.:
Das Ziel von Computer Vision ist es, mit Hilfe von Modellen des Machine Learnings digitale Systeme zu schaffen, die visuelle Daten genauso verarbeiten und analysieren können wie Menschen – oder sogar noch schneller und effizienter.
Der Prozess beginnt mit der Erfassung von Bildern und Videos, die durch Algorithmen vorverarbeitet werden. Anschließend werden die Daten mittels Machine Learning durch vorher trainierte Modelle analysiert, die in der Lage sind, spezifische Merkmale und Muster zu erkennen. Diese Modelle basieren auf großen Datensätzen, die es ihnen ermöglichen, durch Training immer genauer zu werden.
Eine fortgeschrittene Technik ist Deep Learning, das Convolutional Neural Networks (CNNs) verwendet. Diese Netzwerke bestehen aus mehreren Schichten, die spezifische Merkmale eines Bildes erkennen. Zuerst werden einfache Merkmale wie Kanten erkannt, danach komplexere Muster. So kann das System nach und nach Objekte und Szenen immer besser verstehen
Schließlich werden die extrahierten Informationen verwendet, um Aktionen auszulösen oder Empfehlungen abzugeben. Dank der Fortschritte in der Hardware und Rechenleistung kann Computer Vision heute schon in nahezu Echtzeit arbeiten und komplexe Aufgaben bewältigen. Cloud- und Edge-Computing haben die Leistungsfähigkeit von Computer Vision zusätzlich gesteigert.