Wizja komputerowa, znana również jako sztuczna inteligencja wizyjna lub sztuczna inteligencja wizyjna, to wyspecjalizowane zastosowanie sztucznej inteligencji (AI), które ma na celu analizę i zrozumienie danych wizualnych. Obejmuje to na przykład filmy, zdjęcia, obrazy satelitarne lub skany. Podobnie do ludzkiego wzroku, wizja komputerowa daje maszynom możliwość przechwytywania informacji wizualnych, interpretowania ich i odpowiedniego reagowania.
Wizja komputerowa (również: wizja AI, wizja AI) to nie tylko rozpoznawanie obrazów. Jest to obszar sztucznej inteligencji, który umożliwia komputerom i systemom wydobywanie znaczących informacji z danych wizualnych. Technologia ta umożliwia systemom podejmowanie działań lub formułowanie zaleceń. Wizja komputerowa wykracza zatem poza proste przetwarzanie obrazu, biorąc pod uwagę informacje kontekstowe i inteligentnie reagując na zmiany w środowisku. Korzystając z algorytmów i uczenia maszynowego, rozpoznawane są wzorce i cechy, identyfikowane obiekty i śledzone ruchy.
Wizja komputerowa może być wykorzystywana w wielu obszarach, w tym w opiece zdrowotnej, pojazdach autonomicznych i nadzorze bezpieczeństwa. Na przykład w robotyce wizja komputerowa umożliwia robotom wizualne postrzeganie otoczenia, identyfikowanie obiektów i podejmowanie decyzji na tej podstawie. Umożliwia to robotom autonomiczne wykonywanie zadań, takich jak
Celem wizji komputerowej jest wykorzystanie modeli uczenia maszynowego do tworzenia systemów cyfrowych, które mogą przetwarzać i analizować dane wizualne w taki sam sposób jak ludzie - lub nawet szybciej i wydajniej.
Proces ten rozpoczyna się od przechwytywania obrazów i filmów, które są wstępnie przetwarzane przez algorytmy. Dane są następnie analizowane przez uczenie maszynowe przy użyciu wcześniej wyszkolonych modeli, które są w stanie rozpoznać określone cechy i wzorce. Modele te opierają się na dużych zbiorach danych, dzięki czemu stają się coraz dokładniejsze poprzez szkolenie.
Jedną z zaawansowanych technik jest głębokie uczenie, które wykorzystuje konwolucyjne sieci neuronowe (CNN). Sieci te składają się z kilku warstw, które rozpoznają określone cechy obrazu. Najpierw rozpoznawane są proste cechy, takie jak krawędzie, a następnie bardziej złożone wzorce. Dzięki temu system może stopniowo coraz lepiej rozumieć obiekty i sceny
Wreszcie, wyodrębnione informacje są wykorzystywane do wyzwalania działań lub wydawania zaleceń. Dzięki postępowi w dziedzinie sprzętu i mocy obliczeniowej, wizja komputerowa może już działać w czasie zbliżonym do rzeczywistego i obsługiwać złożone zadania. Przetwarzanie w chmurze i przetwarzanie brzegowe jeszcze bardziej zwiększyły wydajność wizji komputerowej.