Filmora
Filmora - KI Video Editor
Gespenstische Halloween KI Video Magie
ÖFFNEN
Filmora Video Editor
Erstellen Sie mühelos Videos mit KI.
  • Verschiedene KI-Tools zur Steigerung der Effizienz bei der Videoerstellung.
  • Bieten Sie beliebte Vorlagen und lizenzfreie kreative Ressourcen an
Empfohlen von endorse

Multi Object Tracking: Der ultimative Leitfaden 2023

Maria Wiedermann
Maria Wiedermann Veröffentlicht am 04-11-2022, Aktualisiert am 11-04-2024

Multi Object Tracking (MOT) in einem Video ist ein anspruchsvoller Prozess mit vielen Anwendungen sowohl im öffentlichen als auch im privaten Sektor. Überwachungskameras an öffentlichen Plätzen können potenzielle Kriminelle aufspüren, während Einzelhandelsgeschäfte die Objektverfolgung nutzen können, um das Kundenverhalten zu überwachen.

MOT wurde 1988 von Zenon Pylyshyn entwickelt und ist eine Technik, mit der zunächst die Fähigkeit des menschlichen Sehsystems untersucht wurde, mehrere sich bewegende Objekte zu verfolgen. Seitdem wurden jedoch verschiedene Methoden zur Objektverfolgung durch Computer Vision eingeführt.

In diesem Artikel befassen wir uns mit Multi Object Tracking und bieten eine detaillierte Anleitung zur Objektverfolgung und den Anforderungen an die Verfolgung mehrerer Objekte.

In diesem Artikel
  1. Was ist Objektverfolgung?
    1. SOT
    2. MOT
    1. Erkennung
    2. Vorhersage
    3. Daten Assoziation
    1. OpenCV-basierte Objektverfolgung
    2. MDNet
    3. DeepSort
    4. ROLO

Teil 1. Was ist Objektverfolgung?

Objektverfolgung ist eine Anwendung der Computer Vision, bei der die Bewegung von Objekten in Echtzeit verfolgt wird. Es ist ein nützliches Tool für viele verschiedene Zwecke, wie z.B. Videoüberwachung, Mensch-Computer-Interaktion und Automobilsicherheit.

Der Objektverfolgungsalgorithmus ist ein auf Deep Learning basierendes Programm, das ein Modell für jedes einzelne Objekt entwickelt und eine Reihe von Trajektorien erstellt, um deren Bewegung darzustellen. Dies geschieht durch eine Anzeige, wie z.B. ein Quadrat, das dem Objekt folgt und den Benutzer in Echtzeit über seine Position auf dem Bildschirm informiert.

Die Algorithmen sind so konzipiert, dass sie mit verschiedenen Arten von Eingaben arbeiten können, von Bildern und Videos bis hin zu Echtzeit-Aufnahmen. Die Eingaben, die Sie erwarten, wirken sich auf die Kategorie, die Anwendungsfälle und die Objektverfolgungsanwendungen aus.

Teil 2. Arten der Objektverfolgung

Es gibt zwei Haupttypen oder Ebenen der Objektverfolgung: SOT und MOT

SOT

Die Einzelobjektverfolgung oder visuelle Objektverfolgung ist ein Verfahren, bei dem das Begrenzungsrechteck des Zielobjekts dem Tracker im ersten Bild zugewiesen wird. Der Tracker erkennt dann das gleiche Objekt in allen anderen Bildern.

SOT erkennt und verfolgt nur ein einziges Objekt und fällt unter die Kategorie des detektionsfreien Trackings, was bedeutet, dass es manuell mit einer festen Anzahl von Objekten initialisiert wird, auch wenn andere Objekte in den Frames vorhanden sind.

Lassen Sie es uns anhand eines Beispiels verstehen: Eine Polizeibehörde klärt einen Mordfall auf, in den ein Auto auf der Autobahn verwickelt ist. Sie erhielten Aufnahmen der Überwachungskamera und wollten das Fahrzeug verfolgen, um das Rätsel zu lösen. Es kann jedoch einige Zeit dauern, dies manuell zu tun. Sie verwenden daher das Single Object Tracking-Verfahren und weisen dem Tracker ein Begrenzungsrechteck für das Zielfahrzeug zu, um zu überprüfen, was mit diesem passiert.

MOT

Beim Multiple Object Tracking werden mehrere Objekte in einem Bild verfolgt. Seit seiner Entwicklung im Jahr 1988 durch Zenon Pylyshyn wurden mehrere Experimente durchgeführt, um zu sehen, wie menschliche und Computer-Vision-Systeme mehrere Objekte in einem Bild erkennen und verfolgen können.

Bei der Ausgabe werden durch die Mehrfachverfolgung mehrere Begrenzungsrahmen erstellt, die anhand bestimmter Parameter wie Koordinaten, Breite, Höhe, etc. identifiziert werden. MOT-Programm ist nicht auf das Aussehen oder die Anzahl der zu verfolgenden Objekte trainiert.

Außerdem weist der Algorithmus jedem Feld eine Erkennungs-ID zu, die dem Modell hilft, die Objekte innerhalb einer Klasse zu identifizieren. Wenn sich zum Beispiel mehrere Autos in einem Bild befinden, identifiziert der MOT-Algorithmus jedes Auto als separates Objekt und weist ihm eine eindeutige ID zu.

Teil 3. Was braucht Multi Object Tracking?

Oben finden Sie die Erklärung des MOT. In diesem Teil werden wir uns auf den Mechanismus konzentrieren. Im Folgenden finden Sie einige der wichtigsten Anforderungen für Multi Object Tracking:

1. Erkennung

Die beste Methode zur Erkennung von Objekten, die Sie interessieren, hängt davon ab, was Sie verfolgen möchten und ob die Kamera stationär ist oder sich bewegt.

MOT mit stationärer Kamera

Das vision.ForegroundDetector System Objekt kann verwendet werden, um Objekte in Bewegung vor einem stationären Hintergrund zu erkennen, indem eine Hintergrundsubtraktion durchgeführt wird. Dieser Ansatz ist effizient, erfordert aber, dass die Kamera stationär ist.

MOT mit bewegter Kamera

Ein Sliding-Window-Erkennungsansatz wird häufig mit einer sich bewegenden Kamera verwendet, um Objekte in Bewegung zu erkennen. Dieser Ansatz ist jedoch langsamer als die Methode der Hintergrundsubtraktion.

Verwenden Sie die folgenden Methoden, um die angegebenen Kategorien von Objekten zu ermitteln.

Typ des Verfolgungsobjekts Kamera Position Ansatz
Benutzerdefinierte Objektkategorie Stationär/Beweglich Benutzerdefinierter Schiebefenster-Detektor mit der Funktion selectStrongestBbox und extractHOGFeatures oder trainCascadeObjectDetector
Fußgänger Stationär/Beweglich vision.PeopleDetector System object
Bewegtes Objekt Stationär vision.ForegroundDetector System object™
Gesichter, Oberkörper, Mund, Nase, Augen, etc. Stationär/Beweglich vision.CascadeObjectDetector System object

2. Vorhersage

Die zweite Voraussetzung für Multi Object Tracking ist die "Vorhersage". Dabei müssen Sie die Position des zu verfolgenden Objekts im nächsten Bild vorhersagen. Zu diesem Zweck können Sie das Modell so gestalten, dass es den Kalman-Filter verwendet (vision.KalmanFilter).

Dies hilft bei der Vorhersage der nächsten Position des Objekts in den Bildern. Dabei werden die konstante Geschwindigkeit des Objekts, das Messrauschen bei konstanter Beschleunigung und das Prozessrauschen berücksichtigt. Das Messrauschen ist die Erkennung eines Fehlers, während das Prozessrauschen die Abweichung der tatsächlichen Bewegung des Objekts von der des Bewegungsmodells ist.

3. Daten Assoziation

Die Datenzuordnung ist ein entscheidender Schritt bei der Verfolgung mehrerer Objekte und beinhaltet die Verknüpfung von Datenpunkten, die dasselbe Objekt in verschiedenen Frames darstellen.

Ein "Track" ist der zeitliche Verlauf eines Objekts, der aus mehreren Erfassungen besteht und die gesamte Historie der vergangenen Standorte des Objekts oder einfach den letzten bekannten Standort und die aktuelle Geschwindigkeit des Objekts umfassen kann.

Teil 4. Ansätze der Objektverfolgung

Nachdem wir verstanden haben, was MOT braucht, wollen wir uns mit der Theorie befassen, wie Object Tracking funktioniert.

Im Folgenden finden Sie die beliebtesten Ansätze für die Objektverfolgung:

1. OpenCV-basierte Objektverfolgung

Es gibt viele Möglichkeiten der Objektverfolgung, aber eine der beliebtesten ist die Verwendung der integrierten Algorithmen in der OpenCV-Bibliothek.

Die Bibliothek verfügt über eine Tracking-API mit Objektverfolgungsalgorithmen und acht Trackern: BOOSTING, MEDIANFLOW, MIL, KCF, CSRT, TLD, GOTURN und MOSSE. Jeder Tracker hat seine eigenen Vor- und Nachteile und verfolgt unterschiedliche Ziele. Der MOSSE-Tracker eignet sich zum Beispiel am besten für die schnellste Objektverfolgung.

Um einen tieferen Einblick in OpenCV Object Tracking zu erhalten und zu erfahren, was OpenCV ist, lesen Sie bitte unseren Artikel über: OpenCV Tracking: Ein vollständiger Leitfaden im Jahr 2022.

2. MDNet

MDNet ist ein Durchbruch auf dem Gebiet des Trackings, denn es ist das erste Netzwerk, das auf Klassifizierungsmodellen basiert und nicht auf dem traditionellen Ansatz. Dadurch ist MDNet viel schneller und genauer als andere Tracking-Methoden.

Inspiriert durch das R-CNN-Objekterkennungsnetzwerk kann der MDNet-Algorithmus Objekte in Echtzeit effizienter und mit hoher Geschwindigkeit erkennen, was ihn zu einem hochmodernen visuellen Tracker macht.

3. DeepSort

DeepSort ist der beliebteste Algorithmus für die Objektverfolgung. Die Integration von Informationen über das Erscheinungsbild oder tiefe Abstandsmetriken verbessern die Leistung von DeepSORT erheblich.

Durch die Hinzufügung der Distanzmetrik "Deep Appearance" kann DeepSort die Identifizierung von Switches um 45% vermeiden und komplexe Szenarien bewältigen. Auf dem MOT17-Datensatz hat DeepSORT 77,2 IDF1 und 75,4 MOTA mit 239 ID-Switches erhalten, aber einen niedrigeren FPS von 13.

4. ROLO

ROLO - eine Kombination aus YOLO und LSTM - ist ein räumlich-zeitliches neuronales Netzwerk, das das YOLO-Modul und das LTSM-Netzwerk für die Erfassung visueller Merkmale, Standortprioritäten und die Lokalisierung der Flugbahn des Zielobjekts verwendet.

Das LSTM-Netzwerk verwendet für jedes Bild einen Eingangsvektor der Länge 4096, um die Position des Zielobjekts vorherzusagen. Dieser Vektor wird durch die Kombination der visuellen Merkmale auf hoher Ebene mit der YOLO-Erkennung erhalten. Wenn LSTM und YOLO zusammenarbeiten, können sie den Standort des Zielobjekts genauer vorhersagen.

ALT TEXT: Rolo für die Objektverfolgung

Fazit

In diesem ultimativen Leitfaden haben wir Multi Object Tracking und seine Anforderungen besprochen. Wir haben auch verschiedene Ansätze für die Objektverfolgung untersucht, um Ihnen bei der Entscheidung zu helfen, welcher Ansatz für Ihre Bedürfnisse am besten geeignet ist.

Wir hoffen, dass diese Anleitung für Sie hilfreich war und Ihre Fragen zum Thema Objektverfolgung und deren Typen beantwortet wurden.

Kostenloser Download 
Kostenloser Download 
Maria Wiedermann
Maria Wiedermann Redakteur
Weiterteilen:
Weiterteilen:
filmora logo filmora logo
  • ㆍViel Zeit sparen und Videoqualität verbessern mit KI-Tools.
  • ㆍAnsprechende, hochwertige Videos für soziale Medien produzieren.
  • ㆍ10+ Milliarden Stock Medien 😆
  • Mehr Info >>
100 % Sicherheit | Ohne Werbung