In den letzten Jahren wurden mehrere Erhebungen über Erkennung und Anerkennung veröffentlicht [siehe Hjelmes und Low (2001), Yang et al. (2002), Sun et al. (2006), Li and Allinson (2008), Enzweiler und Gavrila (2009), Dollar et al. (2012), Andreopoulos und Tsotsos (2013), Li et al. (2015) und Zafeiriou et al. (2015)], und es gibt vier Hauptprobleme im Zusammenhang mit der Objekterkennung. Die erste ist die Objektlokalisierung, die darin besteht, die Position und den Maßstab einer einzelnen Objektinstanz zu bestimmen, von der bekannt ist, dass sie im Bild vorhanden ist. Die zweite ist die Objektpräsenzklassifizierung, die der Bestimmung entspricht, ob mindestens ein Objekt einer bestimmten Klasse in einem Bild vorhanden ist (ohne Angaben zur Position, zum Maßstab oder zur Anzahl der Objekte), während das dritte Problem die Objekterkennung ist, die darin besteht, zu bestimmen, ob eine bestimmte Objektinstanz im Bild vorhanden ist. Das vierte damit zusammenhängende Problem ist die Ansichts- und Posenschätzung, die darin besteht, die Ansicht des Objekts und die Pose des Objekts zu bestimmen. Schlüsselwörter: Objekterkennung, Perspektive, Mini-Rezension, aktuelle Richtungen, offene Probleme Die R-CNN-Modelle sind im Allgemeinen genauer, aber die YOLO-Modellfamilie ist schnell, viel schneller als R-CNN und erreicht die Objekterkennung in Echtzeit. Die Objekterkennung wurde in vielen Anwendungen eingesetzt, wobei die beliebtesten sind: (i) Mensch-Computer-Interaktion (HCI), (ii) Robotik (z. B. Serviceroboter), (iii) Unterhaltungselektronik (z.

B. Smartphones), (iv) Sicherheit (z. B. Erkennung, Tracking), (v) Abruf (z. B. Suchmaschinen, Fotomanagement) und (vi) Transport (z. B. autonomes Fahren).

Jede dieser Anwendungen hat unterschiedliche Anforderungen, einschließlich: Bearbeitungszeit (off-line, on-line oder real-time), Robustheit gegenüber Okklusionen, Invarianz von Rotationen (z. B. Drehungen in der Ebene) und Erkennung unter Posenänderungen. Während viele Anwendungen die Erkennung einer einzelnen Objektklasse (z. B. Flächen) und aus einer einzigen Ansicht (z. B. Frontflächen) in Betracht ziehen, erfordern andere die Erkennung mehrerer Objektklassen (Menschen, Fahrzeuge usw.) oder einer einzelnen Klasse aus mehreren Ansichten (z. B.

Seiten- und Frontansicht von Fahrzeugen). Im Allgemeinen können die meisten Systeme nur eine einzelne Objektklasse aus einem eingeschränkten Satz von Ansichten und Posen erkennen. Park, D., Ramanan, D., and Fowlkes, C. (2010). “Multiresolution models for object detection”, in Computer Vision ECCV 2010, Volume 6314 of Lecture Notes in Computer Science, eds K. Daniilidis, P. Maragos, and N. Paragios (Berlin: Springer), 241–254. Das RPN arbeitet, indem es die Ausgabe eines vortrainierten tiefen CNN, wie Z. B.

VGG-16, übernimmt und ein kleines Netzwerk über die Feature-Map weitergibt und mehrere Regionsvorschläge und eine Klassenvorhersage für jeden herausgibt. Die Vorschläge für regionen sind Begrenzungsrahmen, die auf so genannten Ankerkästen oder vordefinierten Formen basieren, die den Vorschlag der Regionen beschleunigen und verbessern sollen. Die Klassenvorhersage ist binär und gibt das Vorhandensein eines Objekts an, oder nicht, die so genannte “Objektität” der vorgeschlagenen Region. Cadena, C., Dick, A., und Reid, I. (2015). “Ein schnelles, modulares Szenenverständnissystem mit kontextbewusster Objekterkennung”, in Robotics and Automation (ICRA), 2015 IEEE International Conference on (Seattle, WA). Torralba, A., Murphy, K. P. und Freeman, W. T.

(2007). Freigeben visueller Features für die Erkennung von Objekten mit mehreren Klassen und mehreren Ansichtselementen. IEEE Trans. Muster Anal. Mach. Intell. 29, 854–869. doi:10.1109/TPAMI.2007.1055 Sun, Z., Bebis, G., and Miller, R. (2006). Auf der Straße Fahrzeugerkennung: eine Überprüfung. IEEE Trans. Muster Anal.

Mach. Intell. 28, 694–711. doi:10.1109/TPAMI.2006.104 Dies umfasst die Techniken R-CNN, Fast R-CNN und Faster-RCNN, die für die Objektlokalisierung und Objekterkennung entwickelt und demonstriert wurden. Yang, M.-H., Ahuja, N., and Kriegman, D. (2000a). “Mischungen von linearen Unterräumen zur Gesichtserkennung”, in Proc. Fourth IEEE Int. Conf. on Automatic Face and Gesture Recognition (Grenoble: IEEE), 70–76. Verschae, R., Ruiz-del-Solar, J., und Correa, M.

(2008). Ein einheitliches Lernframework für die Objekterkennung und -klassifizierung mithilfe verschachtelter Kaskaden verstärkter Klassifikatoren.