Effiziente Bildannotation durch automatisierte Tools

Das Fürther Unternehmen solectrix GmbH ist auf die Entwicklung von Kamerasystemen spezialisiert, die unter anderem im Bereich des Arbeitsschutzes Verwendung finden, indem beispielsweise Personen in der Nähe von Flurförderfahrzeugen erkannt werden. Dazu kommt ein KI-Modell zum Einsatz, welches durch annotierte Bilder trainiert wird. Manuelle Annotation ist jedoch zeit- und kostenintensiv, weshalb das Unternehmen untersuchen wollte, wie die manuelle Bildannotation durch automatisierte Tools effizienter gestaltet werden kann. Verschiedene Annotationstools wurden in einem Projekt mit dem Augsburger Zentrum getestet.

In dem Unternehmen aus dem Bereich Elektronikentwicklung und -fertigung sind mehr als 120 Mitarbeitende beschäftigt, die unter anderem daran arbeiten, ihre Kunden mit Kamerasystemen auszustatten. Diese werden für die Erkennung von Objekten, auch Objektdetektion genannt, verwendet. Im industriellen Umfeld können diese zum Beispiel an Gabelstaplern angebracht und dafür genutzt werden, um Personen zu erkennen und so Arbeitsunfälle zu verhindern. Hierfür wird Künstliche Intelligenz eingesetzt, wobei viele Daten benötigt werden, um das KI-Modell auf deren Grundlage zu trainieren.

Diese Daten sind bei Solectrix zwar vorhanden, zum Beispiel von Baustellen, allerdings müssen diese aufwändig annotiert werden – ein wichtiger Schritt im Prozess für die Objektdetektion. Bei der Annotation werden den Daten Kontext-Informationen hinzugefügt, die für das Training des KI-Modells entscheidend sind. Im konkreten Fall der Bildannotation bedeutet dies das Markieren und Beschriften von Objekten innerhalb eines Bildes.

Manuelles Annotieren, also die händische Bearbeitung durch eine Person, ist sehr kostspielig und zeitaufwändig. Daher hatte das Unternehmen eine klare Fragestellung, die es im Rahmen des Projekts mit dem Mittelstand-Digital Zentrum Augsburg angehen wollte: Wie können wir die manuelle Annotation von Bilddaten effizienter gestalten?

Manuelle und automatisierte Annotation von Bilddaten im Vergleich

Die Idee bestand darin, zu recherchieren, welche Tools zur automatischen Annotation existieren. Vier verschiedene Tools hat Mittelstand-Digital Experte Christopher Sobel vom Fraunhofer IIS im Team getestet und evaluiert, um herauszufinden, wie gut sie im Vergleich zur menschlichen Annotation abschneiden. Das konkrete Problem, das gelöst werden sollte, war die Verbesserung der Effizienz und der Genauigkeit der Bilddatenannotation. Da die Qualität der Annotation einen großen Einfluss auf die Zuverlässigkeit der späteren KI-Modelle hat, ist es umso wichtiger bei der Auswahl des geeigneten Tools sorgfältig vorzugehen.

Für die Datensammlung wurden zu Beginn mehrere Videos in der L.I.N.K. Testhalle am Fraunhofer IIS Standort Nürnberg aufgenommen. Um eine möglichst realistische Datengrundlage zu erfassen, waren dabei die Kameras an einem Gabelstapler angebracht und es wurden verschiedene Szenarien dargestellt: Die Beleuchtung in der Halle wurde an- und ausgeschaltet, der Gabelstapler bzw. die Personen haben sich bewegt oder sind gestanden oder Personen wurden durch andere Objekte verdeckt.

Nach der Datenaufnahmen folgte im nächsten Schritt die manuelle Annotation. Dazu wurden einige tausend Frames (Bilder) händisch gelabelt. Dies wird gemacht, um sogenannte Ground Truth Daten zu erzeugen. Diese Daten sind die tatsächlichen, beobachteten Daten, die als verlässliche Referenz für die Vorhersagen des Modells dienen. Die Annotation erfolgte mithilfe eines Tools, bei dem manuell sogenannte Bounding Boxes um die Personen gezogen und die entsprechenden Klassen zugewiesen wurden.

Im Vergleich dazu wurde mit sogenannten Zero-Shot-Modellen gearbeitet. Diese Modelle erfordern kein Training und können sofort verwendet werden. Sie verstehen natürliche Sprache und identifizieren Objekte auf einem ungelabelten Bild anhand deren textueller Beschreibung (z. B. Mensch, Hund, …). Das Ergebnis ist eine Bounding Box um das erkannte Objekt. Während die manuelle Annotation 40 Stunden in Anspruch genommen hat, konnten die getesteten Zero-Shot-Modelle dies in 2 bis 20 Minuten erledigen.

Um die Modelle bewerten zu können, kamen Metriken zum Einsatz, unter anderem die „Intersection over Union“ (IoU). Diese bestimmt die Genauigkeit der Modelle, indem die Ground Truth Daten mit der Vorhersage des Modells verglichen werden. Ein höherer IoU-Wert deutet demnach auf eine bessere Übereinstimmung hin. Die Ergebnisse der Tests zeigen, dass die automatische Annotation eine vielversprechende Lösung für die Herausforderungen der manuellen Bilddatenannotation darstellt.

Welches Modell passt am besten?

Im nächsten Schritt wurden YOLO-Modelle, die der Echtzeit-Objekterkennung dienen, sowohl mit den auto-annotierten Daten als auch mit dem Ground Truth-Datensatz trainiert. Diese Modelle wurden dann auf einem vorab definierten Testdatensatz verglichen, um zu bewerten, wie sich die Qualität der automatischen Annotation auf die Leistung der trainierten YOLO-Modelle auswirkt.

Die Ergebnisse zeigen: Die automatische Annotation von Bilddaten ist effektiv. Die sogenannte „mean average Precision“ (mAP) der mit automatisch annotierten Bilddaten trainierten YOLO-Modelle war im besten Fall nur um 7 % geringer als die des mit Ground Truth Daten trainierten Modells. Es gibt also geringfügige Einbußen bei der Performance, jedoch eine signifikante Zeitersparnis beim Annotieren der Daten um den Faktor 120. Dies macht den Ansatz besonders wertvoll für Unternehmen, die große Mengen an Bilddaten verarbeiten müssen, jedoch nicht über die Ressourcen verfügen, die überwältigenden Mengen an Daten manuell zu annotieren.