In dem Unternehmen aus dem Bereich Elektronikentwicklung und -fertigung sind mehr als 120 Mitarbeitende beschäftigt, die unter anderem daran arbeiten, ihre Kunden mit Kamerasystemen auszustatten. Diese werden für die Erkennung von Objekten, auch Objektdetektion genannt, verwendet. Im industriellen Umfeld können diese zum Beispiel an Gabelstaplern angebracht und dafür genutzt werden, um Personen zu erkennen und so Arbeitsunfälle zu verhindern. Hierfür wird Künstliche Intelligenz eingesetzt, wobei viele Daten benötigt werden, um das KI-Modell auf deren Grundlage zu trainieren.
Diese Daten sind bei Solectrix zwar vorhanden, zum Beispiel von Baustellen, allerdings müssen diese aufwändig annotiert werden – ein wichtiger Schritt im Prozess für die Objektdetektion. Bei der Annotation werden den Daten Kontext-Informationen hinzugefügt, die für das Training des KI-Modells entscheidend sind. Im konkreten Fall der Bildannotation bedeutet dies das Markieren und Beschriften von Objekten innerhalb eines Bildes.
Manuelles Annotieren, also die händische Bearbeitung durch eine Person, ist sehr kostspielig und zeitaufwändig. Daher hatte das Unternehmen eine klare Fragestellung, die es im Rahmen des Projekts mit dem Mittelstand-Digital Zentrum Augsburg angehen wollte: Wie können wir die manuelle Annotation von Bilddaten effizienter gestalten?
Die Idee bestand darin, zu recherchieren, welche Tools zur automatischen Annotation existieren. Vier verschiedene Tools hat Mittelstand-Digital Experte Christopher Sobel vom Fraunhofer IIS im Team getestet und evaluiert, um herauszufinden, wie gut sie im Vergleich zur menschlichen Annotation abschneiden. Das konkrete Problem, das gelöst werden sollte, war die Verbesserung der Effizienz und der Genauigkeit der Bilddatenannotation. Da die Qualität der Annotation einen großen Einfluss auf die Zuverlässigkeit der späteren KI-Modelle hat, ist es umso wichtiger bei der Auswahl des geeigneten Tools sorgfältig vorzugehen.
Für die Datensammlung wurden zu Beginn mehrere Videos in der L.I.N.K. Testhalle am Fraunhofer IIS Standort Nürnberg aufgenommen. Um eine möglichst realistische Datengrundlage zu erfassen, waren dabei die Kameras an einem Gabelstapler angebracht und es wurden verschiedene Szenarien dargestellt: Die Beleuchtung in der Halle wurde an- und ausgeschaltet, der Gabelstapler bzw. die Personen haben sich bewegt oder sind gestanden oder Personen wurden durch andere Objekte verdeckt.
Nach der Datenaufnahmen folgte im nächsten Schritt die manuelle Annotation. Dazu wurden einige tausend Frames (Bilder) händisch gelabelt. Dies wird gemacht, um sogenannte Ground Truth Daten zu erzeugen. Diese Daten sind die tatsächlichen, beobachteten Daten, die als verlässliche Referenz für die Vorhersagen des Modells dienen. Die Annotation erfolgte mithilfe eines Tools, bei dem manuell sogenannte Bounding Boxes um die Personen gezogen und die entsprechenden Klassen zugewiesen wurden.
Im Vergleich dazu wurde mit sogenannten Zero-Shot-Modellen gearbeitet. Diese Modelle erfordern kein Training und können sofort verwendet werden. Sie verstehen natürliche Sprache und identifizieren Objekte auf einem ungelabelten Bild anhand deren textueller Beschreibung (z. B. Mensch, Hund, …). Das Ergebnis ist eine Bounding Box um das erkannte Objekt. Während die manuelle Annotation 40 Stunden in Anspruch genommen hat, konnten die getesteten Zero-Shot-Modelle dies in 2 bis 20 Minuten erledigen.
Um die Modelle bewerten zu können, kamen Metriken zum Einsatz, unter anderem die „Intersection over Union“ (IoU). Diese bestimmt die Genauigkeit der Modelle, indem die Ground Truth Daten mit der Vorhersage des Modells verglichen werden. Ein höherer IoU-Wert deutet demnach auf eine bessere Übereinstimmung hin. Die Ergebnisse der Tests zeigen, dass die automatische Annotation eine vielversprechende Lösung für die Herausforderungen der manuellen Bilddatenannotation darstellt.
Im nächsten Schritt wurden YOLO-Modelle, die der Echtzeit-Objekterkennung dienen, sowohl mit den auto-annotierten Daten als auch mit dem Ground Truth-Datensatz trainiert. Diese Modelle wurden dann auf einem vorab definierten Testdatensatz verglichen, um zu bewerten, wie sich die Qualität der automatischen Annotation auf die Leistung der trainierten YOLO-Modelle auswirkt.
Die Ergebnisse zeigen: Die automatische Annotation von Bilddaten ist effektiv. Die sogenannte „mean average Precision“ (mAP) der mit automatisch annotierten Bilddaten trainierten YOLO-Modelle war im besten Fall nur um 7 % geringer als die des mit Ground Truth Daten trainierten Modells. Es gibt also geringfügige Einbußen bei der Performance, jedoch eine signifikante Zeitersparnis beim Annotieren der Daten um den Faktor 120. Dies macht den Ansatz besonders wertvoll für Unternehmen, die große Mengen an Bilddaten verarbeiten müssen, jedoch nicht über die Ressourcen verfügen, die überwältigenden Mengen an Daten manuell zu annotieren.
Der Handwerksbetrieb aus Gersthofen, der seit 1984 auf Kälte- und Klimatechnik spezialisiert ist, hat sich im Laufe der Jahre stark weiterentwickelt. Mit einem Team von 26 Mitarbeitenden hat sich nicht nur die Anzahl der Beschäftigten erhöht, sondern auch das erforderliche Fachwissen vervielfacht. Abhängig vom Hersteller, dem Einsatzumfeld oder auch der Größe des Kühlsystems variieren die Anforderungen an Montage und Wartung. Vor allem jüngere Mitarbeitende setzen dabei auf das wertvolle Wissen und die Erfahrung der älteren Kolleg:innen und greifen schnell zum Telefon. Insbesondere da sich die ältere Generation allmählich in den Ruhestand begibt, stellen diese Entwicklungen das Unternehmen vor neue Herausforderungen. So ist der Wunsch nach der Implementierung eines Chatbots entstanden. Er soll eine zukunftsfähige Lösung sein, welche den Wissensaustausch fördert und den Mitarbeitenden jederzeit zur Verfügung steht.
Welche Vorteile die Digitalisierung der Unternehmensprozesse mit sich bringt, haben die beiden Geschäftsführer, Dominik Wildner und Dominik Stark, bereits erkannt. In den letzten Jahren haben sie eine breite Systemlandschaft aufgebaut, die die Abläufe in verschiedenen Abteilungen unterstützt. So nutzen sie nicht nur handelsübliche Cloud-Lösungen für die Ablage von Bedienungs- und Montageanleitungen, sondern beispielsweise auch ein Ticket-System für die Personaleinsatzplanung, ein CRM-System für das Kundendatenmanagement oder ein ERP-System. Doch die Geschäftsführer möchten mehr – sie wollen „den KI-Zug nicht verpassen“ und haben sich Unterstützung aus dem Mittelstand-Digital Zentrum Augsburg geholt.
Die Mittelstand-Digital Expertin Saskia Hutschenreiter und der Mittestand-Digital KI-Trainer Sebastian Maier haben im Unternehmen eine Potenzialanalyse durchgeführt und dabei einen tiefen Blick in die Systemlandschaft des Betriebs geworfen. Sie fokussierten sich dabei vor allem auf die wichtigste Anforderung eines Chatbots: eine passende Datengrundlage. Hier mussten die Expert:innen die beiden Geschäftsführer auf den Boden der Tatsachen zurückbringen. Aktuell liegen die Daten über verschiedene Systeme verteilt und es besteht für die Monteur:innen keine einheitliche Dokumentationspflicht, wie sie beispielsweise beim Beheben von Fehlern in der Montage sinnvoll wäre, um bei einem erneuten Auftreten des Problems direkt eine Lösung parat zu haben. So haben die Expert:innen basierend auf ihren Erkenntnissen in mehreren Gesprächen im Betrieb vor Ort und online aufgezeigt, wie eine geeignete Roadmap auf dem Weg in ein smarteres Wissensmanagement aussehen kann. Ziel ist es, zunächst eine geeignete Datenschnittstelle zu schaffen, anschließend eine zentrale Datenbank aufzubauen und so schlussendlich ein KI-System aufzusetzen, auf welchem der Chatbot aufbauen kann.
Der erste Schritt (Schaffen der Datenschnittstelle) bildet die Grundlage für die Integration der verschiedenen Systeme und Dateiablagen. Hierbei werden die bestehenden Datenquellen analysiert, um herauszufinden, welche Daten für den Anwendungsfall überhaupt von Bedeutung sind. Außerdem muss geprüft werden, welche Schnittstellen schon zur Verfügung stehen, um hier Mehraufwand zu vermeiden. Auch Implementierungsdauer und -kosten gilt es abzuwägen.
Im zweiten Schritt (Aufbau der zentralen Datenbank) wird die zentrale Datenbank eingerichtet. Hier boten die Expert:innen zwei Ansätze zur Auswahl an: relationale oder graphbasierte Datenbanken. Während relationale Systeme gut für komplexe Filterungen oder Datenaggregationen geeignet sind (z. B. „Liste mir alle Hersteller und deren Preislisten für Kühlanhänger auf.“), bieten graphbasierte Lösungen intuitivere Möglichkeiten, um zusammenhängende Informationen zu suchen (z. B. „Wie haben wir den Fehler mit dem Code A237 im letzten halben Jahr an diesem Kühlanhänger gelöst?“).
Der letzte Schritt (Aufsetzen des KI-Systems) umfasst die Implementierung eines Retrieval Augmented Generation (RAG)-Systems. Dieses innovative, aktuell stark beforschte, KI-System nutzt die zentrale Datenbank, um schnell und präzise Antworten auf technische Fragen der Monteur:innen zu liefern. Durch die Kombination der Datenbankabfragen mit einem großen Sprachmodell (Large Language Model) können die Monteur:innen innerhalb weniger Sekunden die benötigten Informationen abrufen.
Die Umsetzung der Roadmap hält zukünftig also nicht nur das Wissen im Unternehmen, sondern steigert auch die Effizienz der Arbeit. Die Monteur:innen können schneller auf technische Herausforderungen reagieren und wertvolle Zeit sparen. Außerdem sammelt GBS Kühlanlagen so erste Erfahrungen im Aufsetzen von KI-Projekten und baut sich eine gute Basis für zukünftige Vorhaben auf. Erweitert man die Datengrundlage beispielsweise um die durchschnittlichen Lieferzeiten des eingesetzten Materials, kann die Lösung auch in der Arbeitsvorbereitung unterstützen.
Direkt im Anschluss an die Ergebnispräsentation der Potenzialanalyse sind die beiden Geschäftsführer in den Austausch mit einem möglichen Lösungsanbieter gegangen. Gemeinsam planen sie die Umsetzung der ersten Schritte der Roadmap. Auch über das Wissensmanagement im Montage- und Wartungsalltag hinaus, sieht GBS Kühlanlagen für sich einen großen Mehrwert durch die Einführung von Künstlicher Intelligenz. Weitere Ideen beziehen sich beispielsweise auf den Erstkontakt mit Kunden. Hier könnte, wenn mal wieder Not am Mann oder der Frau ist, ein sprechender Chatbot gezielt die erforderlichen Eckdaten abfragen und eine Zusammenfassung an das Service-Team senden.
Das Unternehmen attempto aus Oberhaching im Landkreis München ist seit 2006 als Unternehmensberatung für IT-Projekte tätig und bietet dabei unter anderem die Entwicklung kundenindividueller Software sowie Beratung bei der Einführung, Konzeption, Entwicklung und Wartung von IT-Systemen. Zu den Kunden zählen Banken und Versicherungen sowie Unternehmen aus Industrie, Handel und dem öffentlichen Sektor. Eines ihrer Produkte ist eine Softwarelösung, die die Arbeit mit Personalprofilen digitalisiert. Die Anwendung richtet sich an Unternehmen wie beispielsweise Personaldienstleister oder Beratungsfirmen, die regelmäßig Mitarbeiterprofile erstellen und aktualisieren müssen, um diese für Kundenprojekte anzubieten.
Die Kernfunktionen dieser SaaS-Lösung (Software-as-a-Service) sind die Erfassung, Pflege und Verwaltung von Kompetenz- und Erfahrungsprofilen der Mitarbeitenden, sodass auf einer einheitlichen, digitalen Plattform sämtliche Prozesse im Profil- und Angebotsmanagement zentralisiert werden. Die Mitarbeitenden können ihre Qualifikationen und Erfahrungen selbst direkt in der Plattform hinterlegen und aktualisieren. Damit soll gewährleistet werden, dass Vertriebsmitarbeitende auf eine aktuelle und verlässliche Datenbasis zugreifen können, um das passende Personal für Projekte auszuwählen und an Kunden weiterzuvermitteln.
KI wird hier bereits eingesetzt, um die Dateneingabe zu vereinfachen und die Datenqualität so weiter zu steigern. Zudem sind Filter- und Suchfunktionen integriert, um eine gezielte Suche nach bestimmten Qualifikationen und Erfahrungen zu ermöglichen. Allerdings möchte attempto den Einsatz von KI weiter ausweiten, weshalb die Firma den Dialog mit dem Mittelstand-Digital Zentrum Augsburg suchte, um gemeinsam neue Ansätze zu entwickeln. Die KI-Experten Dr. Martin Gottwald und Alexandros Tsakpinis von fortiss haben die Plattform unter die Lupe genommen und sich die vorhandenen Ideen näher angeschaut. Gemeinsam mit den Mitarbeitenden von attempto wurden diese diskutiert und neue Ansätze vorgestellt.
Da die händische Pflege des eigenen Kompetenzprofils auf der Plattform im Alltag oft zu kurz kommt, wäre eine Möglichkeit den Nutzenden eine KI-gestützte Assistenz zur Seite zu stellen. Ähnlich wie ein Wizard, der bei der Installation von Computerprogrammen hilft, könnte eine solche Assistenz die Nutzenden durch die Maske für die Erstellung der Kompetenzprofile führen.
Dieser Wizard kann so auch beim Erkunden von Kompetenzen helfen: Tippt man beispielsweise eine Fähigkeit ein, wird analysiert, ob ähnliche Kompetenzen bereits im System vorhanden sind. Zudem sind Vorschläge zur Schreibweise oder Hinweise auf typische Stolperfallen möglich. Solch ein Wizard könnte als Recommender-System (dt. Empfehlungsdienst) aufgezogen werden. Nach einer initialen Lernphase, in der die Qualifikationen und deren Zusammenhänge erfasst werden, kann das System anschließend selbstständig Vorschläge machen.
Ein wichtiger Baustein stellt hierbei das Clustern von Kompetenzen dar. Da ein KI-System nicht rein auf die Schreibweise der Fähigkeiten anspringt, sondern auch semantische Ähnlichkeiten erkennen sollte, ist es sinnvoll, die Kompetenzen semantisch zu clustern. Beispielsweise sollten “MS-Word” und “Microsoft Office” nicht als zwei getrennte Fähigkeiten betrachtet werden.
Trotz aller Sorgfalt schleichen sich mit der Zeit verschiedene Schreibweisen und Variationen desselben Begriffs ein. Um zu vermeiden, dass Nutzer:innen von Hand den gesamten Datenbestand durchsuchen müssen, um die richtige Schreibweise zu finden, könnte ein Ansatz mittels eines Large Language Model (LLM) Abhilfe schaffen. Ein LLM kann einen Begriff nicht nur als Zeichenkette verarbeiten, sondern dessen Bedeutung und semantische Einbettung erfassen. Dadurch können Begriffe vereint werden, ohne dass fälschlicherweise unterschiedliche Kompetenzen zusammengefasst werden.
Ziel ist es, eine Ausgewogenheit zwischen einer gewissen Freiheit bei der Dateneingabe für die Nutzenden des Systems und der Einheitlichkeit der Datenbank zu schaffen. Würde man im Alltag über die internen Cluster-Namen der Kompetenzen arbeiten, dann wäre eine perfekte Schreibweise garantiert. Allerdings wäre dies eine starke Einschränkung bei der Ausdruckskraft für die Nutzer:innen. Das entgegengesetzte Szenario wäre, dass alle zunächst einfach drauflosschreiben können. Man hätte den optimalen Freiraum bei der Angabe von Kompetenzen, aber die Datenbank würde unter dem Wildwuchs leiden.
Das frühzeitige und regelmäßige Aussprechen von Empfehlungen ohne strikte Limitierungen zu erzwingen, kombiniert mit einem LLM, um die Labels zu aktualisieren und gleichzeitig die Einheitlichkeit zu wahren, könnte ein möglicher Ansatz sein, um die Qualität der Datenbank zu erhalten und die Nutzenden bei der Eingabe von Kompetenzen zu unterstützen.
Da attempto bereits über umfassendes KI-Wissen verfügt, konnte das Augsburger Zentrum als Sparringspartner fungieren. Die vorhandenen Ideen und technischen Ansätze wurden vom Unternehmen vorgestellt und im Detail gemeinsam mit den KI-Experten diskutiert. So konnten diese auf Optimierungspotenziale hinweisen sowie bei der Auswahl geeigneter Tools bzw. Methoden zur Hand gehen, indem sie die Anforderungen an die KI-Systeme präzisieren und passende Lösungsansätze in die Diskussion einbringen konnten.
Wichtige Fragen, über die man sich vor und während des Prozesses Gedanken machen sollte, sind:
Durch die Diskussion dieser Fragen mit den Zentrumsexperten konnte attempto die KI-Ansätze weiter schärfen und sicherstellen, dass diese nicht nur technisch funktionieren, sondern auch den Anforderungen des Unternehmens im Alltag gerecht werden.