Bedeutung der Wissensintegration
Die Nutzung von KI im Allgemeinen und ML im Besonderen ermöglicht nicht nur die Automatisierung von Geschäftsprozessen, sondern auch die Erschließung neuer Geschäftsfelder und die Verbesserung der Kundenbindung. Eine der größten Herausforderungen, der KMU bei der Implementierung von KI- und ML-Anwendungen gegenüberstehen, ist jedoch die Verfügbarkeit und Qualität von Trainingsdaten.
KMU haben oft nicht die gleichen Ressourcen wie große Unternehmen, um umfangreiche und qualitativ hochwertige Datensätze zu sammeln. Dies kann die Entwicklung präziser ML-Modelle erheblich erschweren, da ohne eine ausreichende Menge an Daten die Modelle anfällig für Überanpassung sind und in der Praxis ungenaue Ergebnisse liefern können. Die Integration von Wissen in den ML-Trainingsprozess kann diese Herausforderung adressieren. Durch die Nutzung vorhandenen Wissens können Datenlücken geschlossen und die Effizienz des Trainingsprozesses verbessert werden. Dies ermöglicht es KMU, auch mit begrenzten Datenquellen robuste und genaue Modelle zu entwickeln.
Was meint Wissen in diesem Kontext?
Maschinelles Lernen hat das Potenzial, Muster und Zusammenhänge in Daten zu erkennen, die für den Menschen schwer nachvollziehbar sind. Doch kein Vorhersagemodell kann ohne grundlegende Annahmen entwickelt werden. Ohne diese Annahmen ist es schlichtweg unmöglich, dass ein Modell auf neue, unbekannte Daten verallgemeinern kann. Je besser diese Annahmen mit der Realität übereinstimmen und je genauer sie das zu lösende Problem abdecken, desto aussagekräftiger wird das Modell und desto weniger muss letztlich aus den Daten gelernt werden. Die Einbindung von Domänenwissen in maschinelle Lernmethoden kann nicht nur die Leistung des Modells verbessern und die benötigte Datenmenge reduzieren, sondern auch die Interpretierbarkeit des Modells erhöhen.
Stellen wir uns beispielsweise ein Modell vor, das darauf trainiert ist, Verkehrsschilder zu erkennen. Wir wissen, dass Verkehrsschilder jeweils bestimmten geometrischen Formen und Farben entsprechen und dieses Wissen können wir in das Modell einfließen lassen. Das geschieht, indem wir beispielsweise aus den Kategorien und Attributen einen Wissensgraph erstellen und das Modell mit dessen Einbettungen trainieren oder zusätzliche Bilddaten simulieren.
Dadurch wird das Modell nicht nur präziser, sondern auch verständlicher und leichter übertragbar auf andere Länder. Die Relevanz solch einer Kombination von Wissen wird durchaus im Alltag deutlich. Wenn im Winter ein schneebedecktes Stoppschild zusätzlich durch die Form erkennbar ist, dann besitzt eine Methode, welches dieses Wissen ausnutzen kann, einen Vorteil gegenüber Ansätzen, welche sich allein auf eine (unleserliche) Schrift verlassen.
Wissen kann in vielen verschiedenen Formen formalisiert und repräsentiert werden, sei es als logische Formeln, Invarianzen, Simulationsergebnisse, statistische Relationen oder Wissensgraphen. Daher muss immer eine gemeinsame Sprache gefunden werden, um dieses Domänenwissen in ein KI-System zu integrieren. Doch selbst wenn das Wissen in einer geeigneten Form vorliegt, bedeutet das nicht zwangsläufig, dass der Weg der Integration immer gleich ist. Betrachten wir zur Verdeutlichung die folgenden drei Beispiele:
- Die Software “AlphaGo”, die das Brettspiel „Go“ optimal spielt: Hier wird Vorwissen in Form der möglichen Spielzüge und direkt verwerfbare Handlungen eingebracht, um den Raum für mögliche Strategien einzugrenzen. Das Wissen über die Spielzüge wird dabei als Graph dargestellt, wobei jeder Knoten einen möglichen Spielzustand repräsentiert und die Kanten die möglichen Züge darstellen. Dieses Vorwissen hilft, den Suchraum effizient zu durchsuchen und optimale Strategien zu entwickeln.
- Erkennung von Straßenschildern: Stoppschilder haben die gleiche Bedeutung in verschiedenen Ländern, können aber unterschiedlich ausgeführt sein. Für die Erkennung in einem Computer kann das Wissen über die Schilder hierarchisch organisiert werden. Grundlegende und gemeinsame Attribute (beispielsweise die rote Farbe und die achteckige Form) werden höher in der Hierarchie eingehängt. Regionale und spezifische Eigenschaften landen tiefer in der Struktur. Diese Hierarchie kann als Graph dargestellt werden, wobei die Knoten die verschiedenen Attribute und die Kanten deren Beziehungen repräsentieren.
- Empfehlungssystem bei Online-Versandhändler (“Kunden kauften auch … “): Hier sind die zu verarbeitenden Daten die Relationen (“Wer hat x gekauft?”) zwischen Entitäten (die Nutzerinnen und Nutzer des Dienstes sowie die Produkte). Diese Relationen können als Graph modelliert werden, wobei die Knoten die Nutzerinnen und Nutzer sowie die Produkte repräsentieren. Die Kanten zeigen deren Beziehungen an. Die Aufgabe besteht darin, einer Kundin oder einem Kunden nach einem getätigten Kauf über das Verhalten anderer neue Produkte vorzuschlagen. Für die Lösung kann bekanntes Wissen aus der Graphentheorie verwendet werden.
In allen drei Beispielen liegt das Vorwissen selbst als Graph vor, sei es in der Form von aufeinander aufbauenden Spielzügen, geordneten Hierarchien oder zu findenden Strukturen innerhalb eines gegebenen Graphen. Unabhängig davon benötigen diese Beispiele jeweils eine maßgeschneiderte Umsetzung und passgenaue Integration des Vorwissens.
Wo findet die Wissensintegration statt?
Es gibt vier konkrete Bereiche im Maschinellen Lernprozess, in denen Wissen eingebracht werden kann: die Konzeptualisierung des Problems, die Datenerhebung, das Design der Modellarchitektur und der Lösungsalgorithmus. Die richtige Kombination dieser Faktoren kann den Unterschied zwischen einem erfolgreichen und einem weniger erfolgreichen ML-Projekt ausmachen.
Konzeptualisierung des Problems
Bevor Maschinelles Lernen zum Einsatz kommt, muss zunächst geklärt werden, warum es überhaupt notwendig ist. ML wird hauptsächlich dann eingesetzt, wenn das zu lösende Problem entweder zu komplex ist, um vom Menschen verstanden zu werden, oder wenn klassische Ansätze zu ungenau oder zu langsam sind. Ein anschauliches Beispiel ist die Entwicklung von sogenannten Surrogate-Modellen zur Simulation von Strömungen. Anstelle der eigentlichen Hydrodynamik und physikalischen Prozesse wird ein vereinfachtes Modell als Ersatz verwendet, welches immer noch gut genug ist, um brauchbare Ergebnisse zu erzielen, aber deutlich schneller berechnet werden kann, indem Verluste bei der Genauigkeit gezielt in Kauf genommen werden. Solche Surrogate-Modelle ermöglichen dann beispielsweise die Entwicklung von künstlichen Organen oder effizienteren Triebwerken.
Falls ein ähnliches Problem bereits gelöst wurde, bietet Transfer-Lernen eine wertvolle Lösung. Diese Technik ermöglicht es, bereits trainierte Modelle auf verwandte Probleme anzuwenden. Das spart sowohl Zeit als auch Ressourcen und steigert gleichzeitig die Effizienz und Genauigkeit des neuen Modells. Eine Vielzahl vortrainierter Modelle steht mit passenden Lizenzen zum Download bereit und kann für spezifische Anwendungen angepasst werden, was den Einstieg erheblich erleichtert.
Datenakquise, -aufbereitung und -augmentation
Bei der Datenerhebung spielt neben der Datenmenge auch die Diversität der Daten eine entscheidende Rolle. Während maschinelles Lernen hervorragend darin ist, zwischen bekannten Datenpunkten zu interpolieren, gestaltet sich die Extrapolation außerhalb des gelernten Bereichs deutlich schwieriger. Ein passendes Beispiel hierfür sind Wettervorhersagen: Während ML-Modelle präzise Prognosen innerhalb des bekannten Klimamusters erstellen können, stoßen sie bei unvorhergesehenen Klimaveränderungen an ihre Grenzen.
Die Darstellung der Daten beeinflusst maßgeblich die Komplexität der zu erlernenden Beziehungen. Ein gutes Beispiel dafür ist der Unterschied zwischen heliozentrischen und geozentrischen Darstellungen in der Astronomie. Die Wahl des richtigen Koordinatensystems kann das Problem erheblich vereinfachen und somit die Effizienz des Modells steigern.
In vielen physikalischen Anwendungen können Daten durch Simulationen erweitert werden. Simulationen bieten oft eine höhere Auflösung als reale Experimente, sind jedoch durch die unvollständige Kenntnis der zugrunde liegenden Gesetze des betrachteten Systems eingeschränkt. Datenaugmentation ist eine weitere Technik, bei der neue Daten aus bestehenden Daten durch Transformationen künstlich erzeugt werden und der Datensatz so vergrößert wird. Invarianzen und Equivarianzen können genutzt werden, um die Menge der verfügbaren Daten zum Beispiel durch Rotationen, Spiegelungen oder Skalierungen zu erhöhen.
Falls der direkte Austausch von Daten problematisch ist, beispielsweise in sensiblen Bereichen wie dem Gesundheitswesen oder Finanzsektor, kann Föderales Lernen eine Lösung bieten. Diese Methode ermöglicht es mehreren Institutionen, gemeinsam Modelle zu trainieren, ohne dass Daten tatsächlich ausgetauscht werden müssen. Dies gewährleistet den Schutz sensibler Informationen und ermöglicht dennoch effektives Lernen.
Design der Modellarchitektur
Albert Einstein sagte einmal: “Man sollte alles so einfach wie möglich machen, aber nicht einfacher.” Diese Weisheit gilt auch für die Gestaltung der Modellarchitektur im maschinellen Lernen. Die Architektur legt den Suchraum für mögliche Zusammenhänge fest. Ist dieser Suchraum zu groß oder zu klein, führt dies aufgrund von Über- bzw. Unteranpassung in der Regel zu einer schlechteren Performanz.
Ein gut gestaltetes Modell sollte daher eine Balance zwischen Einfachheit und Komplexität finden. Beispielsweise können anwendungsspezifische Symmetrien, Invarianzen und physikalische Erhaltungssätze direkt in die Modellstruktur integriert werden. Diese Integration verringert die Komplexität des Problems, da das Modell bekannte Zusammenhänge nicht erst mühsam aus den Daten lernen muss.
Ein anschauliches Beispiel ist das Erkennen von Objekten in Bildern. Man trainiert typischerweise kein KI-Modell für jede mögliche Position eines Objekts im Bild, sondern konstruiert ein einzelnes Modell, das das gesamte Bild verarbeiten kann. Hier kommen faltende neuronale Netze (Convolutional Neural Networks, CNNs) zum Einsatz. Diese Netze können dank der Faltungen per Design unabhängig von der Position eines Objekts dessen Art bestimmen. Ein vollverbundenes Netz würde bei gleichem Datenumfang schlechter abschneiden, obwohl es das CNN als Spezialfall enthält.
Implementierung in den Lösungsalgorithmus
Das Wissen, das in die Modellarchitektur eingebracht wird, kann oft auch direkt in den Trainingsprozess als zusätzliche Regularisierungsterme einfließen. Diese zusätzlichen Terme für die Verlustfunktion wirken wie weiche Beschränkungen, die dem Modell helfen, die bekannten Gesetzmäßigkeiten und Zusammenhänge zu berücksichtigen.
Ein anschauliches Beispiel hierfür ist das Training eines Modells zur physikalischen Simulation. Hier können physikalische Erhaltungssätze, wie die Energie- oder Impulserhaltung, direkt als Regularisierung in die Verlustfunktion integriert werden. Diese Terme sorgen dafür, dass das Modell physikalisch sinnvolle Ergebnisse liefert, selbst wenn die Daten gelegentlich abweichen.
Allerdings können die zusätzlichen Regularisierungsterme auch in Konflikt mit dem eigentlichen Trainingsziel, nämlich der Minimierung der Verlustfunktion, stehen. Das bedeutet, dass das Modell einerseits die Trainingsdaten bestmöglich nachbilden soll, andererseits aber auch den Regularisierungstermen gerecht werden muss. Daher ist ein anwendungsspezifisches Feintuning der Gewichtung dieser Verlustterme entscheidend. Eine zu starke Gewichtung der Regularisierungsterme könnte das Modell daran hindern, die Daten korrekt zu lernen, während eine zu schwache Gewichtung ihre nützliche Wirkung minimiert.
Maßgeschneiderte Lösungen bleiben erforderlich
Die Kombination von Wissen ist ein entscheidender Faktor für den Erfolg von KI- und ML-Anwendungen, insbesondere für KMU mit begrenzten Ressourcen. Durch die Integration von Wissen in ihre KI-Strategien können KMU die Herausforderungen der Datenknappheit überwinden und das volle Potenzial von KI und ML ausschöpfen. Dies ermöglicht nicht nur effizientere Geschäftsprozesse, sondern auch die Erschließung neuer Geschäftsmöglichkeiten und die Steigerung der Wettbewerbsfähigkeit. Dabei ist das exakte Vorgehen aber immer anwendungsabhängig und wird durch das vorliegende Problem eingegrenzt. Es gibt deswegen leider nicht einen pauschalen Ansatz, welcher überall greift, sondern man muss sich maßgeschneiderte Lösungen für das eigene Unternehmen zusammenbauen.