Zu den Schlüsselkomponenten eines zielführenden KI-Fahrplans für Unternehmen

München, Starnberg, 18. Jan. 2024 - Datensilos, fragmentierte Systeme und Doppelarbeit sind zu vermeiden; EFS nebst einer skalierbaren Datenplattform als zentrale Elemente…

Zum Hintergrund: Die Wettbewerbsfähigkeit und damit Zukunftsfähigkeit von Unternehmen steht zunehmend in Zusammenhang mit dem Umgang und Einsatz von Künstlicher Intelligenz (KI). McKinsey zum Beispiel geht davon aus, dass 70 Prozent der Unternehmen bis 2030 mindestens eine Form von KI einsetzen werden. Für eine effiziente und erfolgreiche Nutzung von KI für Businessmanagement sind laut Thomas Schröder, Vice President Central Europe bei Teradata, sowohl eine solide Datengrundlage als auch effiziente und effektive Workflows notwendig, die das gesamte System im Blick haben. Im folgenden exklusiven Fachbeitrag beschreibt T. Schröder für Sie die Schlüsselkomponenten eines zielführenden KI-Fahrplans für Unternehmen. (1)

 

Zum Fachbeitrag: „Gegenwärtig verfolgen die meisten Unternehmen bei Analyseprojekten einen eng integrierten Pipeline-Ansatz. Pipelines sind in der Regel End-to-End-Prozesse, die für die Lösung von Problemen auf Projektbasis entwickelt und aufgebaut werden. Sie beginnen mit Quelldaten und schreiben Code für das Feature Engineering (auch bekannt als Data Wrangling). Für kleine Test- und Forschungs- und Experimentierprojekte funktioniert dieser Ansatz gut.

Wenn dieser Ansatz jedoch auf Unternehmensebene ausgeweitet wird, führt er schnell zu ineffizienten Prozessen, bei denen Daten- und Codesilos entstehen. Einzelne Teams betreiben oft doppelten Aufwand, indem sie fast identische Funktionen aus denselben Daten entwickeln, die jedoch in ihren eigenen Pipelines isoliert und untrennbar mit den von ihnen unterstützten Vorhersagemodellen verbunden sind. Dies führt nicht nur zu zusätzlichen Kosten durch doppelten Aufwand, sondern auch zu verlängerten Projektlaufzeiten und langsamen Markteinführungszeiten. Und das untergräbt wiederum sowohl die Wirkung als auch das Vertrauen in den Wert des maschinellen Lernens im gesamten Unternehmen.

 

Datenverarbeitung im Pipeline-Dschungel

Als Code gespeicherte Pipelines können als regelrechter „Pipeline-Dschungel“ für alle außer den ursprünglichen Autor unentzifferbar werden. Auch die Vielzahl der Sprachen, die von Data Scientists für die Erstellung von Vorhersagemodellen bevorzugt werden, stellt eine Herausforderung dar. Darüber hinaus gibt es keine objektiv „beste“ Technologie für die vielfältigen Analyseanforderungen in großen und unterschiedlichen Organisationen. Gute Ergebnisse lassen sich im Gegenteil oft mit mehreren Bibliotheken, Methoden und Sprachen erzielen. Der Pipeline-Ansatz für Analysen gefährdet demzufolge zunehmend die Wettbewerbsfähigkeit von Unternehmen sowie ihre Flexibilität, um sich den Anforderungen der digitalen Wirtschaft von morgen anzupassen. Unternehmen müssen daher auf einen dynamischen Ansatz bauen.

 

Der Enterprise Feature Store (EFS) als Grundlage für KI und ML im gesamten Unternehmen

Ein erster Schritt hin zu mehr Dynamik und Flexibilität liegt in der Entkopplung der verschiedenen Prozessbereiche und der Konzentration auf drei Schlüsselkomponenten: Feature Engineering, Modelltraining und Bereitstellung. Unternehmen können ihre Initiativen für ML und KI nur dann erfolgreich skalieren, wenn sie den entscheidenden Elementen auf beiden Seiten des Modelltrainings – der Wiederverwendung von Merkmalen und der Bereitstellung von Modellen – mehr Aufmerksamkeit schenken.

Folglich sollte der Aufbau und die Pflege eines Enterprise Feature Store (EFS) als Grundlage des maschinellen Lernens und der KI für die Unternehmensführung einen hohen Stellenwert haben. Dies meint eine kuratierte Sammlung von Variablen mit nachgewiesenem Vorhersagewert, die als Tabellen in einem analytischen, relationalen Datenbankmanagementsystem (RDBMS) materialisiert sind. Die gespeicherten und organisierten Merkmale aus Daten können so zum Trainieren von Modellen durch Data Scientists oder zur Erstellung von Vorhersagen durch Predictive Analytics verwendet werden.

Die Erstellung solcher Merkmale, die sowohl einen Nutzen als auch einen Vorhersagewert haben, sowie die präzise Katalogisierung der einzelnen Merkmale erfordern viel Zeit. Diese Investition zahlt sich jedoch schnell aus, da nachfolgende Projekte vorhandene, gut dokumentierte Merkmale problemlos wiederverwenden können. Das wiederum kann Aufwand und Kosten, die derzeit für die Aufbereitung und Verwaltung der Daten anfallen, um 80 Prozent senken. Enterprise Feature Stores verbessern bereits die Produktivität von Datenwissenschaftlern und die Time-to-Value für neue Analysen in führenden Unternehmen drastisch.

 

Erstellung und Training von Modellen

Eine weitere Schlüsselkomponente für einen erfolgreichen KI-Fahrplan betrifft die Modellentwicklung. Um robuste und genaue Modelle zu erstellen, die eine solide, quantifizierbare Kapitalrendite bieten, brauchen Datenwissenschaftler seitens der Unternehmensführung die Freiheit, Daten und Algorithmen zu erforschen sowie die Möglichkeit, eine Vielzahl geeigneter Tools zu verwenden.

Die zum Trainieren der Modelle erforderlichen Daten sollten aus der Wiederverwendung der im Feature Store gespeicherten Variablen stammen, und auch alle neu erstellten Features sollten wiederum zur erneuten Verwendung in den EFS eingespeist werden. Der iterative Charakter dieser Modellerstellung bedeutet, dass die Aktivitäten in der Entdeckungs- und Bewertungsphase untrennbar miteinander verbunden sind. Sobald ein Modell erstellt und auf Genauigkeit getestet wurde, sollte der Feature Engineering Code in den Feature-Speicher migriert werden und nicht mehr an ein bestimmtes Modell gebunden sein. Die Behandlung der Modellerstellung als separate Aktivität ermöglicht so die nahtlose Integration sowohl von Modellen, die in externen Systemen trainiert wurden, als auch der Modelle, die in der Datenbank selbst erstellt wurden.

Letztendlich kann der Wert eines jeden Analyseprojekts nur dann realisiert werden, wenn Vorhersagen auf Basis von Live-Daten getroffen werden. Das Modelltraining wird aktuell in der Regel mit sorgfältig ausgewählten Stichproben historischer Daten durchgeführt. Ein sinnvoller Modellbewertungsprozess erfordert jedoch den Zugang zu vollständigen und aktuellen Datensätzen. Diese Herausforderung beim Übergang vom Modelltraining zur Modellbewertung wird oft unterschätzt und ist eine der Hauptursachen für das Scheitern von Analyseprojekten.

Der Bring Your Own Model (BYOM)-Ansatz erlaubt Datenwissenschaftlern die Wahl des am besten geeigneten Tools zum Trainieren eines beliebigen Vorhersagemodells sowie die Möglichkeit, dass sie es in großem Umfang direkt mit Produktionsdaten aus dem Enterprise Feature Store bewerten können. Eine enge Integration und eine Vielzahl von Methoden wie PMML, SQL-Konvertierung und nativem Code, ermöglichen es außerdem, extern trainierte Modelle in der Produktion in der Datenbank zu bewerten und in großem Umfang bereitzustellen.

 

Vorhersage und Investitionsrendite dank KI und ML

Für Analyse- und Vorhersageprozesse ist es wichtig, dass die Produktionsphase des Prozesses einfach und robust ist. Dank EFS und dem trainierten Modell ist alles, was zur Analyse benötigt wird, in der Datenbank vorhanden. Datenbewegungen zu oder von externen Systemen sind so nicht mehr nötig. Relevant ist auch, dass die Systeme in der Regel direkt mit den operativen Endpunkten und über mehrere Kanäle verbunden sind und sogenannte taktische Abfragen unterstützen, die die Modellbewertung in nahezu Echtzeit sowie mit kurzen Antwortzeiten ermöglichen. Scoring-Workloads müssen außerdem leistungsfähig und skalierbar sein, damit neue Vorhersagen auf Live-Produktionsdaten so oft wie nötig erstellt werden können. Die Auswertung der genannten Live-Produktionsdaten durch KI und ML und daraus resultierenden Vorhersagen können Unternehmen einen echten Mehrwert und ROI bieten.

 

Dank KI-Strategie erfolgreich gewappnet für die Zukunft

Um Unternehmen mit KI und ML erfolgreich in die Zukunft zu führen ist es folglich entscheidend, Datensilos, fragmentierte Systeme und Doppelarbeit zu vermeiden. Sämtliche KI-Initiativen eines Unternehmens müssen idealerweise auf dem Fundament einer skalierbaren und leistungsfähigen Datenplattform stehen. Dies erfordert von Geschäftsführung und Unternehmen generell mehr Transparenz, Dokumentation, Konsistenz und Prüfbarkeit mit Blick auf ML und KI.

Im Unternehmen genutzte Funktionen müssen so entwickelt werden, dass sie wiederverwendet, dokumentiert und in einem Enterprise Feature Store katalogisiert werden können, um Doppelarbeit zu vermeiden und die Effizienz und Konsistenz zu erhöhen. Datenwissenschaftler müssen die Möglichkeit erhalten, die verschiedenen Tools und Programmiersprachen zu verwenden, die sie für die jeweilige Aufgabe für am besten geeignet halten. Die trainierten Modelle wiederum können im Idealfall einfach in das Unternehmen zurückgeführt werden, um Live-Daten im Enterprise Feature Store zu bewerten. Auf diese Weise können „Pipeline-Dschungel“ in Unternehmen, daraus resultierende Datenschulden und regelrechte Audit-Alpträume verhindert – und maximaler ROI gewährleistet werden.



(1) Das Bild zeigt Thomas Schröder, Vice President Central Europe, Teradata (Bildquelle: Teradata)

 

Querverweis:

Unser Beitrag > Anforderungen von GenAI an die Unternehmens-IT und der Faktor komplexes Datenmanagement

Unser Beitrag > Unternehmens-Datenstrategien: Trends für 2024 im Zeichen von KI, Big Data und der Cloud