Das Potenzial alternativer KI-Sprachmodelle: Es muss nicht immer LLM sein

Essen, Starnberg, 16. Okt. 2024 - Noch zu häufig wird das große Potenzial von Sprachmodellen abseits von LLMs übersehen; ein Kommentar des Technologieanbieters Zoho…

Zum Hintergrund: Unternehmen und Organisationen stehen derzeit vielfach vor der Herausforderung, KI-Modelle effizient, schnell und sicher in die jeweilige Produktionsumgebung zu bringen. Wer von Künstlicher Intelligenz und GenAI spricht, meint dabei in der Regel Large Language Models (LLMs) wie ChatGPT. Dabei laufen Unternehmen mitunter in Gefahr, das große Potenzial von Sprachmodellen abseits von LLMs zu übersehen; diese kleinen Modelle erhalten noch vergleichsweise wenig Aufmerksamkeit. Der globale Technologieanbieter Zoho (1) erklärt in seinem folgenden Kommentar, warum sich nach Ansicht des Unternehmens ein Blick auf die gesamte KI-Spannweite lohnen kann.

„Während die prominenten Vertreter der großen Sprachmodelle – allen voran GPT-4, Midjourney, DALL-E oder das Google Cybersecurity LLM Sec-PaLM – im Scheinwerferlicht der Öffentlichkeit stehen, erfahren ihre kleineren Verwandten vergleichsweise wenig Aufmerksamkeit. Zu Unrecht, denn leichtgewichtige und spezialisierte Modelle bergen für Unternehmen ein immenses Potenzial:

Narrow Language Models

Sie sind kleine, leichtgewichtige Modelle, die sich auf einen eng umrissenen Anwendungsbereich und spezifische Aufgaben spezialisieren. Für diesen Zweck umfassen ihre Trainingsdaten auch nur Informationen aus einem bestimmen Themenbereich, etwa Cybersecurity, Finance oder einzelnen Produktgruppen eines Unternehmens. In der Praxis erstrecken sich die Anwendungsbeispiele von der Analyse juristischer Gesetzestexte über branchenspezifische Übersetzungen bis zur Erkennung von Text in Bildern.

Small Language Models (SLM)

Im Gegensatz zu den ressourcenintensiven LLMs umfassen kleine Sprachmodelle wenige Milliarden Parameter, in der Regel zwischen drei und sieben. Im Vergleich: Große Modelle verarbeiten mehr als 50 Milliarden Parameter. Dadurch können SLMs leichter für bestimmte Aufgaben trainiert werden, eignen sich für den Einsatz auf Geräten mit begrenzten Ressourcen, da sie weniger Rechenleistung und Speicherplatz benötigen, und verursachen geringere Kosten. Damit eignen sich SMLs für eine Vielzahl von Anwendungsfällen, etwa im Bereich von IoT-Geräten, Echtzeitübersetzungen, Transkriptionen oder Spracherkennung.

Medium Language Models (MLM) Der nicht fest etablierte Begriff der MLMs dient zur Beschreibung von Modellen, die im Bereich von etwa 20 bis 50 Milliarden Parametern arbeiten. Sie bieten damit eine gute Balance zwischen Komplexität, Leistung und Ressourcenverbrauch. MLMs kommen dann zum Einsatz, wenn eine höhere Genauigkeit und Spezialisierung als bei SLMs nötig, die Rechenleistung allerdings begrenzt ist.

Medium Language Models ermöglichen zum Beispiel eine intelligente Arbeit mit Texten, bei der Nutzer Fragen zu einem Dokument stellen können oder inhaltliche Analysen zu umfangreichen Textdokumenten benötigen. Auch die Beantwortung von häufig gestellten Fragen im Bereich Kundensupport, die Umwandlung von Sprache zu Text oder das Erkennen von Emotionen und Meinung im Kontext der Analyse von Kundenfeedback sind mögliche Anwendungsbeispiele.

Aktuelle LLMs wie ChatGPT

Diesse sind für die breite Nutzung konzipiert, was zu Einschränkungen bei der Anwendung in Unternehmen und hohen Kosten führen kann. Die notwendige kontextuelle Intelligenz entsteht erst, wenn KI-Modelle verschiedener Größen auf Geschäftsprozesse angewendet werden. Das Wissen, das dabei gewonnen wird, ist für Unternehmen äußerst wichtig und kann zu Kosteneinsparungen führen.

Ein Fazit von Sridhar Iyengar, Managing Director von Zoho Europe: „Das wahre Potenzial der vielen verschiedenen Sprachmodelle liegt in der Möglichkeit, sie miteinander zu kombinieren. Durch das Zusammenspiel der einzelnen Lösungen lassen sich auch komplexe Prozesse effizient gestalten, zum Beispiel bei der Verarbeitung von fotografierten Dokumenten: Ein Narrow Model extrahiert den Text aus dem Bild, ein SLM analysiert die relevanten Informationen, die dann ein MLM auf Anomalien überprüft. Dieser Stacked-Model-Ansatz macht auch den Datenschutz und die Datensicherheit robuster.“

(1) Im Bild: Sridhar Iyengar, Managing Director von Zoho Europe (Bildquelle: Zoho).

Querverweis:

Unser Beitrag > Befragung zum Stand der Umsetzung des EU AI Act: Wie bereit sind deutsche Unternehmen?

Unser Beitrag > Beispiele wie Unternehmen die digitale Transformation umsetzen können

Unser Beitrag > KI und Innovation: Welche Projekte mit Generativer KI in der Praxis erfolgreich sein können

Das Potenzial alternativer KI-Sprachmodelle: Es muss nicht immer LLM sein

Suche

Themen