Konsistent mehr als ein Petabyte pro Sekunde Durchsatz für datenintensive Workloads. KI-Inferenz benötigt eine stärker verteilte Cloud. Neuer Service kann bis zu 86 Prozent niedrigere Kosten im Vergleich zu einer traditionellen Hyperscaler-Infrastruktur aufweisen…
Zur Ankündigung
Akamai Cloud Inference läuft auf der Akamai Cloud und soll die zunehmenden Einschränkungen zentralisierter Cloud-Modelle adressieren, sprich KI-Daten näher an Benutzer und Geräte zu bringen. Akamais’ neue Lösung bietet Platform Engineers und Entwicklern Werkzeuge zum Aufbau und Betrieb von KI-Anwendungen und datenintensiven Workloads nahe am Endnutzer. Dies kann laut Anbieter einen bis dreifach höheren Durchsatz bei gleichzeitiger Reduzierung der Latenz um das zweieinhalbfache bedeuten. Mit der Lösung sollen sich für Unternehmen bei KI-Inferenz und agentenbasierten KI-Workloads im Vergleich zu einer traditionellen Hyperscaler-Infrastruktur bis zu 86 Prozent der Kosten einsparen lassen (Quelle, Anbieter).
Akamai Cloud Inference umfasst:
- Rechenleistung: Das Compute Portfolio reicht von klassischen CPUs für fein abgestimmte Inferenz bis hin zu beschleunigten Rechenoptionen in GPUs und spezifischen ASIC VPUs; dies für verschiedenste KI-Inferenz-Anforderungen. Akamai integriert sich in Nvidias AI Enterprise-Ökosystem und nutzt Triton, TAO Toolkit, TensorRT und NVFlare zur Leistungsoptimierung der KI-Inferenz auf Nvidia GPUs.
- Datenmanagement: In Zusammenarbeit mit VAST Data bietet Akamai optimierten Zugang zu Echtzeitdaten, um inferenzbezogene Aufgaben zu beschleunigen. Dies wird durch einen hochskalierbaren Objektspeicher ergänzt, um das Volumen und die Vielfalt von Datensätzen zu verwalten, die für KI-Anwendungen kritisch sind. Die Integration von Vektordatenbank-Anbietern wie Aiven und Milvus ermöglicht Retrieval Augmented Generation (RAG). Mit diesem Datenmanagement-Stack speichert Akamai abgestimmte Modelldaten und Trainingsartefakte für eine KI-Inferenz mit niedriger Latenz im globalen Maßstab.
- Containerisierung: Die Containerisierung von KI-Workloads ermöglicht bedarfsbasierte automatische Skalierung, verbesserte Anwendungsresilienz und Hybrid-/Multicloud-Portabilität bei gleichzeitiger Optimierung von Leistung und Kosten. Mit Kubernetes bietet Akamai KI-Inferenz im Petabyte Bereich. Unterstützt wird dies durch die Linode Kubernetes Engine (LKE)-Enterprise, eine neue Enterprise-Edition der Akamai Cloud Kubernetes-Orchestrierungsplattform, die speziell für große Unternehmens-Workloads entwickelt wurde, sowie die kürzlich angekündigte Akamai App Platform. Akamai Cloud Inference ist damit in der Lage, über eine KI-fähige Plattform aus integrierten Open-Source-Kubernetes-Projekten, einschließlich KServe, Kubeflow und SpinKube schnell KI-Modelle für Inferenz bereitzustellen.
- Edge-Computing: Zur Vereinfachung der Entwicklung KI-gestützter Anwendungen umfasst Akamai AI Inference WebAssembly (WASM)-Funktionen. In Zusammenarbeit mit WASM-Anbietern wie Fermyon ermöglicht Akamai Entwicklern, Inferencing für LLMs direkt über Serverless-Funktionen auszuführen. Dies ermöglicht es, kompakten Code an der Edge für echtzeitkritische Anwendungen zu nutzen.
Die genannten Tools zusammen bilden eine Plattform für latenzarme, KI-gestützte Anwendungen. Akamai Cloud Inference läuft auf der massiv verteilten Plattform des Unternehmens, das nach eigenen Angaben konsistent mehr als ein Petabyte pro Sekunde Durchsatz für datenintensive Workloads liefern kann.
Verlagerung von KI-Training zu KI-Inferenz
Mit der zunehmenden Etablierung von KI erkennen Unternehmen, dass der Hype um LLMs den Fokus von praktischen KI-Lösungen abgelenkt hat, die besser geeignet sind, spezifische Geschäftsprobleme zu lösen. LLMs eignen sich hervorragend für allgemeine Aufgaben wie Zusammenfassung, Übersetzung und Kundenservice. Diese sehr großen Modelle sind jedoch teuer und zeitaufwändig zu trainieren.
Unternehmen sehen sich leicht durch architektonische und kostenbezogene Anforderungen eingeschränkt, einschließlich Rechenzentren und Rechenleistung. Dies betrifft gut strukturierte, sicher skalierbare Datensysteme sowie die Herausforderungen, die Standort- und Sicherheitsanforderungen an die Latenz stellen. Leichtgewichtige KI-Modelle, die entwickelt wurden, um spezifische Geschäftsprobleme zu lösen, können für einzelne Branchen noch mehr optimiert werden. Sie nutzen dazu proprietäre Daten, um messbare Ergebnisse zu erzielen und liefern heute eine höhere Profitabilität für Unternehmen.
Erste Anwendungsfälle von Unternehmen auf der Akamai Cloud umfassen danach Sprachassistenz im Fahrzeug, KI-gestützte Pflanzenbewirtschaftung, Bildoptimierung für Marktplätze für Konsumgüter, virtuelle Bekleidungsvisualisierung im Einkaufserlebnis, automatisierte Generierung von Produktbeschreibungen oder Stimmungsanalysen für Kundenfeedback.
Fazit: KI-Inferenz benötigt eine stärker verteilte Cloud
Daten werden vermehrt außerhalb zentralisierter Rechenzentren oder Cloud-Standorten generiert. Diese Verschiebung treibt die Nachfrage nach KI-Lösungen, die die Datengenerierung näher am Ursprungsort nutzen. Das verändert grundlegend die Infrastrukturbedürfnisse, da Unternehmen über den Aufbau und das Training von LLMs hinausgehen, um Daten für schnellere und intelligentere Entscheidungen zu nutzen und in personalisiertere Erfahrungen zu investieren.
Unternehmen erkennen, dass sie mehr Wert generieren können, indem sie ihre Geschäftsabläufe und -prozesse mit KI verwalten und verbessern. Verteilte Cloud- und Edge-Architekturen erweisen sich als bevorzugt für Anwendungsfälle der Echtzeitanalyse von Betriebsdaten. Sie liefern Einblicke über verteilte Assets hinweg in Echtzeit, selbst in entfernten, schlecht angebundenen Umgebungen.
Querverweis:
Unser Beitrag > KI-Entwicklung in Echtzeit? Neue Funktionen in Confluent Cloud für Apache Flink
Unser Beitrag > Nvidia GTC 2025: Storage- und Data-Management Update
Unser Beitrag > Agentenbasierte KI mit Fujitsu Private GPT 1.3