Warum das Single-Threaded-Hardwaredesign bei modernen CPUs eine zentrale Rolle spielt, um beim Multi-Tenant KI- und Cloudbetrieb unvorhersehbare Latenzzeiten und Ineffizienzen zu vermeiden…
Hintergrund
Wesentliche Herausforderung bei den genannten Betriebsarten liegen häufig in den klassischen Server‑Prozessoren selbst: Sie wurden für kurzzeitige Spitzenleistungen einzelner Workloads entwickelt und bringen dadurch erhebliche Variabilität in z.B. parallelen KI‑Umgebungen mit.
Neue Prozessorarchitekturen setzen daher auf strikte Ausführungsisolation mit einem Thread pro Kern und stabilen, unabhängigen Ressourcen, um Vorhersehbarkeit auf Hardwareebene zu schaffen. So kann die KI‑ und Cloudinfrastruktur skalierbarer, zuverlässiger und kosteneffizienter werden, da die Performance konstant bleibt und keine versteckten Schwankungen mehr auftreten.
Warum der Architekturschwenk auf Hardwareebene bei modernen CPUs aus Sicht von Ampere** deshalb entscheidend ist, um damit Multi-Tenant-KI effizienter und skalierbar zu begegnen, finden Sie nachfolgend als Q & A (Fragen, Antworten) mit Jeff Wittich, Chief Product Officer von Ampere (1):
Frage: Der Begriff Multi-Tenant-Cloud ist mittlerweile geläufig. Doch auch "Multi-Tenant-KI" ist im Kommen. Was steckt hinter diesem Wandel?
- "Die Antwort ist einfach: Skalierung und Wirtschaftlichkeit. KI ist nicht mehr ein einzelner Workload, der für einen einzelnen Nutzer isoliert läuft. In Produktionsumgebungen spielen sich mehrere unabhängige Inferenzaufgaben parallel zu API-basierten Webservern, Datenbanken, nutzerorientierten Services und anderen KI-Modellen ab. Diese Prozesse geschehen meist in geteilten Infrastrukturen. Um allerdings für eine skalierbare, nachhaltige KI zu sorgen, müssen Plattformen viele Tenants gleichzeitig sicher und effizient bedienen können – mit vorhersehbarer Performance und Kosten. Die Herausforderung ist jedoch, dass die meisten Legacy-Server-CPUs nie für diese Realität entwickelt wurden. Sie wurden für Spitzenleistungen in Einzelanwendungen optimiert, nicht für Konsistenz unter geteilten Workloads.
Frage: Was passiert, wenn KI-Inferenzen auf Alt-CPUs in Multi-Tenant-Umgebungen laufen?
- Sie bringen Variabilität mit. Wenn mehrere Workloads ihre Ressourcen im Prozessor teilen, entstehen Interferenzen. Die Latenz schwankt. Der Durchsatz wird unvorhersehbar. Betreiber kompensieren das, indem sie die Kapazität überdimensionieren, nur um SLAs zu erreichen. Dieses Vorgehen ist teuer und untergräbt das Versprechen der Cloud-Ökonomie. Das System mag auf dem Papier effizient wirken, aber in der Realität zahlen Unternehmen für den Headroom statt für die Rechenleistung.
Frage: Einige Plattformen versuchen, dies auf Softwareebene zu lösen. Warum reicht das nicht?
- Software-Isolation kann helfen, ist aber grundsätzlich reaktiv. Wenn die Hardware selbst Variabilität wie dynamische Frequenzänderungen, geteilte Ausführungspfade und Konkurrenz um interne Ressourcen einführt, kann Software nur begrenzt helfen. An einem gewissen Punkt muss Vorhersehbarkeit in der Architektur durchgesetzt werden. Andernfalls werden ständig Symptome gemanagt, anstatt die eigentliche Ursache anzugehen.
Frage: Wie sieht gutes Hardwaredesign für Multi-Tenant-KI denn aus?
- Es beginnt mit strikter Isolation. Das bedeutet, pro physischen Kern ein Thread. Dadurch kommt es nicht zum simultanen Multithreading oder internen Konflikten. Denn jede Anfrage wird nach und nach kontinuierlich ausgeführt. Auch die Taktfrequenz ändert sich nicht während des laufenden Vorgangs und keine Ressourcen werden im falschen Moment „gestohlen“. Zusätzlich muss eine ausreichende Speicherbandreite diese Vorhersehbarkeit sichern, damit Workloads voll ausgelastet stabil bleiben. Trifft dies alles zu, verhält sich die Inferenz gleich, egal ob das System nur gering oder vollständig ausgelastet ist.
Frage: Wie sollten Chips entwickelt werden, um diesem Bedarf gerecht zu werden?
- Neue CPU-Generationen sollten so entwickelt werden, dass sie eine reproduzierbare, vertrauenswürdige Leistung auf realen, geteilten KI-Plattformen bieten. Unser neuer AmpereOne M-Prozessor beispielsweise wurde genau für diese Art von Multi-Tenant-Umgebung entwickelt. Jeder Kern betreibt ohne Ausnahme einen einzelnen Thread. Zwischen den Workloads gibt es keinen gemeinsamen Execution State, was auf Prozessorebene den Noisy-Neighbor-Effekt eliminiert.
- Die neue Generation kombiniert diese Isolation mit ausreichender Speicherbandbreite – Zwölf (12) DDR5-Kanälen. Dadurch können Inferenz-Workloads auch dann kontinuierlich eingespeist werden, wenn viele Tenants gleichzeitig laufen. Das Ergebnis ist eine konstant vorhersehbare Latenz und ein gleichbleibender Durchsatz.
Frage: Welche Möglichkeiten eröffnet diese Vorhersehbarkeit den Nutzern?
- Zunächst ändert sich die Arbeitsweise in Teams. Kapazitätsplanung wird messbar statt wahrscheinlichkeitsbasiert. Infrastrukturbudgets brauchen keine versteckten Puffer „für alle Fälle“. Preismodelle werden klarer, da die Leistung unter Last nicht schwankt.
- Des Weiteren wirkt sich die Vorhersehbarkeit auf Sicherheit und Compliance aus. Sind Workloads wirklich isoliert, verringert sich das Risiko von Side-Channel-Verhalten zwischen Tenants. Auch Ingenieure profitieren, da sie nun weniger Zeit für Störungen aufwenden müssen, und mehr Zeit haben, Modelle und Nutzererfahrungen zu verbessern.
Frage: Wird sich der Ansatz Ihrer Meinung nach in der gesamten Branche durchsetzen?
- Ja, und das ist ein wichtiger Punkt. Die Branche erkennt an, dass Multi-Tenant-KI keine vorübergehende Phase ist – sie ist das dominierende Zukunftsmodell. Mit dieser Erkenntnis rücken bei Prozessoren nicht mehr Spitzenwerte, sondern stabile und berechenbare Leistung in den Fokus.
Frage zum Abschluss: Was ist aus Ihrer Sicht der zentrale Vorteil der Next-Gen CPUs für Multi-Tenant-KI?
- Vorhersehbarkeit durch Design: Wenn man die Variabilität auf Hardware-Ebene entfernt, wird alles darüber hinaus einfacher, einschließlich Betrieb, Wirtschaftlichkeit, Sicherheit und Engineering. Genau das braucht Multi-Tenant-KI, um verantwortungsvoll skalieren zu können."

(1) Jeff Wittich, Chief Product Officer bei Ampere (Bildquelle: Ampere)
** Ampere ist ein modernes Halbleiterunternehmen, das nach eigenen Angaben "die Zukunft des Cloud Computing mit den weltweit ersten Cloud-nativen Prozessoren gestaltet. Ampere-Prozessoren wurden für die nachhaltige Cloud mit der höchsten Leistung und der besten Leistung pro Watt entwickelt und beschleunigen die Bereitstellung aller Cloud-Computing-Anwendungen…"
Querverweis:
Unser Beitrag > Deutsche Telekom Industrial AI Cloud: Neue KI-Fabrik in München geht in Betrieb
Unser Beitrag > In vier Stufen zur erfolgreichen KI-Transformation
Unser Beitrag > IT als Enabler und Business Apps als Zukunft der (CX) Customer Experience. Schluss mit Mammutprojekten!