Dell AI Factory: Updates zur Erhöhung der Leistungsdichte und Skalierbarkeit für Rechenzentren

Frankfurt/M., Starnberg, 21. Okt. 2024 - Erweiterungen betreffen integriertes Rack, Server- und Storage-Systeme plus weitere Neuerungen im Bereich von Data Management…

Zur Ankündigung: Der Modernisierungsdruck für Unternehmens-RZ’s steigt. Von Cloud Computing bis hin zu Microservices, Automatisierung und jetzt künstlicher Intelligenz… Bisherige Rechenzentren können insbesondere mit den hohen Anforderungen aktueller KI-Entwicklungen jedoch kaum mithalten. Dell Technologies erweitert jetzt seine Dell AI Factory um mehrere Lösungen, die besser skalieren und eine hohe Leistungsdichte für KI-Workloads bereitstellen. Es handelt sich um ein integriertes Rack, Server- und Storage-Systeme sowie weitere Neuerungen im Bereich Datenmanagement. (1)

 

Dell Integrated Rack 7000 (IR7000) soll mit seiner hohen Leistungsdichte, einem nachhaltigen Energiemanagement und fortschrittlichen Kühltechnologien auch schnell wachsende Leistungsanforderungen erfüllen. Es basiert auf Standards des Open Compute Project (OCP) und ermöglicht laut Hersteller den Aufbau auch sehr großer IT-Infrastrukturen. Mit seinem Design soll es sich auch für Umgebungen mit heterogenen Technologien eignen und solchen aus unterschiedlichen Technologie-Generationen. Die wichtigsten Features laut Dell Technologies sind:

Hohe Leistungsdichte: Das 21-Zoll-Rack ist so konzipiert, dass es die höchsten CPU- und GPU-Dichten unterstützt.

Effizient: Das Rack bietet breitere und höhere Einschübe, um neuere, größere CPU- und GPU-Architekturen aufnehmen zu können. Es wurde speziell für die Flüssigkühlung von Prozessoren entwickelt und ist in der Lage, künftige Installationen mit bis zu 480 kW zuverlässig zu kühlen und nahezu 100 Prozent der entstehenden Wärme abzuleiten.

Wahlfreiheit und Flexibilität: Das integrierte Rack unterstützt sowohl Netzwerklösungen von Dell Technologies als auch anderer Anbieter.
Einfache und energieeffiziente Bereitstellung: Dell Integrated Rack Scalable Systems (IRSS) ermöglichen den Aufbau skalierbarer innovativer Rack-Infrastrukturen, die für KI-Workloads optimiert sind; mit integriertem Plug and Play Setup-Prozess.

 

Neben Dell IR7000 wurden auch Plattformen für KI angekündigt, die für das neue Rack entwickelt wurden:

Dell PowerEdge XE9712 für höchste Performance zum Training von LLMs und Echtzeit-Inferencing in großen KI-Implementierungen. Er ist Teil der Dell AI Factory with NVIDIA und soll mit dem NVIDIA GB200 NVL72 eine der höchsten GPU-Dichten erreichen können. Die Plattform verbindet bis zu 36 NVIDIA-Grace-CPUs mit 72 NVIDIA-Blackwell-GPUs in einem System, wobei die 72 Grafikprozessoren in einer NVLink-Domäne wie ein einzelner Grafikprozessor funktionieren und ein 30-mal schnelleres Echtzeit-Inferencing für LLMs mit Billionen Parametern ermöglichen. Der flüssiggekühlte NVIDIA GB200 NVL72 ist laut Entwickler bis zu 25-mal so effizient wie luftgekühlte Systeme mit NVIDIA H100.

Dell PowerEdge M7725 bietet höchste Leistung unter anderem für Anwendungen in der Forschung, bei Behörden, bei Fintechs und im Hochschulbereich. Er ist mit AMDs EPYC-CPUs der fünften Generation bestückt und skaliert zwischen 24k und 27k Cores (64 oder 72 Dual-Nodes), sodass er erheblich mehr Rechenkraft bietet als frühere Modelle. Darüber hinaus wurde die Wartungsfreundlichkeit verbessert. IO-Slots an der Gerätefront ermöglichen Highspeed-Verbindungen und Konnektivität für anspruchsvolle Anwendungen. Der energieeffiziente Formfaktor des Servers sorgt laut Anbieter zudem für nachhaltige Implementierungen – wahlweise mit Direct Liquid Cooling (DLC) oder mit Luftkühlung via Quick Connect zum Dell Integrated Rack.

 

Storage- und Datenmanagement im KI-Zeitalter

Neuerungen im Dell-Portfolio für die Speicherung unstrukturierter Daten sollen die Leistung von KI-Anwendungen erhöhen und für ein vereinfachtes globales Datenmanagement sorgen. Updates für Dell PowerScale Ethernet-Storage, der für NVIDIA DGX SuperPOD zertifiziert wurde, verbessern Datenmanagement, die Workload-Performance und die Unterstützung von KI-Workloads durch folgende Leistungsmerkmale:

Verbesserte Auffindbarkeit von Daten:

PowerScale-Metadaten und Dell Data Lakehouse erlauben es, schneller Einblick in Daten zu gewinnen und eine smarte Entscheidungsfindung zu beschleunigen. Mit einem in Kürze verfügbaren Document Loader für NVIDIA NeMo und RAG-Frameworks (Retrieval Augmented Generation), den Dell Technologies als Open Source bereitstellen wird, können Unternehmen zudem die sogenannte Data Ingestion – den Import von Daten aus verschiedenen Quellen in einen zentralen Speicher – beschleunigen und CPU- sowie GPU-Kosten senken.

Höhere Speicherdichte:

Mit neuen 61-TB-Laufwerken können Unternehmen ihre KI-Modelle mit größeren Datensätzen trainieren und dadurch das Fine-Tuning verbessern. Die Laufwerke erhöhen die Speicherkapazität und Effizienz der Systeme, während sie den Storage-Platzbedarf im Rechenzentrum halbieren (basierend auf der Verfügbarkeit von 61-TB-SSDs im Vergleich zu bisher verfügbaren SSDs mit maximal 30 TB. Oktober 2024).

Mehr KI-Performance:

Die Performance von KI-Workloads wird durch NVIDIA InfiniBand am Frontend und die Unterstützung von Ethernet-Adaptern mit 200 GbE verbessert. 200 GbE sorgt für einen bis zu 63 Prozent höheren Durchsatz (basierend auf 200 GbE im Vergleich zum bisher verfügbare 100 GbE. Oktober 2024).
 


Abb.: Data Management for Generative AI (Bildquelle: Dell Technologies).

Die Datenmanagement-Plattform Dell Data Lakehouse bringt neue Funktionen mit, die den Betrieb verbessern und Unternehmen wertvolle Zeit sparen. Dazu zählen Desaster Recovery, automatische Schema-Erkennung, umfassende Management-APIs sowie Full-Stack-Upgrades im Self-Service. Neue Optimierungsservices für die Katalogisierung von Daten und Implementierungsservices für Daten-Pipelines. Die Services verbessern laut Dell den Zugang zu hochwertigen Daten durch Data Discovery, Organisations-, Automatisierungs- und Integrationsfunktionen.

 

Moderne Arbeitsabläufe mit Dell Generative AI Solutions with Intel

Als Teil der Dell AI Factory bieten die Dell Generative AI Solutions with Intel gemeinsam entwickelte, getestete und validierte Plattformen zur KI-Bereitstellung. Die vorkonfigurierten Lösungen setzen auf den Dell PowerEdge XE9680 und Intels KI-Beschleuniger Gaudi 3.

Hinzu kommen Storage- und Netzwerk-Lösungen und Services von Dell Technologies sowie ein Open-Source-Software-Stack. Damit unterstützen die „Dell Generative AI Solutions with Intel“ eine breite Palette von GenAI-Anwendungsfällen, etwa in den Bereichen Content-Erstellung, digitale Assistenten, Design- und Datengenerierung sowie Code-Erzeugung.

 

(1) Zu den Verfügbarkeiten (Quelle: Dell Technologies): Das Dell IR7000 soll weltweit im ersten Quartal 2025 verfügbar sein. Testmuster des Dell PowerEdge XE9712 sind bereits für ausgewählte Kunden verfügbar. Der Dell PowerEdge M7725 soll weltweit im ersten Quartal 2025 verfügbar sein. Updates für Dell PowerScale sollen im Laufe des vierten Quartals 2024 verfügbar sein. Updates für Dell Data Lakehouse werden danach im ersten Halbjahr 2025 verfügbar sein.
Dell Generative AI Solutions with Intel sollen im Laufe des vierten Quartals 2024 verfügbar sein.

 

Querverweis:

Unser Beitrag > Dell Technologies World 2024: Dell AI Factory Erweiterung, File Storage und KI-Datenschutz

Unser Beitrag > Das Potenzial alternativer KI-Sprachmodelle: Es muss nicht immer LLM sein

Unser Beitrag > Vom KI-Hype zum Produktivbetrieb mit Unterstützung von Platform Engineering und MLOps