Elastic Search AI Lake: Architektur skaliert Suchanwendungen im Bereich unstrukturierter Daten

München, Starnberg, 28. Nov. 2024 - Kombination von Data Lake mit Elasticsearch zur Beschleunigung von (KI-)Workloads; adressiert langsame Abfragen auf Objektspeichern…

Zum Hintergrund: Elastic hat mit Search AI Lake in diesem Jahr eine neue cloudnative Architektur zur Beschleunigung von Echtzeitanwendungen, wie Search, RAG (Retrieval Augmented Generation), Observability und Security, auf den Markt gebracht. Search AI Lake bildet die Grundlage für Elastic Cloud Serverless, das Workloads automatisch skalieren und verwalten kann, ohne die operativen Aufwendungen hierfür zu erhöhen. Dazu kombiniert Elastic laut Entwickler (Zitat) „die massive Speicherkapazität eines Data Lakes mit performanten Search- und KI-Relevanz-Funktionen von Elasticsearch“.

 

Das Storage Consortium sprach dazu im Rahmen der letzten Elastic User & Partner Conference am 14. Nov. in München auch mit Ash Kulkarni, CEO von Elastic, zu GenAI und den globalen Perspektiven für Unternehmen, und weshalb Search AI Lake derzeit aus Sicht seines Unternehmens auf ein verstärktes Interesse trifft. (1) Und laut Stefan Grotehans, Elastic’s Director, Solutions Architecture, sind dies vor allem die derzeitigen geschäftlichen Herausforderungen vieler Kunden. Im Detail:

  • Längere Datenaufbewahrung für Compliance
  • Unbegrenzte Kostensteigerungen in der Cloud
  • Bedarf an sicherer, produktionsfähiger GAI
  • Cloud-Komplexität im großen Maßstab - Hybrid, Multi-Cloud
  • Fachkräftemangel treibt Einfachheit voran.


Für die Anforderungen von KI- und Echtzeit-Workloads wird eine Unternehmens-Architektur benötigt, die sowohl der steigenden Rechenleistung (CPU/GPU), als auch einem weiter wachsenden Speicherplatzbedarf (unstrukturierte Daten) gewachsen ist. Traditionelle Data Lakes wurden nicht für diese Herausforderungen im Bereich von (KI-)Echtzeitanwendungen konzipiert. Elastics’ Search AI Lake und Elastic Cloud Serverless setzen deshalb nach eigenen Angaben an dieser Stelle an. Die technischen Herausforderung von traditionellen Data Lakes betreffen laut CEO Kulkarni und S. Grotehans besonders die folgenden Punkte:

  • Langsame Abfragen auf Objektspeichern
  • Optimiert für Speicherung, nicht für Anwendungen
  • Abhängigkeit von Tools von Drittanbietern für Suche, Analyse und Anwendungsentwicklung
  • Komplexität der Nutzung von Daten über Regionen und Zonen hinweg
  • Keine interaktiven Echtzeit-Abfragen, konzipiert für Analysen, nicht für Anwendungen.


 

Abb.: Search AI Lake, How Search AI Lake can power GenAI implementation (Bildquelle: Elastic).
 

(1) Das Storage Consortium beim Gespräch mit Ash Kulkarni, CEO von Elastic zu „GenAI und den globalen Perspektiven für Unternehmen“, im Rahmen der Elastic User Conference vom 14. Nov. in München (Bildquelle: N.Deuschle, Storage Consortium).

 

Search AI Lake bietet im Detail folgende Vorteile (Quelle/Elastic):

  • „Skalierbarkeit und Entkopplung von Rechenleistung und Speicherung: Die komplette Entkopplung von Speicherung und Rechenleistung bei Nutzung von Objektspeichern ermöglicht problemfreie Skalierbarkeit und Zuverlässigkeit. Das dynamische Caching unterstützt hohe Durchsatzraten, häufige Aktualisierungen und das interaktive Suchen in großen Datenbeständen. Damit entfällt die Notwendigkeit, Indexierungsoperationen über mehrere Server hinweg zu replizieren, was Kosten spart und die Menge an doppelten Daten reduziert.

  • Echtzeit-Performance mit geringer Latenz: Eine Reihe von Verbesserungen sorgt für beste Abfrage-Performance, selbst dann, wenn die Daten in sicheren Objektspeichern platziert sind. Dazu gehört die Einführung von Smart Caching und die Abfrageparallelisierung auf Segmentebene. Dies reduziert die Latenz durch einen schnelleren Datenabruf und die rasche Verarbeitung von mehr Anfragen.

  • Unabhängige Skalierung von Indexierung und Abfragebearbeitung: Dadurch, dass Indexierung und Low-Level Suche voneinander getrennt werden, ist die Plattform in der Lage, unabhängig und automatisch zu skalieren. Dadurch wird sie den verschiedensten Anforderungen von Workloads gerecht.

  • Native Inferenz- und Vektorsuche, optimiert durch generative KI: Nutzern steht eine native Suite leistungsfähiger KI-gestützter Relevanz-, Abruf- und Reranking-Funktionen zur Verfügung. Dazu gehören eine vollständig in Lucene integrierte, native Vektordatenbank, offene Inferenz-APIs, semantische Suche sowie Erst- und Drittanbieter-Transformator-Modelle, die nahtlos mit allen Suchfunktionen zusammenarbeiten.

  • Leistungsstarke Abfragesprache und Analytics-Funktionen: Die Integration der leistungsstarken Abfragesprache ES|QL von Elasticsearch kommt mit effektiven, aussagekräftigen und effizienten Analysen, unabhängig von Datenquelle und ‑struktur.

  • Die uneingeschränkte Unterstützung für präzise und effiziente Volltextsuchen und Zeitreihenanalysen kann es ermöglichen, zudem Muster in raumbezogenen Analysen zu identifizieren.

  • Natives Machine Learning: Für bessere Prognosen haben User die Möglichkeit, Machine-Learning-Funktionen zu erstellen, einzusetzen und zu optimieren, die dann auf nalle Daten angewendet werden können. Vordefinierte Threat-Detection-Regeln können problemlos auf historische Informationen angewendet werden, die viele Jahre alt sein können, und Security-Analysten so bei der Arbeit unterstützen. Hinzu kommt die in beinahe Echtzeit durchgeführte Anomalieerkennung durch nicht überwachte Modelle, mit der Daten laut Elastic aus viel längeren Zeiträumen überwacht werden können als bei anderen SIEM-Plattformen.

  • Regions-übergreifend, cloudbasiert oder hybrid: Daten können von einer zentralen Benutzeroberfläche aus in der Region oder in dem Rechenzentrum abgefragt werden, in dem sie generiert wurden. Durch die clusterübergreifende Suche (CCS) entfällt die Notwendigkeit, die Daten zu zentralisieren oder zu synchronisieren. Das bedeutet, dass Daten jeden Formats unmittelbar nachdem Hinzufügen normalisiert, indexiert und optimiert werden. Dies sorgt für extrem schnelle Abfrage- und Analyseergebnisse – bei geringeren Kosten für die Übertragung und Speicherung von Daten.

  • Search AI Lake bildet die Grundlage für Elastic Cloud Serverless: Mit der Geschwindigkeit und Skalierbarkeit der Architektur wird operativer Overhead entfernt, damit Benutzer schnell Workloads starten und skalieren können. Alle Operationen, vom Monitoring und Backup bis zur Konfiguration und zum Sizing, werden von Elastic verwaltet, d.h. User brauchen nur ihre Daten beizusteuern, falls sie Elasticsearch, Elastic Observability oder Elastic Security auf Serverless im Unternehmen einsetzen.“



Querverweis:

Unser Beitrag > Elastic stellt mit Elasticsearch Relevance Engine ESRE für künstliche Intelligenz vor

Unser Beitrag > Kyndryl Readiness Report 2024 zum Ist-Zustand und der Zukunftsfähigkeit von IT-Infrastrukturen

Unser Beitrag > KI-Storage: Integration von Cloudian S3 Objektspeicher mit NVIDIA GPUDirect Storage