Herausforderungen der Such- und Analyse-Suite OpenSearch kennen und bewältigen

Mönchengladbach, Starnberg, 08. Sept. 2022 - Anwender sollten bei OpenSearch-Nutzung im Eigenbetrieb einiges beachten; laut Instaclustr sind dies fünf zentrale Aspekte...

Zum Beitrag: Die Such- und Analyse-Suite OpenSearch, ein Fork der Suchmaschine Elasticsearch, gewinnt als reine Open-Source-Software zunehmend an Bedeutung. OpenSearch ist eine von der Community betriebene, unter Apache 2.0 lizenzierte Open-Source-Such- und Analyse-Suite, die das Einlesen, Durchsuchen, Visualisieren und Analysieren von Daten erleichtert. OpenSearch besteht aus einem Datenspeicher und einer Suchmaschine (OpenSearch) sowie einer Visualisierungs- und Benutzeroberfläche (OpenSearch Dashboards). Benutzer können die Funktionalität von OpenSearch mit einer Auswahl von Plugins erweitern, die die Suche, Sicherheit, Leistungsanalyse, maschinelles Lernen usw. verbessern. (Quelle / Link > https://opensearch.org/).

OpenSearch unterstützt eine breite Palette unterschiedlichster Anwendungsfälle. Dazu gehören die Log-, Security- und Clickstream-Analyse sowie die Volltextsuche. Der Anwender sollte bei der OpenSearch-Nutzung im Eigenbetrieb aber auch einige Punkte beachten, um mögliche Performancebeeinträchtigungen zuverlässig auszuschließen. Laut dem Managed-Platform-Anbieter Instaclustr gibt es dabei vor allem fünf zentrale Herausforderungen, die es aus Sicht des Unternehmens bei Nutzung zu beachten gilt. (1) Diese betreffen:

  1. Clustergröße: "OpenSearch ist prinzipiell flexibel skalierbar. Größere Implementierungen erfordern allerdings eine durchdachte Knoten- und Shard-Verteilung, um die Performance und Verfügbarkeit aufrechtzuerhalten und zugleich die erforderliche Last zu bewältigen. Die Lösung besteht darin, Sharding und Replikate zu nutzen, um Indizes zu verteilen und performante Antwortzeiten sicherzustellen.

  2. Anzahl der Shards: Bei OpenSearch sind die Indizes in physische Bereiche unterteilt, die Shards genannt werden. So können Anwender Daten zwischen Hosts aufteilen. Der Haken an der Sache ist jedoch, dass die Anzahl der Shards zum Zeitpunkt der Indexerstellung festgelegt werden muss und die Shard-Zuweisung später nicht mehr änderbar ist, ohne alle Quelldaten neu zu indizieren. Bei der Shard-Zuweisung sollten Anwender also auch bedenken, dass ihr Datenbestand im Laufe der Zeit wachsen kann. Eines der häufigsten Probleme im Hinblick auf die OpenSearch-Performance ist die Zuweisung von zu vielen Shards für kleine Datenmengen. Es gibt keine feste Regel dafür, aber im Allgemeinen sollte die Shard-Größe zwischen 20 GB und 40 GB liegen.

  3. Abstürze aufgrund einer „Mapping Explosion“: OpenSearch bietet manuelles und dynamisches Mapping, um zu bestimmen, wie Daten in Indizes gespeichert werden. Es besteht dabei das Risiko, dass ein nicht richtig begrenztes dynamisches Mapping zu einer „Mapping-Explosion“ führt, die OpenSearch zum Absturz bringen kann. Um dieses Risiko zu vermeiden, sollten Anwender sicherstellen, dass für jedes dynamische Mapping Limitierungen existieren.

  4. Abstürze aufgrund von „Combinatorial Explosions“: Wenn Daten auf verschachtelte Weise aggregiert werden, kann die „Bucket“-Generierung exponentiell werden und zu einem Absturz führen. Zur Vermeidung dieses Problems müssen die „Collection Mode“-Einstellungen exakt beachtet werden.

  5. Umfangreiche Index-Templates: Index-Templates tragen zu einer erheblichen Zeiteinsparung bei, da sie bei Bedarf die schnelle Erstellung leistungsstarker neuer Indizes ermöglichen. Allerdings führt ein zu großes Template zu großen Mappings sowie zu langen Update- und Debugging-Zeiten. Es ist folglich am besten, Index-Templates zu vereinfachen, indem man dynamische Templates nutzt oder die Templates so leichtgewichtig wie möglich gestaltet.

Fazit: Die Kenntnis dieser Herausforderungen ist für den Anwender der erste Schritt für die effiziente und problemlose OpenSearch-Einführung und -Verwendung. Als Alternative zum aufwendigen Eigenbetrieb kann er allerdings auch eine Managed Platform nutzen, bei der der Provider alle Aufgaben hinsichtlich Implementierung, Integration, Verwaltung oder Wartung übernimmt."

(1) Quelle / Link: Managed OpenSearch von Instaclustr > https://www.instaclustr.com/

 

Querverweis:

Unser Beitrag > Instaclustr Managed Cadence erreicht Produktionsreife; geplante Übernahme durch NetApp

Unser Beitrag > Instaclustr veröffentlicht Apache Cassandra 4.0 NoSQL als Fully-Managed-Service