DNA Storage Entwicklungstrends: Seagate kooperiert mit CATALOG Inc.

Starnberg, 17. Jan. 2023 - Ein Exabyte in einem Zuckerwürfel-großen DNA Speicher; zu Herausforderungen der DNA-Speicherung und Seagate's 'Lab on a Chip' Technologie...

Zum Inhalt des Blogposts: Folgt man Untersuchungen wie dem IDC Global DataSphere Report (John Rydning, research vice president, IDC's Global DataSphere), soll sich bekanntlich das unternehmensbezogene Datenaufkommen in den nächsten 5 Jahren verdoppeln. Und es ist offensichtlich, dass für die stetig steigenden Massendaten-Kapazitäten im Bereich der unstrukturierten Daten in absehbarer Zeit ein neuer Typ von Speichertechnologien-/Medien notwendig wird. Festplatten als konventionelle Technologien benötigen langfristig alternative Ergänzungen für die Zettabyte-Ära (1 Zettabyte entspricht 10*21 Bytes), insbesondere im Bereich der Archivdatenspeicherung und Cold Data. Aber auch LTO-Tapes werden bei diesen Kapazitätsdimensionen alleine aus Kostengründen (TCO) dann zunehmend zu einer Herausforderung.

Deshalb forschen und investieren eine Reihe von Unternehmen und Organisationen seit Jahren in die DNA-Speicherung (s.a. DNA Data Storage Alliance. Link > https://dnastoragealliance.org). Daneben aber natürlich auch in weitere mögliche Speichertechnologien, wie z. B. holographische Systeme oder Glas, die dafür in Frage kommen können.

 

DNA Storage scheint auf Grund der langen Haltbarkeit auch bei sehr großen Kapazitäten und der Widerstandsfähigkeit gegenüber äußeren Faktoren ein „heisser“ Technologiekandidat für „Cold" Storage und Archive zu sein (heute primär von Tape und HDDs dominiert). Kalte Daten sind inaktive Daten, auf die fast nie oder nur sehr selten zugegriffen wird. Anwendungen wie Cloud-Backup oder Cloud-Storage wären mit DNA Storage künftig möglich. Die Technologie könnte durch die WORM-Fähigkeit aber auch zum Ransomware-Schutz sowie die Einhaltung gesetzlicher Vorschriften verwendet werden (HIPAA, EU-DSGVO, Sarbanes-Oxley etc.).

Daran forschende Unternehmen und Organisationen haben sich in der DNA Data Storage Alliance zusammengeschlossen, um die Technologieentwicklung effektiver voranzutreiben. Die Aussichten klingen durchaus vielversprechend: ein Gramm DNA kann heute schon über 200 PB an Daten speichern, was rund 10.000 aktuellen 22TB-Festplatten entsprechen würde. Allerdings sind die technologischen Hürden dafür noch hoch (Größe der Systeme, Schreibgeschwindigkeit, Speicherkosten) und die Verfahren komplex. Synthetische DNA zu schreiben und zu lesen bedeutet, Bits in Moleküle und wieder zurück zu übersetzen. Seit 2015 arbeiten dazu z.B. Forscher von Microsoft und der Universität von Washington zusammen, um DNA als hochdichtes, langlebiges und einfach zu handhabendes Speichermedium zu nutzen. Link > https://www.microsoft.com/en-us/research/blog/toward-nanoscale-dna-writers-unlocking-scalable-dna-data-writing-technology/

 

Catalog Technologies, Inc. - eines der führenden Unternehmen auf dem Gebiet der automatisierten digitalen Datenspeicherung und -berechnung auf DNA-Basis - arbeitet nun gemeinsam mit Seagate Technology Holdings plc, einem weltweit führenden Anbieter von Datenspeicherlösungen, an mehreren Initiativen, um skalierbare und automatisierte Speicher- und Berechnungsplattformen auf DNA-Basis voranzutreiben und DNA-basierte Plattformen bis zu 1000 Mal kleiner zu machen. CATALOG mit Sitz in Boston, MA. wurde von zwei MIT-Wissenschaftlern gegründet und ist nach eigenen Angaben das erste Unternehmen, das eine Lösung entwickelt hat, um die Speicherung von DNA-Daten kommerziell nutzbar zu machen.

Mit dem ersten Produkt „Shannon“ von Catalog konnte zwar bereits im Jahr 2020 die vollständige englische Textversion von Wikipedia - insgesamt 16 GB - auf künstlich hergestellten DNA-Molekülen abgespeichert werden. Shannon füllte allerdings noch einen ganzen Raum und auch die Schreibgeschwindigkeit lässt keinen sinnvollen praktischen Einsatz zu.

 

 

Die Partnerschaft von CATALOG mit Seagate soll künftig die Produktion von DNA-Plattformen beschleunigen, die bis zu 1.000 Mal kleiner sein können, und so den Weg für eine mögliche Massenproduktion von DNA-basierten Speicherprodukten innerhalb des nächsten Jahrzehnts bereiten. Im Mittelpunkt dieser Initiative steht laut Anbieter die kürzlich vorgestellte "Lab on a Chip"-Technologie von Seagate, die darauf abzielt, die Komplexität des Betriebs von DNA-Plattformen zu reduzieren.

Mit der Plattform von Seagate können winzige Tröpfchen synthetischer DNA auf deutlich geringerem Umfang getestet werden. Diese Tröpfchen werden in Dutzenden von Behältern auf der Seagate-Plattform verarbeitet. Die DNA aus den einzelnen Reservoirs wird gemischt, um chemische Reaktionen für eine Reihe von Computerfunktionen zu erzeugen, darunter Suche und Analyse, maschinelles Lernen und Prozessoptimierung. Diese Forschung soll laut den Beteiligten wertvolle Einblicke in die Möglichkeiten der nächsten Generation von DNA-basierten Speicher- und Berechnungsplattformen in verschiedenen Formfaktoren, einschließlich Desktop- und IoT-Versionen, liefern können.

Kommentar Ed Gage, VP of Seagate Research: “We are excited to collaborate with CATALOG. Their leadership in DNA-based storage and compute, combined with Seagate’s long history of bringing innovative storage solutions to market, has the potential to accelerate the development and deployment of DNA-based solutions to address the challenges of the rapidly expanding datasphere.”

 

Laut DNA Data Storage Alliance rückt damit auch die Wirtschaftlichkeit der DNA-Datenspeicherung stärker in den Mittelpunkt. Obwohl der Bereich der DNA-Datenspeicherung noch im Entstehen begriffen ist, sinken nach Entwicklerangaben die grundlegenden Kostentrends der synthetischen DNA-Synthese und -Sequenzierung für die Datenspeicherung weiter. Für die Synthese setzt sich laut der Organisation das IARPA MIST-Projekt ein Ziel von 1000 $/Terabyte bis 2024 und 1 $/Terabyte bis 2030...

Die Kosten für die Sequenzierung sollen danach bereits deutlich gesunken sein und sich in den nächsten Jahren dem Meilenstein von 100 $/Humangenom annähern, was Datenspeicherkosten von etwa 130 $/Gigabyte entsprechen würde. Dies kombiniert mit weiteren Fortschritten und den weitaus geringeren Kosten für die physische Speicherung, Wartung sowie Energieeffizienz von DNA als Speichermedium im Vergleich zu den heutigen Speichertechnologien, soll es nach vorliegenden Angaben ermöglichen, DNA Storage künftig als neue Ebene in die Hierarchie der Archivdatenspeicherung aufzunehmen. (1)

 

(1) Abb.: DNA-CODIERUNG. Einzelne Stufen der DNA-Speicherung (Quelle: Preserving our Digital Legacy: An Introduction to DNA Data Storage. DNA Data Storage Alliance).

 

(1) Anhang- Wie funktioniert die DNA-Speicherung?

Hier der gekürzte Auszug aus dem DNA Data Storage Alliance Whitepaper (Originalquelle übersetzt). Link > https://dnastoragealliance.org/dev/publications/)

„Bei der Kodierung von DNA für die Datenspeicherung werden die ursprünglichen digitalen 1en und 0en in eine Abfolge von Basen (ACGT) umgewandelt, aus denen DNA-Moleküle bestehen. Die spezifischen Kodierungsalgorithmen sind technisch mit der zugrundeliegenden Chemie der Synthese- und Sequenzierungsmethoden verflochten, so dass die Kodierungsmethode die Gesamtkomplexität des Prozesses, die Skalierbarkeit, die Datendichte, die Datenzuverlässigkeit und damit die Kosten jedes vorgeschlagenen DNA-Datenspeichersystems beeinflusst und davon beeinflusst wird.

Sobald die DNS synthetisiert und mit digitalen Daten kodiert ist, sind bei der tatsächlichen physischen Speicherung des Mediums mehrere Faktoren zu berücksichtigen: Jede Technologie zum Schutz der DNS muss Verpackungsmaterial verwenden. Daher müssen praktische Aspekte - z.B. die Kosten für den Behälter, die Datenmenge pro Behälter, die Zeit und die Kosten für das Verpacken/Entpacken - im gesamten Kontext der DNA-Datenspeicheranwendungen berücksichtigt werden. Sehr wichtig ist auch die Automatisierung der physischen Speicherung und des Abrufs, einschließlich des Sammelns der Syntheseergebnisse, der Vorbereitung der DNA für die physische Speicherung, der Rückgewinnung des Materials für Leseanfragen und seiner Vorbereitung für den Leseprozess.

Bei richtiger Aufbewahrung können DNA-Daten Tausende von Jahren bei geringem oder keinem Stromverbrauch oder Wartungs-/Aktualisierungsbedarf zuverlässig halten. Speicherdichte, Haltbarkeit und geringer Stromverbrauch von DNA-basierten Datenspeichern reduzieren die Gesamtbetriebskosten radikal und machen sie zu einem starken Konkurrenten für die langfristige Archivdatenspeicherung. Im Gegensatz zur heutigen Speicherung, bei der Medien vorgefertigt und leer geliefert werden, werden Moleküle, die DNA-gespeicherte Daten darstellen, nach Bedarf erstellt, und die Informationen werden direkt in der Art und Weise kodiert, wie das synthetische DNA-Molekül zusammengesetzt wird..." (Zitatende).

 

Querverweis:

Unser Beitrag > Technologietrends 2023 der Western Digital Corporation mit Ausblick: Daten im Mittelpunkt. Mit dem Datenwachstum gewinnt Cold Storage an Bedeutung. Weitere Themen: Energieeffienz, DNA Storage und intelligente Datenspeicher...