Ethernet-SSDs – Hands-on mit der Kioxia EM6 NVMeoF SSD

2022-10-27 11:00:43 By : Mr. Yuxin Lv

Heute haben wir ein ziemlich spannendes Stück.Dies ist unsere erste praktische Erfahrung mit einer neuen Klasse von SSDs, die für ein anderes Scale-out-Bereitstellungsmodell entwickelt wurden.Die Kioxia EM6 ist eine NVMeoF-SSD, die Ethernet und RDMA anstelle von PCIe/NVMe, SAS oder SATA verwendet, um eine Verbindung zum Gehäuse herzustellen.Wir zeigen Ihnen praxisnah, warum dies eine sehr coole Technologie ist.Wir haben auch eine Videoversion davon.Im Video können wir zeigen, wie die Bildschirme aussehen und blinkende Videos und Funktionen wie das Hot-Swapping der Laufwerke zeigen.Wie immer empfehlen wir, dies in einem neuen Browser/Tab zu öffnen, um das beste Anzeigeerlebnis zu erhalten.Zunächst einmal ist die größte Änderung in dieser gesamten Lösung die Kioxia EM6 SSD.Dies mag wie eine normale 2,5-Zoll-SSD aussehen, aber es gibt einen großen Unterschied, seine I/O ist eher Ethernet als herkömmliches PCIe/NVMe.Man kann sehen, dass der Ingrasys ES2000-Schlitten zwei EDSFF-Anschlüsse hat.Dies dient dazu, ein gemeinsames Design mit herkömmlichen NVMe-Produkten beizubehalten, hebt jedoch ein weiteres Merkmal hervor.Dies sind NVMeoF-SSDs mit zwei Ports für Redundanz.Dies ist ein wichtiges Merkmal, damit sie in Märkten konkurrieren können, die traditionell von Dual-Port-SAS-SSDs bedient werden.Wir haben uns auf der SC21 die Ingrasys ES2000 für Kioxia EM6 NVMe-oF-SSDs angesehen.Dies ist jedoch das erste Mal, dass wir das System tatsächlich verwenden.Im Kioxia-Labor mussten wir ein älteres Revisionsgehäuse verwenden, aber man kann sehen, dass es sich um ein 2U-Gehäuse mit 24 Einschüben handelt, das wie viele andere Server und Speicherregale aussieht, die wir im Laufe der Jahre gesehen haben.Wir zeigen dies im Video, aber wir können die EM6-SSDs tatsächlich im laufenden Betrieb austauschen.Die EDSFF-Anschlüsse sind für Hot-Swap ausgelegt, und Ethernet-Netzwerke sind natürlich dafür ausgelegt, Geräte zu handhaben, die online/offline gehen.Hier ist ein Blick auf die Backplane, in die die Laufwerke gesteckt werden.Wie man sehen kann, haben wir EDSFF-Anschlüsse, aber nur einen Satz, obwohl die Laufwerkseinschübe zwei Anschlüsse haben.Dies liegt daran, dass in jedem Chassis zwei vorhanden sind.Hier ist ein Blick auf den Schaltknoten unter einer Plexiglasabdeckung.Wenn wir auf die Rückseite des Systems schauen, können wir die beiden Schalter sehen.Bei diesem speziellen System ist nur der oberste Knoten verbunden.Als lustige Anmerkung: Da es sich um einen Ethernet-Switch-Knoten handelt, können wir 1-6 Verbindungen haben, und in diesem System ist die eine Verbindung, die verwendet wird, 100 GbE.Man kann auch sehen, dass jeder Netzwerk-Switch-Einschub über einen USB-Port, einen Out-of-Band-Management-Port und einen seriellen Konsolen-Port verfügt.Auch wenn sie wie Server aussehen, handelt es sich um Switches.Im Inneren des Systems können wir den Marvell 98EX5630 Switch-Chip sehen, der von dem großen Kühlkörper bedeckt ist.Marvell stellt auch die NVMe-zu-Ethernet-Controller in den EM6-SSDs her.Unter dem schwarzen Kühlkörper befindet sich auch eine Steuerebene für den Schalter.Dies wird mit einer Intel Atom C3538 CPU zusammen mit einer M.2 SSD und 8 GB DRAM betrieben.Diese übereinander gestapelten Switches ermöglichen jedem Laufwerk den gleichzeitigen Zugriff auf beide Switch-Netzwerke und bieten einen redundanten Pfad zu den Laufwerken.Für diejenigen, die sich fragen, gibt es eine Marvell 88SN3400-Adapterkarte, die eine herkömmliche NVMe-SSD mit Ethernet verbindet, sodass sie in diesem Gehäuse verwendet werden kann.Lassen Sie uns als Nächstes Hand anlegen und einige der lustigen Dinge sehen, die wir mit den Kioxia EM6-SSDs machen können.Irgendwelche Hinweise auf Preise und Verfügbarkeit?NVMeoF: Das klingt alles interessant, und vielleicht ist der Beton, der gegossen wurde, um mich zu überzeugen, vollständig geheilt (meine erste Speicheraufgabe bestand darin, SASI- (damals SCSI-) Festplatten- und Bandtreiber für ein proprietäres Betriebssystem zu schreiben) … Aber wie nimmt man diese physische Basis Architektur bis hin zu Enterprise-Storage-Array-Services?(Dateiserver, Snapshots, Backup, Sicherheit/verwalteter Dateizugriff, Steuerkopf-Failover usw.)?Hmmmm … Vielleicht sollte ich einfach dem Slogan der alten TV-Show „Soap“ aus den 1980er Jahren folgen: „Verwirrt?Sie werden nicht nach der nächsten Folge von Soap sein“.Das ist wirklich SAS sehr ähnlich, aber mit Ethernet-Scale-out.Das Wichtigste ist, dass Sie die Small-Failure-Domain für einzelne Laufwerke erhalten.Auf der einen Seite könnten Sie ein Archivierungssystem mit mehr als 1000 Laufwerken mit einigen Servern aufbauen, die vollständig redundant sind (Server-Failover).Auf der anderen Seite könnten Sie mehr Leistung in „Controller“ stecken, indem Sie mehr Server hinzufügen und Speicherbeschleuniger wie DPUs verwenden.Softwaredefinierte Systeme, die auf einfachen Servern basieren, haben Größenprobleme.Sie geben zu viel für Server aus, um Fehlerdomänen mit absteigender Größe zu verwalten.Selbst wenn Sie sich entscheiden, jedem Server viel Speicherplatz hinzuzufügen, benötigen Sie viele Server, um den Redundanzaufwand gering zu halten (Erasure Coding).Dann steigen Sie in ein Multi-PB-System ein, bevor es wirtschaftlich wird.Das Verschieben der Software auf die Laufwerke kann dieses Problem lösen, und da es sich bereits um Ethernet handelt, ist es möglicherweise nicht so weit entfernt, verursacht jedoch Kosten für die Verarbeitung auf dem Laufwerk.Mit dem guten alten Dual-Path-Laufwerk können Sie mit zwei Servern (Controllern) und einem RAID6 mit 10 Laufwerken beginnen und jetzt so weit skalieren, wie Ethernet oder jedes andere NVMeoF-Netzwerk Sie trägt.Ich denke, dieses System mit Löschcodierung wäre ein großartiges Paar.Ich habe Tests von NVMEoF mit QDR IB, x4 PCIe3 SSDs und PCs der Ryzen 3000-Serie durchgeführt.Im Vergleich zu lokal angeschlossenem NVME hatte NVMEoF etwas langsamere POSIX-Öffnungs-/Schließvorgänge und im Wesentlichen die gleiche Lese-/Schreibbandbreite.Im Vergleich zu NFS über RDMA war NVMEoF bei jeder Metrik wesentlich schneller.NVMEoF ist also ziemlich gut, besonders wenn Sie alle Ihre SSDs an einem Ort konsolidieren möchten.Warten auf den Preis.Wäre so schön, die Intel/AMD/ARM-CPU-Steuer auf Speichermaschinen zu verlieren.Kann ein NVMEoF-Gerät den gleichzeitigen Zugriff von mehreren Knoten unterstützen?Ist jede davon auf 25 GbE (~3 GB/s?) begrenzt, mit einzelnen Breakout-Kabeln von einer 100-GbE-Verbindung?Ich kann sehen, wo es sich als interessant erweisen würde, PCI-e 3.0 NVME-Geschwindigkeiten von nur einem einzigen Speicherlaufwerk zu erreichen, ohne Hostserver zu benötigen!Sehr interessant!Ich frage mich, warum sie sich dafür entschieden haben, einen vollständigen IP-Stack auf den Laufwerken auszuführen, anstatt ihn auf der Ethernet-Schicht zu belassen.Ich nehme an, es bietet viel mehr Flexibilität, da Geräte mehrere Hops entfernt sein können, aber dann müssen Sie sich aus Sicherheitsgründen um einen ganzen eingebetteten Betriebssystem- und TCP-Stack auf jedem Gerät kümmern.Ich nehme an, die Idee ist, dass Sie diese auf einem dedizierten SAN ausführen, das physisch vom Rest des Netzwerks getrennt ist?@The Anh Tran – technisch ja, Sie können ein NVMEoF-Gerät gleichzeitig auf mehreren Hosts mounten.Aber es ist im Allgemeinen eine riskante Sache zu tun.Die verschiedenen Hosts sehen es als lokales Blockgerät und gehen von exklusivem Zugriff aus.Sie werden auf Probleme stoßen, bei denen Änderungen am Dateisystem, die von einem Host vorgenommen werden, von anderen Hosts nicht gesehen werden – sehr schlechte Sachen.Wenn alle Hosts ausschließlich schreibgeschützten Zugriff ausführen würden, wäre dies sicher.Ich habe dies getan, um ML-Trainingsdaten zwischen einigen GPU-Rechenboxen auszutauschen.Es funktionierte.Später habe ich versucht, die Trainingsdatendateien von einem Host zu aktualisieren – die Änderungen waren für die anderen Hosts nicht sichtbar.Wenn Sie beispielsweise DB-Datendateien mit dieser Methode unter den Mitgliedern eines DBMS-Clusters teilen würden, würden Sie sicherlich alle Ihre Daten beschädigen, da jeder Knoten seine eigene Vorstellung von Dateierweiterungen, Speicherorten usw. hätte. Sie würden sich gegenseitig zerstören Änderungen.Das klingt interessant, ich frage mich, welche Sicherheitsstufe / Zugriffskontrolle bereitgestellt wird.Man möchte die Daten wahrscheinlich lokal auf dem Host verschlüsseln (möglicherweise mit einer DPU, die dies sogar transparent tun könnte), bevor man auf das Laufwerk schreibt.https://www.ingrasys.com/es2000@Malvineous – Die erste RoCE-Version war reines Ethernet, aber sie wechselten in v2 zu UDP/IP, um Routing zu ermöglichen.All dies wird von den NICs gehandhabt, sodass RDMA direkt in den Speicher übertragen werden kann.Es gibt auch Soft-RoCE für NICs, die es in der Hardware nicht unterstützen.@Hans: Als ich HPE das letzte Mal um ein Angebot für ihren J2000 JBOF bat, verspürte ich plötzlich den Drang, zwei Server mit NVMe vorne zu kaufen, in der Hoffnung, dass kommende SAS4-JBODs Tri-State sein werden, damit wir zumindest Dual-Path-Over haben können PCIe.Zugriffskontrolle und Protokolllatenz werden Anwendungsfälle begrenzen, AC könnte von der Switch-Fabric durchgeführt werden, z. B. von MAC oder IPDas ist wirklich spannend.Ich habe in den Tagen von Servenet mit der Arbeit an verteiltem Speicher begonnen, dann Infiniband, dann RDMA über Infiniband, dann RDMA über Ethernet, …Kioxia hat ein intelligentes Design geliefert, das zur Disaggregation von Speicher ohne die unglaublich schlechten Auswirkungen auf die Leistung (Latenz, IO-Rate und Durchsatz) von „Enterprise Storage Arrays“ verwendet werden kann.Es ist wirklich ärgerlich, dass die IT gezwungen war, die inhärenten architektonischen Mängel von Speicher-Arrays zu ertragen, die auf Designprinzipien aus den 1980er Jahren basieren.Ich frage mich, wie hoch der Stromverbrauch dieser Controller "pro Laufwerk" ist. NVME sind nicht gerade freundlich zum Gesamtstrombudget pro Rack an sich.Persönlich würde ich gerne sehen, dass NVME durch einige dieser neuen Next-Gen-Technologien ersetzt wird, von denen Intel vor ein paar Jahren gesprochen hat, obwohl ich seitdem nie wieder davon gehört habe.Das Prinzip dieser Technologie ist solide, das Management klingt nach echten Kopfschmerzen und freut sich darauf, zu sehen, wie vollständig die „Software“-Seite konkretisiert wird, wie in Point-and-Click für die minutenweise Abrechnung durch den Systemadministrator.Das ist verrückt.Meine Laufwerke laufen jetzt unter Linux und haben Dual-Ethernet?Auch sinnvoll.Ich habe gerade bemerkt, dass die Fächer viel tiefer sind als die aktuellen Laufwerke.Deutet dies auf einen zukünftigen (?) Antriebsformfaktor hin?Zu viele Leute hier betrachten dies immer noch in der alten Art und Weise „x * Controller + Festplatten, die Hosts präsentiert werden“.Schauen Sie sich die Aussage „Stellen Sie sich vor, wenn … das System stattdessen 100 GB Namespaces von 23 Laufwerken verwendet“ an.Das ist unglaublich leistungsfähig – stellen Sie sich vor, Ihre VM verwaltet ein klassisches Array, das aus Namespace Nr. 1 erstellt wurde.Ihre nächste VM hat ein anderes Array-Layout auf Namespace Nr. 2, und Ihre DPU führt ein eigenes Array auf Namespace Nr. 3 aus.Sie können Arrays der alten Schule, objektartige Arrays, verteilte oder was auch immer Sie wollen, alle unterstützt durch einen gemeinsamen Satz von Laufwerken, die nur mehr Festplatten benötigen, die dem Netzwerk hinzugefügt werden müssen, um zu erweitern.Das einzige große Problem, das ich hier sehe, ist, dass alle Tests mit IPv4 durchgeführt werden, dem bei einer Skalierung schnell die Adressen ausgehen würden.IPv6 wird ja verachtet, aber zeig uns bitte wenigstens, dass es funktioniert.Wann können wir auf Leistungskennzahlen hoffen?Latenz und Rate wären die interessanten Maße, da sie auf demselben System und derselben SSD mit direktem PCIe verglichen werden könnten.Meinen Namen, meine E-Mail-Adresse und meine Website in diesem Browser speichern, bis ich das nächste Mal kommentiere.Melden Sie mich für den STH-Newsletter an!Diese Seite verwendet Akismet, um Spam zu reduzieren.Erfahren Sie, wie Ihre Kommentardaten verarbeitet werden.Holen Sie sich wöchentlich das Beste aus STH in Ihren Posteingang.Wir werden jede Woche eine Auswahl der besten Beiträge von STH kuratieren und sie direkt an Sie liefern.Indem Sie sich anmelden, stimmen Sie zu, dass wir Ihnen unseren Newsletter zusenden.Wir verwenden einen Drittanbieterdienst, um Abonnements zu verwalten, sodass Sie sich jederzeit abmelden können.