Beschleunigung von Netzwerken: Die Auswirkungen von RDMA over Converged Ethernet (RoCE)

Von Tawfeeq Ahmad

Die schnelle Entwicklung rechenintensiver Anwendungen hat den Bedarf an schnelleren, effizienteren und skalierbaren Netzwerklösungen erhöht. Zu den innovativsten Technologien, mit denen diese Nachfrage befriedigt werden kann, gehört Remote Direct Memory Access (RDMA) over Converged Ethernet (RoCE). Diese bahnbrechende Technologie ermöglicht direkte Datenübertragungen zwischen Systemen, ohne dass ein CPU-Eingriff erforderlich ist, wodurch die Latenzzeit erheblich reduziert und die allgemeine Systemleistung verbessert wird. iWave, ein bekanntes FPGA-Designhaus, steht an der Spitze dieses Fortschritts und hat eine robuste 100G-Ethernet-Lösung durch die Integration von AMDs ERNIC IP (Ethernet RDMA Network Interface Controller Intellectual Property) in sein Portfolio an Embedded-Computing-Modulen implementiert. Diese Integration soll die RDMA-Funktionen in Hochleistungsanwendungen verbessern.

Bild: RoCE erleichtert den direkten Datentransfer zwischen SystemenAbbildung 1: RoCE ermöglicht direkte Datenübertragungen zwischen Systemen ohne CPU-Eingriff, wodurch die Latenzzeit erheblich reduziert und die allgemeine Systemleistung verbessert wird. (Bildquelle: iWave)

Grundlagen zu RDMA over Converged Ethernet (RoCE)

RDMA ist eine wichtige Technologie, die direkte Speicherübertragungen zwischen Hosts oder Servern unter Umgehung der CPU ermöglicht. Diese Fähigkeit ermöglicht es den CPUs, sich auf die Ausführung von Anwendungen und die Datenverarbeitung zu konzentrieren, was zu bemerkenswerten Verbesserungen der Netzwerkleistung führt, die sich durch geringere Latenzzeiten, niedrigere CPU-Belastung und höhere Bandbreite auszeichnet - und das alles auf kostengünstige Weise. RoCE ist ein spezielles Netzwerkprotokoll, das den RDMA-Betrieb über Ethernet-Netzwerke erleichtern soll. Durch die Nutzung der vorhandenen Ethernet-Infrastruktur stellt RoCE eine attraktive Option für Unternehmen dar, die ihre Performance verbessern möchten, ohne ihre aktuellen Netzwerkkonfigurationen zu überarbeiten.

Arten von RoCE

RoCE wird auf der Grundlage des verwendeten Netzwerkadapters in zwei verschiedene Versionen unterteilt: RoCE v1 und RoCE v2.

  1. RoCE v1: Dieses Protokoll ermöglicht die Kommunikation zwischen zwei Hosts, die sich innerhalb der gleichen Ethernet-Broadcast-Domäne (VLAN) befinden. Es verwendet den Ethertype 0x8915 und beschränkt Standard-Ethernet-Frames auf 1500 Bytes, während Ethernet-Jumbo-Frames bis zu 9000 Bytes umfassen können.
  2. RoCE v2: RoCE v2 geht auf die Einschränkungen von RoCE v1 ein und führt Verbesserungen bei der Paketkapselung ein, indem IP- und UDP-Header integriert werden. Durch diese Änderung kann RoCE v2 nahtlos sowohl auf Layer 2 (Data Link Layer) als auch auf Layer 3 (Network Layer) funktionieren und unterstützt somit Layer 3 Routing und Skalierbarkeit über mehrere Subnetze hinweg. RoCE v2, oft auch als Routable RoCE (RRoCE) bezeichnet, unterstützt nun auch IP-Multicast und erweitert damit seine Einsatzmöglichkeiten.

ERNIC IP: Verbesserung der RDMA-Fähigkeiten

Die ERNIC-IP (ERNIC = Embedded RDMA enabled NIC) ist ein anpassbarer „Ethernet RDMA Network Interface Controller IP“-Core, der für die nahtlose Integration in FPGAs, MPSoCs und Soft-MAC-IP-Implementierungen von AMD entwickelt wurde. Diese Lösung zeichnet sich durch einen hohen Durchsatz, eine geringe Latenzzeit und einen vollständig von der Hardware entlasteten, zuverlässigen Datenübertragungsmechanismus über Standard-Ethernet aus. iWave hat sein Engagement für den technologischen Fortschritt durch die erfolgreiche Implementierung einer 100G-Ethernet-Lösung unter Beweis gestellt. Diese Leistung wurde durch den Einsatz des auf einem Zynq-UltraScale+-MPSoC basierenden Entwicklungskits von iWave ermöglicht, das AMDs ERNIC-IP integriert.

Das Zynq-UltraScale+-MPSoC-Entwicklungskit ist speziell auf das Prototyping und die Evaluierung von 100G-Ethernet-Lösungen zugeschnitten und verwendet Highspeed-QSFP-28-Anschlüsse.

Demoaufbau

Ein typischer Demoaufbau (Abbildung 2) besteht aus:

Diagramm des Zynq-UltraScale+-MPSoC-Entwicklungskits von iWaveAbbildung 2: Der typische Aufbau für das Zynq-UltraScale+-MPSoC-Entwicklungskit. (Bildquelle: iWave)

Überblick über die Systemarchitektur

Die Systemarchitektur ist auf die Optimierung des Datentransfers ausgelegt, wobei die Rollen zwischen den Komponenten Verarbeitungssystem (PS) und Programmierbare Logik (PL) klar definiert sind. Die Implementierung bietet auch die für Echtzeitanwendungen wichtige PTP-Synchronisierung (Precision Time Protocol). Mit bemerkenswerten Leistungskennzahlen wie der Fähigkeit, 8K-Videos mit über 100 Bildern pro Sekunde zu verarbeiten, erstrecken sich die potenziellen Anwendungen auf verschiedene Bereiche, darunter Rechenzentren, Multimedia und Hochleistungscomputer, was die Vielseitigkeit und Bedeutung der Technologie in modernen Computerumgebungen unterstreicht.

Die in Abbildung 3 dargestellte High-Level-Architektur des Systems verdeutlicht die unterschiedlichen Rollen der PS- und PL-Komponenten innerhalb des Zynq-UltraScale+-MPSoC. Das PS verfügt über einen ARM-Cortex-A53-basierten Hard-SoC, der für die Systemkonfiguration, -steuerung und -diagnose unerlässlich ist. Zu den wichtigsten Komponenten dieser Architektur gehören:

  • 100G-Ethernet-MAC-Treiber: Gewährleistet robuste Performance und Datenübertragung mit niedriger Latenz bei 100 Gbit/s
  • ERNIC-Controller-Treiber: Verantwortlich für die Verwaltung der im DDR eingehenden Daten und die Erleichterung der Kommunikation zwischen der Benutzeranwendung und ERNIC IP durch einen effizienten Austausch von Klingelsignalen
  • RDMA-Kern- und Userspace-Bibliotheken: Gewährleistet Kompatibilität und optimale Leistung für RDMA-Operationen sowohl im Kernel als auch im Userspace

Diagramm des Verarbeitungssystems und der programmierbaren Logikkomponenten innerhalb des Zynq-UltraScale+-MPSoC von iWaveAbbildung 3: Highlights der unterschiedlichen Rollen des Verarbeitungssystems und der programmierbaren Logikkomponenten innerhalb des Zynq-UltraScale+-MPSoC. (Bildquelle: iWave)

Die ERNIC IP von AMD verlagert den RoCE-v2-Stack auf das FPGA, wobei der ERNIC-Controller das Handshaking zwischen den verschiedenen Modulen verwaltet, um die Datenübertragung zu erleichtern. Sie erzeugt Einträge in der Verarbeitungsqueue und sendet Benachrichtigungen (Klingelsignale) an die ERNIC-IP. Gleichzeitig verwaltet das 100G-Ethernet-Subsystem des Zynq-UltraScale+-MPSoC die MAC- und physikalischen Schichten, während der Datenmustergenerator für die Erzeugung von Rohdaten und Videodatenmustern zuständig ist.

Präzisionszeitprotokoll (PTP)

Der PTP-Zeitstempel (IEEE1588-Standard) spielt eine entscheidende Rolle bei der Zeitsynchronisierung zwischen Systemen in einem Ethernet-Netzwerk. Diese Synchronisierung ist für die Verbesserung der Leistung von Echtzeitanwendungen von entscheidender Bedeutung, da sie einen synchronisierten Datenaustausch mit geringer Latenzzeit im Nanosekundenbereich ermöglicht.

Die wichtigsten Merkmale der Einrichtung

Zu den bemerkenswerten Merkmalen dieser Einrichtung gehören:

  • Implementierung von 100G-Ethernet über RoCE v2 unter Verwendung der ERNIC-IP von AMD
  • Zuverlässige Verbindungstransportart
  • Funktionen RDMA SEND, RDMA READ und RDMA WRITE für die Paketverarbeitung
  • Unterstützung für die Nachrichtentypen RDMA Send with Immediate und RDMA Write with Immediate
  • Leistungstests für RDMA mit XRPING- und PERFTEST-Anwendungen
  • Benutzerdefinierter Datenmustergenerator für RAW- und Videodatenmuster
  • Einfügen von PTP-Zeitstempeln neben den Daten

Die detaillierten Durchsatzstatistiken für Videodatenübertragungen vom Zynq-UltraScale+-MPSoC-Entwicklungskit zum Server-PC zeigen eine beeindruckende Performance mit der Fähigkeit, 8K-Videos mit über 100 fps und 4K-Videos mit mehr als 400 fps zu verarbeiten.

Mögliche Anwendungen

Die Integration von RDMA über Converged Ethernet und ERNIC IP eröffnet neue Wege in verschiedenen Branchen und verbessert die Vernetzung, Performance und Effizienz in einer Reihe von Anwendungen, darunter

  • Rechenzentren und Cloud-Computing: Erleichterung einer effizienten Serverkommunikation und Beschleunigung der Datenverarbeitung in Cloud-Architekturen
  • Video-/Bildaufnahme und -übertragung: Vorteilhaft für Multimedia-Anwendungen, Broadcasting und Virtual-Reality-Umgebungen (VR)
  • Speicherlösungen: Ermöglichung schnellerer Datenübertragungen zwischen Speichergeräten und Servern, wodurch die Leistung des Speichersystems verbessert wird
  • Hochleistungs-Datenverarbeitung (HPC): Verbesserung der Datenübertragungsgeschwindigkeiten und Verringerung der Latenzzeiten in HPC-Clustern für schnellere Rechenaufgaben und Simulationen
  • IoT-Edge-Geräte: Ermöglichung der Echtzeit-Datenerfassung und -übertragung von Sensoren und Geräten

Da die Nachfrage nach schnelleren und effizienteren Datenübertragungslösungen weiter steigt, werden RDMA over Converged Ethernet und ERNIC IP in der Zukunft der Hochleistungs-Datenverarbeitung eine entscheidende Rolle spielen.

Fazit

iWaves umfangreiches Portfolio an FPGA- und SoC-FPGA-Plattformen in Kombination mit seiner umfassenden technischen Expertise ermöglicht es Kunden, innovative Produkte zu entwickeln, die die neuesten Fortschritte in den Bereichen künstliche Intelligenz (KI), maschinelles Lernen und Edge Computing nutzen. Durch eine Partnerschaft mit iWave können Unternehmen ihre Produktentwicklung beschleunigen, Risiken reduzieren und der Konkurrenz in einer zunehmend komplexen technologischen Landschaft einen Schritt voraus sein.

Wenn Sie weitere Informationen wünschen oder individuelle Anforderungen besprechen möchten, wenden Sie sich bitte an uns: mktg@iwave-global.com

Haftungsausschluss: Die Meinungen, Überzeugungen und Standpunkte der verschiedenen Autoren und/oder Forumsteilnehmer dieser Website spiegeln nicht notwendigerweise die Meinungen, Überzeugungen und Standpunkte der DigiKey oder offiziellen Politik der DigiKey wider.

Über den Autor

Image of Tawfeeq Ahmad

Tawfeeq Ahmad

A strong interest in product marketing coupled with a passion for IoT and Wireless Solutions, Tawfeeq specializes in building connected mobility solutions and Industrial IoT Solutions. With data being the new money, there is a dependency for rugged gateways and innovative hardware. Tawfeeq likes to help companies in their transformation journeys.