Neueste NVIDIA RTX PRO Blackwell-Generation Warum GPU's essenziell für KI und Simulation sind

Von Frank Scheufens 5 min Lesedauer

Anbieter zum Thema

Künstliche Intelligenz verändert die Arbeitswelt in rasantem Tempo. Ihre Anwendungen erfordern jedoch leistungsstarke Hardware. Allen voran die GPU. Dieser Beitrag zeigt, warum die richtige GPU entscheidend für Effizienz und langfristige Zukunftsfähigkeit ist.

Professionelle GPUs setzen neue Maßstäbe für Workflows im professionellen Bereich, zum Beispiel KI.(Bild:  © sam richter/stock.adobe.com (generiert mit KI))
Professionelle GPUs setzen neue Maßstäbe für Workflows im professionellen Bereich, zum Beispiel KI.
(Bild: © sam richter/stock.adobe.com (generiert mit KI))

Künstliche Intelligenz wird für alle Bereiche und Branchen immer wichtiger. Die größten und leistungsfähigsten KI-Modelle wie GPT-4, LLaMA, DALL-E und ­Gemini werden in der Cloud beziehungsweise den Datenzentren der entsprechenden Anbieter gehostet. Nur hier steht genug Rechenleistung zur Verfügung, um diese riesigen KI-Modelle zu trainieren und schnell auszuführen. Vereinfacht gilt hierbei: Je größer ein LLM (Large Language Model) ist, je mehr Parameter und je höher die Präzision, desto leistungsfähiger ist es. Eine hohe Präzision, meist 32-bit (FP-32), ist beim Training des LLM nötig, beim Ausführen (Inferencing) reicht je nach gewünschter Aufgabe auch eine deutlich kleinere Präzision von 16-, 8- oder 4-bit. Parameter und Präzision haben hier direkten Einfluss auf den benötigten GPU-Speicher, um das LLM zu trainieren oder auszuführen.

Unternehmensdaten sicher in KI-Anwendungen nutzen

Möchte man ein KI-Modell für das eigene Unternehmen nutzen, steht man allerdings vor einem Problem. Um spezifische Anfragen bearbeiten zu können, müssten dem KI-Modell entsprechende Daten zur Verfügung gestellt werden. Diese sind oft aber sehr sensitiv und dürfen das Unternehmen nicht verlassen. Die Alternative ist, das KI-Modell lokal zu hosten und es per Fine-Tuning mit den eigenen Daten zu trainieren. Eine weitere Möglichkeit sind RAG-Modelle (Retrieval-Augmented Generation). Hier werden dem KI-Modell während der Laufzeit Daten wie PDF-Dokumente, Texte oder Tabellen bereitgestellt, die sich zur Beantwortung von Anfragen einbeziehen lassen.

Große KI-Modelle erfordern einen hohen GPU-Speicherbedarf 

Der dazu nötige GPU-Speicherbedarf hängt vom KI-Modell ab und lässt sich grob errechnen, indem man die Parameter mit den nötigen Bytes multipliziert und diesen Wert verdoppelt. Für ein 7B-Modell mit sieben Milliarden Parametern mit FP32-Präzision (vier Bytes für FP32, zwei für FP16, eines für INT8/FP8 und ein halbes für INT4/FP4) ergibt dies sieben Milliarden x vier Bytes x zwei = 56 Millionen Bytes oder 56 GByte. Eine Reduzierung der Präzision auf FP16 halbiert den nötigen Speicher auf 28 GByte, gleichzeitig verdoppelt sich aber auch die Performance. Quantisierte Modelle, bei denen die Genauigkeit verringert wurde, benötigen etwas weniger GPU-Speicher.  

Modellauswahl: Von kompakten LLaMA-Versionen bis zu Hochleistungs-KI

Für viele KI-Modelle gibt es verschiedene Versionen wie LLaMA 1B, 3B, 11B, 90B oder 405B, die frei zugänglich sind (LLaMA 3.1 benötigt 3,24 TByte GPU-Speicher mit FP32; dies entspricht mindestens 30 x NVIDIA H200 NVL mit je 141 GByte GPU-Speicher). Während die kleinen Modelle für einfache Aufgaben wie Texte zusammenfassen, Texte umformulieren oder To-Do-Listen erstellen ausreichend sein können, benötigen komplexere Aufgaben mit der zusätzlichen Verarbeitung von Bildern, Diagrammen und Tabellen größere KI-Modelle ab LLaMA 11B oder höher.  

Vorbereitung der Daten

Die Größe und damit die Fähigkeiten des KI-Modells hat auch direkte Auswirkungen darauf, wie Daten für das Fine-Tuning oder RAG vorbereitet sein müssen. Mit vorbereiteten Fragen und Antworten, um einen Chatbot anbieten zu können, kommt auch ein 1B-Modell sehr gut zurecht, während für die direkte Verarbeitung von PDF, Word- oder Excel-Dateien ein 70B-Modell oder höher empfehlenswert ist. Zur besseren Verarbeitung gibt es aber auch hier zahlreiche Tools, die entsprechende Dokumente automatisch vorbereiten können, so dass auch kleinere KI-Modelle besser damit zurechtkommen. Bei einer vorgegebenen Aufgabe ist das Ziel, das kleinste Modell zu verwenden, das zufriedenstellende Ergebnisse liefert.

Performance ist ein wichtiger Faktor 

Neben dem benötigtem GPU-Speicher ist auch die Performance ein wichtiger Aspekt, insbesondere für Inferencing mit lokalen KIs. Die Performance wird in Token pro Sekunde (TPS) gemessen. TPS misst, wie schnell ein Sprachmodell (LLM) während der Inferenz ­Token generieren kann. In LLMs ist ein ­Token ein Textabschnitt, der von einem einzelnen Zeichen bis zu einem Wort oder einer Wort­folge reicht. Ein höherer TPS deutet im Allgemeinen auf ein schnelleres und reaktionsfähigeres LLM hin. Fünf bis sieben TPS entsprechen ungefähr der Lesegeschwindigkeit eines Menschen. Für Fragen und Antworten kann dies ausreichend sein, für andere Anwendungsfälle, oder wenn mehrere Personen gleichzeitig Anfragen senden können sollen, wird dies viel zu langsam sein, und man benötigt deutlich höhere TPS-Werte und somit leistungsfähigere Hardware und GPUs. Online verfügbare KI-Modelle versuchen hier mindestens 20 TPS oder mehr zu erreichen.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Neue Blackwell-Architektur ideal für größere KI-Modelle 

Nvidia RTX PRO 6000 Blackwell Max-Q Workstation-Edition: Workstation-Leistung neu konzipiert für das KI-Zeitalter.(Bild:  Nvidia)
Nvidia RTX PRO 6000 Blackwell Max-Q Workstation-Edition: Workstation-Leistung neu konzipiert für das KI-Zeitalter.
(Bild: Nvidia)

Ein wichtiger Faktor für die Geschwindigkeit der Berechnungen sind die Rechenkerne der Grafikkarte. Die neue und stärkste NVIDIA RTX PRO 6000 Blackwell Workstation-Edition (basiert auf der neuen Blackwell-Architektur) mit 96 GByte GDDR7-Grafikspeicher bietet zum Bespiel 24.046 CUDA-Kerne, beziehungsweise Streaming-Multiprozessoren und 752 Tensor-Kerne (spezielle Rechenkerne zur schnelleren Berechnung von Matrixmultiplikationen, die essenziell für KI- und Machine Learning sind). Die Grafikkarte ist damit ideal, um auch größere, lokale KI-Modelle schnell oder bei kleineren Modellen mehre Batches gleichzeitig auszuführen. Bei Bedarf lassen sich sogar bis zu vier dieser Grafikkarten in einer Workstation einsetzen.  

Blackwell-GPU: Maximale Leistung durch KI-Integration

Die neue Blackwell-Architektur bietet generell viele Vorteile gegenüber dem Vorgänger-Modell Ada Lovelace. Neben den CUDA- und Tensor-Kernen wurden auch die RayTracing-Kerne deutlich erweitert, und mit „Mega Geometry“ und „neuralen ­Shadern“ hat man künstliche Intelligenz quasi direkt in die GPU integriert. Damit lassen sich die immer komplexer werdenden Berechnungen mittels KI deutlich reduzieren, ohne die hohe Darstellungsqualität zu beeinträchtigen. Mit dem neuen „AI-­Management-Prozessor“ können diese gleichzeitig mit Grafikberechnungen ausgeführt werden. Der GDDR7-Grafikspeicher bietet eine deutlich höhere Speicherbandbreite für die Datenübertragung von der GPU zum GPU-Speicher. Diese ist doppelt so hoch wie bei GDDR6-Grafikspeicher. PCI-Express 5.0 bietet mit 128 GByte pro Sekunde ebenfalls die doppelte Übertragungsrate gegenüber 64 GByte pro Sekunde bei PCI-Express 4.0. Neu ist die Unter­stützung von Multi Instance GPUs (MIG) für die Virtualisierung der NVIDIA RTX PRO 6000 Blackwell und NVIDIA RTX PRO 5000 Blackwell mit VMware, Citrix und KVM. Dies ermöglicht die Partitionierung der GPU in bis zu vier 24 GByte große, isolierte und unabhängige GPU-Instanzen, während bei der üblichen Virtualisierung Time-Sliced-Modelle zum Einsatz kommen, die immer voneinander abhängig sind. Für die Video­bearbeitung verfügt das Top-­Modell nun über vier ­Video-Encoder und über vier ­Video-Decoder, die das 4:2:2-Format unterstützen und damit zum Beispiel bessere Ergebnisse für Greenscreen-Aufnahmen oder mehr Flexibilität bei der Farbkorrektur ermöglichen.

Gerüstet für alle Workflows

Mit den GPUs der neuesten NVIDIA RTX PRO Blackwell-Generation ist man somit bestens gerüstet für alle Workflows im professionellen Bereich wie Konstruktion, Simulation oder künstliche Intelligenz. 

Frank Scheufens ist Product Manager Professional Visualization bei PNY Technologies.