Künstliche Intelligenz verändert die Arbeitswelt in rasantem Tempo. Ihre Anwendungen erfordern jedoch leistungsstarke Hardware. Allen voran die GPU. Dieser Beitrag zeigt, warum die richtige GPU entscheidend für Effizienz und langfristige Zukunftsfähigkeit ist.
Professionelle GPUs setzen neue Maßstäbe für Workflows im professionellen Bereich, zum Beispiel KI.
Künstliche Intelligenz wird für alle Bereiche und Branchen immer wichtiger. Die größten und leistungsfähigsten KI-Modelle wie GPT-4, LLaMA, DALL-E und Gemini werden in der Cloud beziehungsweise den Datenzentren der entsprechenden Anbieter gehostet. Nur hier steht genug Rechenleistung zur Verfügung, um diese riesigen KI-Modelle zu trainieren und schnell auszuführen. Vereinfacht gilt hierbei: Je größer ein LLM (Large Language Model) ist, je mehr Parameter und je höher die Präzision, desto leistungsfähiger ist es. Eine hohe Präzision, meist 32-bit (FP-32), ist beim Training des LLM nötig, beim Ausführen (Inferencing) reicht je nach gewünschter Aufgabe auch eine deutlich kleinere Präzision von 16-, 8- oder 4-bit. Parameter und Präzision haben hier direkten Einfluss auf den benötigten GPU-Speicher, um das LLM zu trainieren oder auszuführen.
Unternehmensdaten sicher in KI-Anwendungen nutzen
Möchte man ein KI-Modell für das eigene Unternehmen nutzen, steht man allerdings vor einem Problem. Um spezifische Anfragen bearbeiten zu können, müssten dem KI-Modell entsprechende Daten zur Verfügung gestellt werden. Diese sind oft aber sehr sensitiv und dürfen das Unternehmen nicht verlassen. Die Alternative ist, das KI-Modell lokal zu hosten und es per Fine-Tuning mit den eigenen Daten zu trainieren. Eine weitere Möglichkeit sind RAG-Modelle (Retrieval-Augmented Generation). Hier werden dem KI-Modell während der Laufzeit Daten wie PDF-Dokumente, Texte oder Tabellen bereitgestellt, die sich zur Beantwortung von Anfragen einbeziehen lassen.
Große KI-Modelle erfordern einen hohen GPU-Speicherbedarf
Der dazu nötige GPU-Speicherbedarf hängt vom KI-Modell ab und lässt sich grob errechnen, indem man die Parameter mit den nötigen Bytes multipliziert und diesen Wert verdoppelt. Für ein 7B-Modell mit sieben Milliarden Parametern mit FP32-Präzision (vier Bytes für FP32, zwei für FP16, eines für INT8/FP8 und ein halbes für INT4/FP4) ergibt dies sieben Milliarden x vier Bytes x zwei = 56 Millionen Bytes oder 56 GByte. Eine Reduzierung der Präzision auf FP16 halbiert den nötigen Speicher auf 28 GByte, gleichzeitig verdoppelt sich aber auch die Performance. Quantisierte Modelle, bei denen die Genauigkeit verringert wurde, benötigen etwas weniger GPU-Speicher.
Modellauswahl: Von kompakten LLaMA-Versionen bis zu Hochleistungs-KI
Für viele KI-Modelle gibt es verschiedene Versionen wie LLaMA 1B, 3B, 11B, 90B oder 405B, die frei zugänglich sind (LLaMA 3.1 benötigt 3,24 TByte GPU-Speicher mit FP32; dies entspricht mindestens 30 x NVIDIA H200 NVL mit je 141 GByte GPU-Speicher). Während die kleinen Modelle für einfache Aufgaben wie Texte zusammenfassen, Texte umformulieren oder To-Do-Listen erstellen ausreichend sein können, benötigen komplexere Aufgaben mit der zusätzlichen Verarbeitung von Bildern, Diagrammen und Tabellen größere KI-Modelle ab LLaMA 11B oder höher.
Vorbereitung der Daten
Die Größe und damit die Fähigkeiten des KI-Modells hat auch direkte Auswirkungen darauf, wie Daten für das Fine-Tuning oder RAG vorbereitet sein müssen. Mit vorbereiteten Fragen und Antworten, um einen Chatbot anbieten zu können, kommt auch ein 1B-Modell sehr gut zurecht, während für die direkte Verarbeitung von PDF, Word- oder Excel-Dateien ein 70B-Modell oder höher empfehlenswert ist. Zur besseren Verarbeitung gibt es aber auch hier zahlreiche Tools, die entsprechende Dokumente automatisch vorbereiten können, so dass auch kleinere KI-Modelle besser damit zurechtkommen. Bei einer vorgegebenen Aufgabe ist das Ziel, das kleinste Modell zu verwenden, das zufriedenstellende Ergebnisse liefert.
Neben dem benötigtem GPU-Speicher ist auch die Performance ein wichtiger Aspekt, insbesondere für Inferencing mit lokalen KIs. Die Performance wird in Token pro Sekunde (TPS) gemessen. TPS misst, wie schnell ein Sprachmodell (LLM) während der Inferenz Token generieren kann. In LLMs ist ein Token ein Textabschnitt, der von einem einzelnen Zeichen bis zu einem Wort oder einer Wortfolge reicht. Ein höherer TPS deutet im Allgemeinen auf ein schnelleres und reaktionsfähigeres LLM hin. Fünf bis sieben TPS entsprechen ungefähr der Lesegeschwindigkeit eines Menschen. Für Fragen und Antworten kann dies ausreichend sein, für andere Anwendungsfälle, oder wenn mehrere Personen gleichzeitig Anfragen senden können sollen, wird dies viel zu langsam sein, und man benötigt deutlich höhere TPS-Werte und somit leistungsfähigere Hardware und GPUs. Online verfügbare KI-Modelle versuchen hier mindestens 20 TPS oder mehr zu erreichen.
Stand: 16.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die WIN-Verlag GmbH & Co. KG, Chiemgaustraße 148, 81549 München einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://kontakt.vogel.de/de/win abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
Neue Blackwell-Architektur ideal für größere KI-Modelle
Nvidia RTX PRO 6000 Blackwell Max-Q Workstation-Edition: Workstation-Leistung neu konzipiert für das KI-Zeitalter.
(Bild: Nvidia)
Ein wichtiger Faktor für die Geschwindigkeit der Berechnungen sind die Rechenkerne der Grafikkarte. Die neue und stärkste NVIDIA RTX PRO 6000 Blackwell Workstation-Edition (basiert auf der neuen Blackwell-Architektur) mit 96 GByte GDDR7-Grafikspeicher bietet zum Bespiel 24.046 CUDA-Kerne, beziehungsweise Streaming-Multiprozessoren und 752 Tensor-Kerne (spezielle Rechenkerne zur schnelleren Berechnung von Matrixmultiplikationen, die essenziell für KI- und Machine Learning sind). Die Grafikkarte ist damit ideal, um auch größere, lokale KI-Modelle schnell oder bei kleineren Modellen mehre Batches gleichzeitig auszuführen. Bei Bedarf lassen sich sogar bis zu vier dieser Grafikkarten in einer Workstation einsetzen.
Blackwell-GPU: Maximale Leistung durch KI-Integration
Die neue Blackwell-Architektur bietet generell viele Vorteile gegenüber dem Vorgänger-Modell Ada Lovelace. Neben den CUDA- und Tensor-Kernen wurden auch die RayTracing-Kerne deutlich erweitert, und mit „Mega Geometry“ und „neuralen Shadern“ hat man künstliche Intelligenz quasi direkt in die GPU integriert. Damit lassen sich die immer komplexer werdenden Berechnungen mittels KI deutlich reduzieren, ohne die hohe Darstellungsqualität zu beeinträchtigen. Mit dem neuen „AI-Management-Prozessor“ können diese gleichzeitig mit Grafikberechnungen ausgeführt werden. Der GDDR7-Grafikspeicher bietet eine deutlich höhere Speicherbandbreite für die Datenübertragung von der GPU zum GPU-Speicher. Diese ist doppelt so hoch wie bei GDDR6-Grafikspeicher. PCI-Express 5.0 bietet mit 128 GByte pro Sekunde ebenfalls die doppelte Übertragungsrate gegenüber 64 GByte pro Sekunde bei PCI-Express 4.0. Neu ist die Unterstützung von Multi Instance GPUs (MIG) für die Virtualisierung der NVIDIA RTX PRO 6000 Blackwell und NVIDIA RTX PRO 5000 Blackwell mit VMware, Citrix und KVM. Dies ermöglicht die Partitionierung der GPU in bis zu vier 24 GByte große, isolierte und unabhängige GPU-Instanzen, während bei der üblichen Virtualisierung Time-Sliced-Modelle zum Einsatz kommen, die immer voneinander abhängig sind. Für die Videobearbeitung verfügt das Top-Modell nun über vier Video-Encoder und über vier Video-Decoder, die das 4:2:2-Format unterstützen und damit zum Beispiel bessere Ergebnisse für Greenscreen-Aufnahmen oder mehr Flexibilität bei der Farbkorrektur ermöglichen.
Gerüstet für alle Workflows
Mit den GPUs der neuesten NVIDIA RTX PRO Blackwell-Generation ist man somit bestens gerüstet für alle Workflows im professionellen Bereich wie Konstruktion, Simulation oder künstliche Intelligenz.
Frank Scheufens ist Product Manager Professional Visualization bei PNY Technologies.