26.04.2021 – Kategorie: Hardware & IT

Beschleunigerkarten: Mehr Speed für die Künstliche Intelligenz

BeschleunigerkartenQuelle: ICP Deutschland

Das Thema künstliche Intelligenz ist in aller Munde. Viele KI-Anforderungen lassen sich allerdings mit GPU-basierten Hardwaresystemen nicht erfüllen. Mit der KI-Beschleunigerkarten-Serie Mustang von ICP bieten sich neue Möglichkeiten für Edge Computing und Artificial Intelligence of Things (AIoT).

Beschleunigerkarten: In der Industrie spielen KI-gestützte Anwendungen eine zunehmende Rolle. In der Produktion wird optische Erkennung in Fertigungsprozessen verwendet, um beispielsweise Produktionsfehler zu erkennen.

GPU-basiert ist oft nicht wirtschaftlich

Industrie-PC-Systeme oder sogenannte Inferenzsysteme kommen zum Einsatz, um anhand von Bildern Entscheidungen über den Zustand von Produktionserzeugnissen zu treffen. Diese Inferenzsysteme verwenden vortrainierte Datensätze, sogenannte Trainingsmodelle, die in Hochleistungsrechnern erstellt worden sind. Kommen bei diesen Trainingsservern meist mehrere Grafikkarten zum Einsatz, um das Modell möglichst schnell zu klassifizieren, ist der Einsatz von Grafikkarten in Edge-Lösungen aus unterschiedlichen Gründen nicht sinnvoll oder möglich. Unter anderem spielen Anforderungen wie die physische Größe des Inferenzsystems, der Stromverbrauch und das Preis-Leistungsverhältnis eine Rolle. Diese Anforderungen lassen sich mit GPU-basierten Systemen nicht erfüllen.

Mit der Mustang-KI-Beschleunigerkarten-Serie von ICP bieten sich neue Möglichkeiten für das Edge Computing beziehungsweise das Artificial Intelligence of Things (AIoT). Es stehen zwei unterschiedliche Mustang-Serien zur Auswahl um flexibel und skalierbar KI-Anwendungen an der Edge zu realisieren.

VPU-Beschleunigerkarten

Die VPU-basierte Mustang-Serie verwendet Intel Movidius Myriad X MA2485 Visual Processing Units. Diese VPUs sind durch die Kombination ihres neuralen Netzwerks mit 16 Shave-Kernen und ihrer Neural Compute Engine speziell für KI-Anwendungen im ­Vision-Bereich ausgelegt.

Neben einer Vielzahl von implementierten Hardwarefunktionen für die Bildverarbeitung, enthält jede VPU eine neue Stereo-Depth-Block-Funktion, die in der Lage ist, zwei Streams mit einer Auflösung von 720P bei 180 Hz zu verarbeiten. Native FP16-Berechnungen oder 8-Bit-Festkomma-Berechnungen, aber auch die abstimmbare ISP-Pipeline und die hardwarebasierte Codierung, ermöglichen auch anspruchsvolle Bild- oder Videoverarbeitung mit einer Auflösung von bis zu 4K zu. Jeder einzelnen VPU lässt sich dabei eine andere DL-Topologie zuweisen. Grund hierfür ist die Multi-Channel-Fähigkeit der VPUs, die eine simultane Ausführung von Berechnungen ermöglicht. So lassen sich unterschiedliche Anwendungen wie Objekterkennung oder Bild- und Videoklassifikation gleichzeitig ausführen.

Acht VPUs im Einsatz

Auf der PCI-Express-x4-Bus-basierten Mustang-V100-MX8 kommen gleich acht dieser VPUs zum Einsatz und erreichen eine Rechenleistung von einem TOPS. Damit ist die Mustang-V100-MX8 in der Lage, mehr als zehn Video Streams gleichzeitig zu verarbeiten. Der Stromverbrauch hält sich dabei in Grenzen. Jede VPU verbraucht nur 2,5 Watt. Im Gesamten verbleibt die Mustang-Beschleunigerkarte unter ­30 Watt und eignet sich für anspruchsvolle Low-Power KI-Anwendungen.

Sind weniger als zehn Streams zu verarbeiten, kann man eine kleinere Variante, wie die Mustang-V100-MX4 mit vier MA2485-VPU-Einheiten, verwenden. Die Mustang-V100-MX4 basiert ebenfalls auf dem PCI-Express-Bus, benötigt allerdings nur einen x2-Steckplatz und lässt sich in nahezu jeden Kompakt-PC verbauen.

Beschleunigerkarten
Die Mustang-Serie ist aufgrund ihrer Low-Power-Architektur und Skalierbarkeit eine gute Alternative zu GPU-basierten KI-Lösungen. Bild: ICP Deutschland

Für besonders kompakte Embedded-PC-Systeme, die keinen PCI-Express-Steckplatz bieten, stehen zwei VPU-Module zur Auswahl, die auf dem M.2-Formfaktor basieren. Die Mustang-M2AE-MX1 mit einer VPU-Einheit sowie die Mustang-M2BM-MX2 mit zwei MA2485-VPU-Einheiten.

Für Systeme mit älterem Mini-PCI-­Express-Bus eignet sich die Mustang-MPCIE-MX2 mit zwei Myriad-VPU-Einheiten.

FPGA-Beschleunigerkarten

Stehen Anforderungen an kurze Latenzzeiten im Raum, oder sind höhere Auflösungen bei einer höheren Taktrate zu verarbeiten, bietet sich die Mustang-F100 an. Anders als die Mustang-V100-Serie basiert die Mustang-F100 auf dem Intel Arria 10 GX1150 FPGA und ist mit 8 GByte on-board DDR4 RAM ausgestattet. Ihr kompaktes Profil (170 x 68 x 34 mm) und standardisiertes PCIe Gen3 x8 Interface sorgen für eine problemlose Integration der KI-Beschleunigerkarte. Das Zuweisen einer individuellen Karten-ID ermöglicht den flexiblen Betrieb von mehreren Mustang-F100 innerhalb eines einzelnen Inferenzsystems.

Durch die Parallelität der Datenverarbeitung und dem hohen Konfigurierungsgrad, die dem FPGA zu eigen sind, kann die Mustang-F100 wechselnde Workloads und verschiedene Gleitkommazahlen verarbeiten. Dank integrierter Intel-Enpirion-Power-Lösung weist die KI-Beschleunigerkarte eine hohe Effizienz (< 60 W TDP), Leistungsdichte und Performance (bis zu 1,5 TFLOPs) auf.

Softwareunterstützung

Sowohl für die Mustang-Serie mit VPU als auch für die Mustang-Serie mit FPGA stehen von Intel Software Development Kits zur Verfügung. Mit dem Intel Movidius ­Myriad Development Kit (MDK) können eigene Funktionen eingebunden und beliebige Verarbeitungspipelines aufgebaut werden. Ein reichhaltiges Angebot an Bibliotheken für Vision, Bildverarbeitung und neuronale Netze steht zur Auswahl. Für die Mustang-Serie mit FPGA bietet Intel Entwicklern das „FPGA SDK for OpenCL“, eine Entwicklungsumgebung, die einfach auf FPGAs zu implementieren ist, den Platform Designer sowie den DSP Builder für FPGAs.

Die Mustang-Serien V100 und F100 bieten Entwicklern zusätzlich, mit der Kompatibilität zum Open Visual Inference Neural Network Optimization (OpenVINO) Toolkit, eine optimierte Integration von Trainingsmodellen ohne aufwändiges Trail and Error. Zusätzlich wird auch die Leistung der Mustang-F100 oder V100 durch die Kompatibilität mit dem Intel OpenVINO Toolkit optimiert. Dies Toolkit nimmt automatisch eine passende Skalierung auf das jeweilige Zielsystem an der Edge vor.

Darüber hinaus wird bereits eine Vielzahl von Topologien unterstützt, unter anderem AlexNet, GoogleNet V1/V2/V4, Yolo Tiny V1/V2, Yolo V2/V3, SSD300, SSD512, ResNet-18/50/101/152, DenseNet121/161/169/201, SqueezeNet 1.0/1.1, VGG16/19 und MobileNet-SSD. Von der klassischen Objekterkennung über die Video- und Bildklassifikation bis hin zur Gesichtserkennung oder Bildsegmentierung sind anwendungsseitig kaum Grenzen gesetzt.

Benchmark

Je nach Topologie empfiehlt es sich den Bitstream der Mustang-F100 anzupassen, um ihre Performance bestmöglich zu optimieren. Je nach OpenVino-Toolkit-Version stehen unterschiedliche Bitstreams zur Verfügung, die mit dem Toolkit eingespielt werden. Benchmark-Tests mit dem im OpenVINO Toolkit integrierten Test-Tool zeigen, dass man durch die Anpassung des Bitstreams an die verwendete Topologie GPU-basierten Inferenzmaschinen deutlich den Rang ablaufen kann. Zum Beispiel zeigt die Mustang-F100 eine um 87 Prozent höhere Performance bei SqueezeNet 1.1 oder 82 Prozent bei Yolo Tiny V1 gegenüber einer Nvidia-P4-Lösung. Ein kompetenter Partner unterstützt Kunden beim Bitstream-Wechsel und erstellt auf Wunsch kundenspezifisch angepasste Bitstreams.

Fazit: Die Mustang-Serie ist mit ihrer Low-Power-Architektur und ihrer Skalierbarkeit eine überlegene Alternative zu GPU-basierten KI-Lösungen. Inferenzmaschinen erhalten durch Verwendung von KI-Beschleunigerkarten eine deutliche Performancesteigerung. Die Kompatibilität zum OpenVINO Toolkit bietet Entwicklern eine einfache Möglichkeit, Trainingsmodelle ohne aufwändige Trial & Error an der Edge zu implementieren.

Der Autor Harald Behnstedt ist Geschäftsführer von ICP Deutschland.

Lesen Sie auch: KI: Was kann der Robotik-Controller mit Nvidia-Modul?


Teilen Sie die Meldung „Beschleunigerkarten: Mehr Speed für die Künstliche Intelligenz“ mit Ihren Kontakten:


Scroll to Top