I stället för en konventionell Von Neumann-arkitektur som är utformad för att flytta data är run200AI-enheterna som används i tsunAImi-acceleratorkorten utformade för beräkning. Bearbetningselementet är placerat inuti minnet för att skapa en distribuerad behandlingsmatris.
RunAI200-enheterna använder heltalsdatatyper och ett batch-läge på 1. Minnesbanken har 385 kbyte SRAM med en 2D-array med 512 behandlingselement. Det finns 511 banker per chip, vilket tillsammans ger 200 MB per enhet. Driften är upp till 502 TOPS i "sport" -läge. Konfigurerad i "eco" -läge, levererar den 8TOPS.
Acceleratorkortets beräkningskraft översätts till över 80 000 fps av ResNet-50 v 1,5 genomströmning vid batch = 1, eller tre gånger genomströmningen för närmaste konkurrent, säger företaget. I ett annat riktmärketest för bearbetning av naturligt språk kan acceleratorkorten bearbeta mer än 12 000 frågor per sekund av BERT-bas, säger företaget. Det är fyra gånger snabbare än någon annonserad produkt, står det.
RunAI200-enheterna tillverkas med en kostnadseffektiv 16nm-process.
AI för inferens kommer att vara ett viktigt element i datacenter, där det kommer att dess beräkningstäthet kommer att påskynda prestanda för smarta städer och andra applikationer för AI och maskininlärning.
TsunAImi-acceleratorkortet är ett standardformfaktor PCI Express-kort för användning i molnet eller servrarna. Den stöder den öppna programvaran TensorFlow och PyTorch för maskininlärning.
För att åtfölja acceleratorkortet har Untether AI imAIgine programvaruutvecklingssats (SDK) tryckknappskvantisering, optimering, fysisk allokering och partitionering med flera chip. Det ger också en visualiseringsverktygssats, cykelnoggrann simulator och ett runtime-API för integration.
TsunAImi-acceleratorkortet samplar nu och kommer att finnas kommersiellt tillgängligt under första kvartalet 2021. ImAIgine SDK är i tidig åtkomst med utvalda kunder och partners.