Taalas utmanar konventionell chipdesign genom att bädda in hela AI-modeller direkt i kisel
En helt annan processordesign bäddar in hela AI-modeller i kisel, vilket ger extremt hög hastighet och prestanda för nästa generations slutledningsarbetsbelastningar.
Taalas nya AI-processorarkitektur utmanar konventionell chipdesign genom att bädda in hela AI-modeller direkt i kisel och dramatiskt ökar slutledningsprestanda och effektivitet. Detta tillvägagångssätt eliminerar behovet av traditionella programvaruimplementeringslager, vilket möjliggör omedelbara svar och avsevärt minskade driftskostnader.
Till skillnad från generella GPU:er och AI-acceleratorer som prioriterar flexibilitet, är den här arkitekturen byggd för enmodellsspecialisering. Varje chip är specialdesignat för en specifik AI-modell och kopplar in sina parametrar och vikt i själva kislet. Denna förändring ökar prestandan med en till två storleksordningar jämfört med befintliga lösningar.
Nyckelfunktioner inkluderar:
Den kopplar en komplett AI-modell (vikter + parametrar) direkt till kislet
Den ger 10-100 gånger högre slutledningsprestanda än GPU:er
Latens på under millisekunder med 14K+ tokens per sekund
Upp till 100 gånger lägre kostnad per token för slutledningsarbetsbelastningar
Snabb utvecklingscykel för chip (~2 månader per modell)**
Processorn kan utvecklas inom två månader efter att en modell har släppts, vilket möjliggör snabb distribution av optimerad hårdvara. Tidiga demonstrationer visar fördröjning under millisekunder och genomströmning på mer än 14 000 tokens per sekund på folkliga modeller, vilket gör att utdata verkar nästan omedelbara.
Detta prestandasprång leder också till stora ekonomiska fördelar. Slutledningskostnaderna reduceras till en bråkdel av en procent per miljon tokens – mycket lägre än GPU-baserade system – vilket potentiellt gör det möjligt för molnleverantörer att hantera många fler förfrågningar till en lägre kostnad.
Designen kommer dock med kompromisser. Genom att fokusera på en enda modell offrar chippet programmerbarhet och kan inte användas för andra arbetsbelastningar. Även om begränsad flexibilitet kan begränsa en bredare användning, är arkitekturen ett viktigt steg mot extrem specialisering inom AI-hårdvara.
Denna utveckling representerar ett växande industriskifte mot domänspecifikt kisel, där prestanda- och effektivitetsvinster uppväger behovet av allmänt bruk. Om den används i stor utsträckning, kan detta modelldrivna tillvägagångssätt omforma AI-infrastrukturen, särskilt för högvolyms slutledningsarbetsbelastningar.