Våren 2026 skakades AI-branschen av stora nyheter: enligt Reuters undersöker Anthropic möjligheten att designa sina egna chips.Detta AI-labb, med årliga intäkter som överstiger 30 miljarder dollar och en växande användarbas för sin Claude-modell, överväger allvarligt att utvecklas från en konsument av datorkraft till en definierare av den.
Källor medger att planerna fortfarande är i ett tidigt skede;företaget har ännu inte slutfört specifika planer eller bildat ett dedikerat team.Anthropic kan i slutändan välja att bara köpa chips istället för att designa dem internt.Men även möjligheten talar sitt tydliga språk.
För närvarande använder Anthropic både TPU:er (Tensor Processing Units) designade av Googles moderbolag Alphabet och Amazons Trainium-chips för att utveckla och driva Claude.Bara den här veckan tecknade företaget också ett långsiktigt avtal med Google och Broadcom – det senare är den centrala designsupportern för Googles TPU:er.Genom att underteckna ett externt upphandlingsavtal på flera miljarder dollar samtidigt som man i lugn och ro utforskar intern utveckling, liknar detta tvådelade tillvägagångssätt kusligt Meta och Microsoft för några år sedan, som båda nu har sina egna anpassade chips.
Branschuppskattningar tyder på att det kostar cirka 500 miljoner dollar att designa ett AI-chip av högsta klass, men utöver priset är det mer anmärkningsvärt branschsignalen bakom Anthropics drag.När ett renodlat modellföretag på allvar börjar överväga att utveckla sitt eget kisel har hårdvarukampen för AI-inferens faktiskt gått in i en ny nivå av intensitet.
Under de senaste två åren har AI-branschen genomgått en dramatisk förändring, med ett stort behov av datorkraft som snabbt har flyttat från träningssidan till slutledningssidan.
Utbildningsfasen, som kan ta veckor eller till och med månader, kräver storskaliga GPU-kluster för parallell beräkning, och Nvidias dominans på denna sida är nästan orubblig.Men slutsatsen är annorlunda.Inferens är realtidsberäkningen som sker varje gång en modell svarar på en användarförfrågan;den strävar efter låg latens, hög genomströmning och låg energiförbrukning – mål som inte helt överensstämmer med vad GPU:er utmärker sig med.
Enligt Barclays prognos kommer efterfrågan på slutledningsdatorer år 2026 att stå för mer än 70 % av den totala efterfrågan på AI-datorkraft, 4,5 gånger så stor som efterfrågan på utbildning.Man kan säga att den verkliga avgörande striden på den framtida marknaden för AI-chip kommer att vara slutsats.
Nvidia har byggt en tioårig vallgrav i träningsslutet, men om denna vallgrav inte kan sträcka sig till slutsatsen kommer hela industristrukturen att stå inför en omskrivning.Av denna anledning gjorde Nvidia ett formellt drag i slutet av förra året och tillkännagav ett icke-exklusivt licensavtal med AI-inferenschipstarten Groq.Jonathan Ross, grundare och VD för Groq, president Sonny Madra, och flera kärningenjörer anslöt sig sedan till Nvidia.Utländska medier citerade insiders som säger att köpeskillingen för denna transaktion är cirka 20 miljarder dollar.
Nvidias officiella formulering är försiktig och betonar att det bara är en tekniklicens plus talangförvärv, inte ett traditionellt förvärv.Men denna atypiska förvärvsmetod är ganska vanlig i Silicon Valley – den kan undvika krångliga antitrustrecensioner samtidigt som den avsevärt tar med målteknologin och kärnteamet in i fållan.
Groqs historia var ursprungligen ganska anmärkningsvärd.Grundaren Ross var en kärnmedlem i Googles TPU-projekt och var väl medveten om GPU-arkitekturens inneboende begränsningar i slutledningsscenarier: tusentals parallella datorenheter och extremt komplex minnesschemaläggningslogik.Dessa funktioner är fördelar vid träning men orsakar oförutsägbar latensjitter i slutledning.
Av denna anledning valde Groq en helt annan väg: att helt eliminera schemaläggaren på hårdvarunivå och istället låta kompilatorn bestämma flödesvägen för varje bit av data i kodstadiet, vilket gör att chippet kan fungera som en automatiserad monteringslinje exakt på nanosekunden.Den här arkitekturen heter LPU, eller Language Processing Unit.I slutledningstester av vanliga stora modeller kan dess ordgenereringshastighet vara mer än tio gånger högre än Nvidia GPU:er, medan dess energiförbrukning per token bara är en tiondel av den senare.
Med denna extrema prestanda lockade Groq mer än 1,5 miljoner utvecklareanvändare och fick flera investeringsrundor från toppinstitutioner som Cisco, Samsung och BlackRock, med en värdering som en gång nådde 6,9 miljarder dollar.Men det som gjorde den framgångsrik ledde också till dess undergång.Det var Groqs alltför bländande slutledningsprestanda som gjorde det till det viktigaste målet att bli låst i Jensen Huangs ögon.
På ytan är Nvidias förvärv av Groq för att komplettera dess tekniska layout på slutledningssidan, men djupare är det en defensiv integration.Genom att införliva en av de starkaste externa utmanarna i sitt ekosystem tar Nvidia bort förhandlingsmärkena från andra ledande molnleverantörer och AI-programvaruföretag som inte har möjlighet att utveckla sina egna chips.Utan Groq som alternativ har valmöjligheterna för de som inte vill bli "beskattade" av Nvidia plötsligt minskat.
Men denna desperata situation kanske inte varar länge.
I själva verket, långt innan Groqs uppgång, hade stora molnjättar redan självständigt planerat sina egna datorkraftvägar.Google har TPU:er, Amazon har Trainium och Microsoft har Maia – alla tre interna rutter har nu nått ett moget stadium där de kan säljas externt.
Googles sjunde generationens TPU, med kodnamnet Ironwood, släpptes officiellt och lanserades i slutet av 2025. Jämfört med föregående generation har dess prestanda för ett chip ökat med mer än 4 gånger, och ett enda kluster kan sammankoppla upp till 9 216 chips.Google gjorde ingen hemlighet av sin positionering för denna generation av produkter: den mest kostnadseffektiva kommersiella motorn i slutledningstiden.Från att ha tvingats utveckla internt på grund av interna flaskhalsar i datorkraft 2015, till att öppna upp TPU-distribution för kunders egna datacenter 2025, tillbringade Google tio år på att polera ett nödprojekt till ett strategiskt vapen.Anthropics tillkännagivande om att framtida utbildning och distribution av Claude-serien kommer att använda upp till en miljon TPU:er har ytterligare gett auktoritativ marknadsgodkännande till det kommersiella värdet av Ironwood.
Amazon tar en annan väg.AWS har länge varit starkt beroende av chips som utvecklats internt av dotterbolaget Annapurna Labs.Trainium-serien är ungefär jämförbar med Nvidia GPU:er, men fokuserar på att minska kostnaderna för molninfrastruktur och minska beroendet av externa leverantörer.AWS nyligen undertecknade ett flerårigt samarbetsavtal med Cerebras för att introducera Cerebras Wafer-Scale Engine (WSE)-chips i datacenter för parallell distribution med egenutvecklade Trainium-chips är en konkret manifestation av denna logik att prioritera intern utveckling och komplettera med extern upphandling.
AWS mål är mycket tydligt: använd Trainium för att utföra låghastighets- och lågkostnadsefterfrågan, och använd Cerebras-chips för att låsa in avancerade kunder som är extremt känsliga för latens och villiga att betala en premie för hastighet.
För inferenschips, till skillnad från träningschips som strävar efter kortsiktig hastighet, ägnar de mer uppmärksamhet åt långsiktig energieffektivitet.En Nvidia GPU förbrukar cirka 700 watt, medan ett dedikerat slutledningschip med motsvarande datorkraft kan styra strömförbrukningen inom 200 watt.För ultrastorskaliga applikationer som kräver hundratusentals slutledningschips, kan detta gap ge hundratals miljoner dollar i kostnadsbesparingar varje år.Detta är en av de viktigaste anledningarna till att molnjättar som Google, Amazon och Meta tävlar om att satsa på ASIC-dedikerade marker.
Enligt de senaste nyheterna har Meta nått ett 1Gw-utbildnings- och slutledningschipsamarbetsavtal med Broadcom, vilket kommer att ta med nya katalysatorer till den redan "kaotiska" inferenschipmarknaden.
Om molnjättarnas interna FoU-vägar är långsiktiga satsningar med tillräckliga resursgarantier, så representerar alliansen mellan Intel och SambaNova en annan mer realistisk genombrottsväg.
År 2026 tillkännagav SambaNova lanseringen av en heterogen hårdvarulösning med Intel, som antar en arkitektur i tre nivåer: GPU för förfyllning, Intel Xeon 6-processor som huvudprocessor för kontroll och exekvering, och SambaNova RDU för avkodning, speciellt designad för agent AI-arbetsbelastningar.Denna lösning kommer att vara öppen för företag, molntjänstleverantörer och suveräna AI-projekt under andra halvan av 2026.
SambaNova påpekade att rena GPU-system är bra på den parallelliserade förfyllningslänken, men i slutledningsuppgifter i produktionsmiljöer är verktygsschemaläggning av CPU: er och avkodningseffektiviteten för dedikerade inferensacceleratorer nyckelvariablerna som bestämmer övergripande hastighet och kostnad.
Dess testdata visar att LLVM-kompileringshastigheten för Intel Xeon 6-processorer är mer än 50 % snabbare än server-CPU:er baserade på Arm-arkitektur, och vektordatabasens prestanda är upp till 70 % snabbare.Dessa två indikatorer träffar exakt de centrala prestandaflaskhalsarna i kodagentens arbetsflöde.
Intels roll i detta samarbete är spännande.En gång var PC-hegemonen nästan marginaliserad från det huvudsakliga slagfältet för AI-chip under GPU-eran.Nu, med CPU-kontroll och schemaläggningsfördelar med Xeon 6, återtar den fotfäste i heterogena slutledningslösningar.Ekosystemet för datacenterprogramvaran är baserat på x86-arkitekturen, som också har fört Intel tillbaka till centrum av AI-stadiet.
Cerebras är ett annat namn värt att skriva om separat.
Denna start som fokuserar på AI-chips i wafer-skala lämnade in en IPO-ansökan 2024 och drog sedan tillbaka den, vilket ledde till utbredda tvivel om dess utsikter på kapitalmarknaden.Men senare tecknade OpenAI ett samarbetsavtal med Cerebras värt över 10 miljarder dollar för att tillhandahålla datorkraft för ChatGPT.Denna nyhet förde Cerebras tillbaka till allmänhetens uppmärksamhet och fick de institutioner som hade väntat och sett att ompröva dess tekniska värde.I februari 2026 slutförde Cerebras en ny finansieringsrunda på 1 miljard USD, med en total finansiering på 2,6 miljarder USD och en värdering efter investeringen på cirka 23 miljarder USD.
Cerebras kärnteknologi är Wafer-Scale Engine (WSE), som använder en hel wafer som ett enda chip, vilket bryter de fysiska skärningsbegränsningarna för traditionella chips och levererar extremt enastående latensprestanda i specifika slutledningsuppgifter.Enligt Cerebras kan hastigheten på dess chips i inferensavkodningslänken vara upp till 25 gånger högre än Nvidia GPU:er.
AWS nyligen tillkännagivande av ett flerårigt samarbetsavtal med Cerebras för att introducera WSE-chips i datacenter för AI-inferens markerar en nyckelidentitetsövergång för denna start – från en finansieringshistoria till en leverantör av världens största molnplattform.
AWS val av Cerebras är baserat på samma logik som OpenAI:s: för scenarier som är extremt känsliga för svarshastighet, såsom programmeringshjälp och agentuppgifter, motsvarar varje millisekund av latensreduktion direkt användarupplevelsen och kommersiellt värde – och detta är just svagheten hos GPU:er.
För Cerebras, eftersom fler och fler människor använder AI för att lösa allt svårare problem, kommer kravet på hastighet bara att öka.Om hastigheten i sig är produktvärdet, är det ett naturligt kommersiellt beteende att betala en premie för hastigheten.Denna logik accepteras av fler och fler företag.
Bakom striden om datorkraft ligger omstruktureringen av infrastrukturens utbudssida.I detta syfte blir CoreWeaves roll allt mer oumbärlig.
2025 tog Meta ledningen i att underteckna ett leveransavtal med CoreWeave, och gick med på att köpa 14,2 miljarder dollar i AI-datorkraft till 2031;dokument som nyligen lämnats in till SEC visar att Meta har lagt till avtalet och gått med på att köpa ytterligare 21 miljarder dollar i AI-datorkraft till 2032. Tillägget av detta nya avtal har skjutit upp CoreWeaves orderstock till 87,8 miljarder dollar, varav Meta ensam står för cirka 40%.
CoreWeaves uppgång är ett mikrokosmos av utvecklingen av GPU-datorkraft från en bristvara till infrastruktur.Som en ren hyrare av datorkraft tillhandahåller den inte modellkapacitet, utan det underliggande stödet som gör att modeller kan köras.Utöver de tre stora molnjättarna behöver AI-företag ett alternativ för datorkraft som inte är bundet till ett plattformsekosystem – och CoreWeave fyller bara denna lucka.
2025 uppnådde CoreWeave en försäljning på 5,13 miljarder USD, en ökning med cirka 170 % jämfört med föregående år.Dess datacenterskala har utökats till 43, med en effektkapacitet på 850 megawatt under användning.Företaget är utrustat med cirka 600 000 GPU:er, främst Nvidia H100 och H200, där andelen Blackwell-serier ökar kontinuerligt.Den kontrakterade totala kraftkapaciteten har nått 3 500 megawatt, vilket är mer än fyra gånger den nuvarande kapaciteten under användning.
CoreWeaves expansionslogik är dock också dess största strukturella tryck.För att täcka kostnaden för datacenterexpansion tillkännagav företaget nyligen en privat placering på 4,75 miljarder dollar i obligationer.Med mindre än 4 miljarder USD i kontanter till hands, innebär det att slutföra 30-35 miljarder USD i kapitalutgifter 2026 att det måste förlita sig på extern finansiering för att upprätthålla höghastighetsexpansion.CoreWeaves investerare satsar helt klart på kärnbedömningen att efterfrågan på datorkraft kommer att fortsätta växa i hög takt på lång sikt.
Anthropics utforskning av intern chipdesign, Nvidias förvärv av Groq för 20 miljarder dollar, Googles tioåriga ansträngning att förvandla TPU till en benchmarkprodukt, Amazons införande av Cerebras i sitt eget datacenter för att bygga en differentierad slutledningsportfölj, och Intels allians med SambaNova för att konkurrera om en heterogena marknad på alla marknader som verkar olika.att sluta sig till som det nya slagfältet.
Fler och fler människor inser att fokus för AI skiftar från hur man tränar bättre modeller till hur man kan dra slutsatser om fler förfrågningar till lägre kostnad och snabbare hastighet.Denna förändring har utlöst en massiv transformation i det tidigare GPU-centrerade datorkraftsystemet.
Den här tävlingsomgången skiljer sig från det tidiga utbytet av processorer med GPU:er.Det var en enkelriktad crush av nya produkter framför gamla.Dagens kamp om slutledningschip är mer som en omstrukturering av arbetsdelningen inom ett komplext ekosystem.Ingen enskild arkitektur kan dominera alla scenarier, och heterogena kombinationer håller på att bli mainstream.GPU:er hanterar i hög grad parallell förfyllning, dedikerade slutledningschips tar sig an avkodning, processorer ansvarar för schemaläggning och koordinering, med olika fokus på molnet och kanten, och flera spelare tävlar i varje länk.
Det betyder att utgången är långt ifrån avgjord.
För Anthropic är att utforska intern chipdesign en aktiv strävan efter datorkraftsautonomi och en försäkring för att förhindra att de hålls som gisslan av uppströmsleverantörer.Men den långa cykeln och höga investeringar i chip-FoU gör att denna väg inte blir lätt.För Nvidia är CUDA-ekosystemets vallgrav fortfarande djup, men det allt mer uppenbara gapet mellan prestanda och kostnad i slutsatsen håller på att bli ett gemensamt genombrottsmål för alla potentiella utmanare.För andra tekniska konkurrenter som Groq översätts inte nödvändigtvis tekniskt ledarskap i kommersiell framgång, och möjligheten att bli förvärvad ökar hela tiden.
Stridslinjerna har dragits, och deltagarlistan växer fortfarande.Denna AI-inferensberäkningskraftsstrid har precis gått in i sitt mest intensiva kapitel.