Nu när jag har använt Sonnet 4.5 med Claude Code hela dagen i olika projekt (både backend och frontend) har jag några funderingar.
Sammantaget är jag väldigt imponerad hittills och älskar hur mycket användning jag kan få nu jämfört med att använda Opus 4.1. Utöver det...
Man, nya modellen dag är så spännande och rolig. Jag känner mig som ett barn i en godisaffär med 15+ olika Sonnet 4.5 Claude Code-instanser som körs runt på min maskin samtidigt över 6 olika repos, som alla studerar, planerar, fixar, förbättrar, polerar och harmoniserar mina projekt.
Effektbegränsningarna kommer att visa sig vara tillfälliga. Vi har mycket naturgas i USA och teknik för tillverkning av turbiner är inte en stor hemlighet som att tillverka ASML:s EUV-maskiner. Marknader är mycket bra på att lösa den här typen av problem snabbare än någon förväntar sig. Vinstdrivande motiv.
Den $NVDA långa pitchen är denna:
Du har ett begränsat utrymme för ett rack - detta begränsas av väggarna i en likström, men mest av hur mycket ström som finns tillgänglig.
På det fotavtrycket kan du placera dina egna chips, NVDA, potentiellt ASIC:er, men slutmålet är att servera tokens som du kan sälja + en spread.
I den TCO finns rackkostnaden + effekten (som vid jämförelse mellan rack är fast).
Så frågan är hur mycket du betalar för racket och hur många tokens det kan spotta ut under sin livslängd. NVL72 kan göra 1,5 miljoner token/s, @ 0,40c /miljon i utdatatoken. Även om det komprimeras med 70 % varje år, kommer det racket att generera nästan 26 miljoner dollar i intäkter på 3 år - 4 miljoner dollar för racket, = 22 miljoner dollar
Vad Jensen säger är att om du ger bort hyllorna är du lådorna inte tillräckligt högpresterande för att generera 22 miljoner dollar i inferensvarv. Om du hade obegränsad närvaro skulle du kanske kunna kompensera för den sämre prestationen genom att sätta ihop mer (vilket är vad Kina gör) och få mer intäkter.
Om vi antar 1) att varje rack används av tokenefterfrågan 2) vi är strömbegränsade 3) priset kan inte flexa ner till en nivå som kompenserar för den sämre prestandan - NVDA är en lång.