Opus 4.8 vs GPT-5.5: Min ärliga take

Jag bränner miljarder tokens i månaden över 20+ marknader, och de senaste veckorna har jag kört Opus 4.8 och GPT-5.5 sida vid sida i samma harness. Slutsatsen är obekväm för någon som mig som länge varit Team Anthropic: GPT-5.5 känns som ett kliv uppåt, Opus 4.8 känns som ett kliv framåt. Det är inte samma sak.

Opus 4.8 är bättre — men på precis det Opus redan var bra på

Låt oss vara rättvisa. Opus 4.8 är en tydlig uppgradering från 4.7. Den kör längre, hallucinerar mindre, och följer detaljerade instruktioner bättre. Verktygsanvändning är märkbart stabilare — Playwright, moln-CLI:er, allt det där agentiska gnetandet som tidigare spårade ur mitt i en körning sitter nu mycket tightare. Nya /workflows gör att jag kan släppa lite mer på tyglarna utan att behöva babysitta varje steg.

Men här är haken: allt det där förutsätter att jag har gjort jobbet först.

Opus 4.8 är en fantastisk ingenjör som väntar på en exakt kravspec. Definiera scopet fint, ge tydlig domänkunskap, och den levererar rent. Lämna minsta lilla glipa utanför det explicit definierade, och den stannar artigt och frågar istället för att tänka själv. Det är förmodligen en medveten design för att tämja hallucinationer och bygga förtroende — men priset är att modellen känns mindre autonom än tidiga Opus 4.6.

Opus 4.8 gör det du ber om, perfekt. Problemet är att du fortfarande måste veta exakt vad du ska be om.

GPT-5.5 gav mig tillbaka "wow"-känslan

Jag hade inte den där känslan på länge — inte sedan jag först körde Opus 4.6. GPT-5.5 har den.

Det konkreta jag ser i produktion:

Kontextstabilitet i absurt långa sessioner. Jag har kört sessioner på 12+ timmar där hallucination och kontextutspädning förblir lågt. Det är nästan kusligt.
Den fyller i luckorna. I samma harness där Opus kräver exakt scope, kör GPT-5.5 vidare med delar jag aldrig specade i detalj — och gör det oftast rätt.
Rätt svarslängd. Opus svarar som en duktig men mångordig ingenjör. GPT-5.5 svarar lagom. Jag spenderar mindre kognitiv energi på att tolka agentens svar, vilket låter trivialt tills du gör det 200 gånger om dagen.

Var det verkligen avgörs: stora, röriga kodbaser

Det stora testet för mig handlar inte om att skriva en CRUD-endpoint. Det handlar om att navigera en stor kodbas där flera språk, moduler och externa bibliotek hänger ihop — och fortsätta migrera utan att tappa huvudspåret.

Det finns migreringsuppgifter där Opus 4.6, 4.7 och 4.8 helt enkelt gick bet i mitt flöde. GPT-5.5 löste dem genom kontinuerliga sessioner. Och det mest talande: när jag gav Opus den färdiga lösningen plus en kodkarta och bad den expandera horisontellt — så fallerade den ändå.

Dimension	Opus 4.8	GPT-5.5
Verktygsanvändning (CLI, Playwright)	Mycket bra	Bra
Exakt specificerat scope	Bäst i klassen	Mycket bra
Odefinierat / vagt scope	Stannar och frågar	Kör vidare, oftast rätt
Långa sessioner (12h+)	Kontextutspädning kryper in	Förvånansvärt stabil
Stor flerspråkig kodbas	Tappar spåret	Håller spåret
Svarslängd / signalbrus	Mångordig	Lagom
Token-effektivitet	Tyngre per session	Lättare

En rimlig delförklaring är tokens. Opus 4.7/4.8 drar mer än 4.6 i snitt, delvis pga tokenizer-ändringar. Med 1M kontext äts en stor del redan upp under kodanalysen — så när det faktiska arbetet ska börja har utspädningen redan satt in. Jag försökte teams, forks med skills, subagents. Vissa fall löste sig ändå inte.

Vad det här egentligen handlar om: vem är flaskhalsen?

Karpathy och andra har pekat på det länge — människan blir flaskhalsen. Och det är precis där min besvikelse på Opus 4.8 ligger. För att använda den effektivt måste jag fortfarande tänka mycket. Definiera mer, guida mer, hålla kontexten själv.

Det är raka motsatsen till varför jag vill ha AI i loopen. Jag vill inte ha en modell som kräver att jag blir en bättre kravställare. Jag vill ha något som bara fattar — Jarvis, inte en juniorutvecklare med en perfekt minneskapacitet men noll initiativ.

När teknik mognar ska den mänskliga arbetsytan expandera både horisontellt och vertikalt. Opus 4.8 expanderar horisontellt — jag kan göra fler av de saker jag redan vet hur man definierar. GPT-5.5 börjar peta på det vertikala.

Två ärliga reservationer

Tooling: Som PM-style ingenjörsverktyg är Claude Code fortfarande smidigare för mig. Kanske för att jag vant mig, kanske för att CC haft längre utvecklingstid. Modellen och harnessen är två olika diskussioner.

Benchmarks: Jag litar allt mindre på de flesta coding-benchmarks — dataläckage och benchmark-massage gör dem urvattnade. Det enda som matchat min faktiska upplevelse på sistone är DeepSWE-resultaten. Tro inte på siffror, tro på din egen produktionslogg.

Och en disclaimer som faktiskt betyder något: mitt tunga case just nu är en migrering av ett quant-system från C++/Cython till Rust och Python. Din profil kan se helt annorlunda ut, och då kan rangordningen vända.

Min bottom line

Om du har djup domänkunskap och kan slipa ditt scope vasst — kör Opus 4.8, den belönar dig. Men om du jagar verklig agentisk autonomi i stora, röriga kodbaser, är GPT-5.5 just nu det enda jag testat som ger tillbaka den där "wow"-känslan. Anthropic löste hallucinationsproblemet genom att göra modellen mer lydig. Jag ville ha den mer smart. Det är skillnaden.

Opus 4.8 vs GPT-5.5: Varför autonomi slår precision i min agentkod