letar jag ständigt efter smarta verktyg och tekniker som kan hjälpa mig leverera bra resultat till mina kunder och effektivisera mitt arbete. AI-utvecklingen går rasande fort, och nya språkmodeller dyker upp hela tiden. Deras förmåga att hjälpa till med allt från textgenerering till kodning är något jag följer med stort intresse.
Nyligen har tre specifika modeller fångat min uppmärksamhet: Googles Gemini 2.5 Pro, Anthropics Claude 3.7 Sonnet och DeepSeeks R1. De har alla fått en del uppmärksamhet, så jag bestämde mig för att titta närmare på vad de faktiskt kan, särskilt när det gäller att skriva kod. Här är vad jag har hittat.
Google Gemini 2.5 Pro: En ny tungviktare?
Google lanserade Gemini 2.5 Pro i mars 2025 och den har snabbt fått höga betyg på jämförelsesajter som LMArena. En intressant aspekt är dess “thinking capabilities” – att den sägs kunna resonera internt innan den ger ett svar.
- Prestanda (enligt källorna): Högst Elo-poäng på LMArena (1443). Den presterar bra på tester som GPQA Diamond (84.0%) och AIME 2024 (92.0%). På kodningstestet SWE-Bench Verified når den 63.8% (med en anpassad setup).
- Kontextfönster: Klarar 1 miljon tokens, med planer på 2 miljoner. Det är mycket data, vilket kan vara användbart för stora projekt.
- Tänkbara användningsområden: Allmän AI-hjälp, kodning, research och uppgifter som kräver hantering av mycket information.
- Pris/Licens: Google har inte specificerat priset, modellen är proprietär (inte öppen källkod).
Anthropic Claude 3.7 Sonnet: Fokus på kod?
Claude 3.7 Sonnet kom i februari 2025 och har ett standardläge samt ett “extended thinking”-läge. Den lyfts ofta fram för just kodningsuppgifter.
- Prestanda (enligt källorna): Arena Elo 1296 (standard) / 1304 (extended). Intressant nog presterar den bättre än Gemini på SWE-Bench Verified (70.3% i extended mode). Den klarar sig också bra på vetenskap (GPQA Diamond 84.8%) och matte (AIME 80.0%), även om Gemini är starkare i matte. (* Gäller extended mode).
- Kontextfönster: Upp till 128K tokens.
- Tänkbara användningsområden: Verkar passa bra för kodning, mjukvaruutveckling och problemlösning.
- Pris/Licens: Proprietär. Kostar $3 per miljon input-tokens och $15 per miljon output-tokens.
DeepSeek R1: Öppen källkod och lågt pris
DeepSeek R1 släpptes i januari 2025 och skiljer ut sig genom att vara öppen källkod (MIT-licens) och ha en väldigt låg prislapp.
- Prestanda (enligt källorna): Arena Elo 1360. Stark i matematik (AIME 71.0%, MATH-500 95.9%), men ligger lite efter de andra i vetenskap (GPQA Diamond 73.3%). Kodningsförmågan beskrivs som konkurrenskraftig (LMArena kod-score 1368), men specifika SWE-Bench-resultat nämns inte i källmaterialet.
- Kontextfönster: 128K tokens.
- Tänkbara användningsområden: Bra för de som föredrar öppen källkod, har en tajt budget, eller behöver stark matematisk förmåga.
- Pris/Licens: Öppen källkod (MIT). Kostar endast $0.14 per miljon input-tokens och $0.55 per miljon output-tokens.
Jämförande tabell (Baserad på källdata)
Modell | Lansering | Organisation | Licens | Kontextfönster | Arena Elo | Kodning (LMArena) | Matte (AIME 2024) | Vetenskap (GPQA) | Pris (Input/Output) | Tänkbara Användningsområden |
---|---|---|---|---|---|---|---|---|---|---|
Gemini 2.5 Pro | Mars 2025 | Proprietär | 1M tokens | 1443 | 1427 | 92.0% | 84.0% | Ej specificerat | Allmän AI, kodning, forskning, stora datamängder | |
Claude 3.7 Sonnet | Feb 2025 | Anthropic | Proprietär | upp till 128K | 1304* | 1338 | 80.0%* | 84.8%* | $3/M, $15/M | Kodning, mjukvaruutveckling, problemlösning (*ext. mode) |
DeepSeek R1 | Jan 2025 | DeepSeek | MIT | 128K | 1360 | 1368 | 71.0% | 73.3% | $0.14/M, $0.55/M | Öppen källkod, budgetprojekt, matematik |
Ett litet kodningstest
För att få en känsla för skillnaderna bad jag modellerna (via de verktyg som nämndes i ursprungsartikeln) att skapa en HTML-baserad ray tracing-scen med reflekterande sfärer.
- Gemini 2.5 Pro & Claude 3.7 Sonnet: Båda genererade kod som gav visuellt tilltalande resultat med övertygande reflektioner. Claude kändes möjligen aningen vassare just i detta test, vilket stämmer med ryktet.
- DeepSeek R1: Koden fungerade, men resultatet var inte lika visuellt imponerande som de andra två.
Vanliga frågor (som jag ställde mig)
- Bäst överlag? Sett till Arena Elo-poängen verkar Gemini 2.5 Pro ligga i topp just nu.
- Bäst för kodning? Det är lite oklart. Claude 3.7 Sonnet presterar bäst på ett specifikt kodtest (SWE-Bench), medan Gemini har högre “kodnings-score” på LMArena. Mitt lilla test visade att båda är starka, kanske med en liten fördel för Claude.
- Bäst för matte/vetenskap? Gemini verkar starkast på matte, medan Claude har ett litet övertag på GPQA-testet för vetenskap.
- Öppen källkod? Ja, DeepSeek R1.
- Kontextfönster? Gemini har störst (1M+ tokens), de andra har 128K.
- Kostnad? DeepSeek R1 är klart billigast. Claude har en tydlig prismodell. Geminis kostnad är okänd.
För mitt arbete
För mig som driver en liten digital mediebyrå finns det intressanta aspekter hos alla tre:
- Gemini 2.5 Pro: Lockar med sin höga allmänna prestanda och enorma kontextfönster. Kan vara användbar för komplexa research-uppgifter eller när man jobbar med väldigt stora projekt, även om kodningsprestandan på SWE-bench inte var högst. Priset är dock en osäkerhetsfaktor.
- Claude 3.7 Sonnet: Verkar vara ett starkt kort specifikt för kodning och utveckling. Om kodgenerering är prio ett, och priset är acceptabelt, känns den som ett hett alternativ.
- DeepSeek R1: Fördelen med öppen källkod och den extremt låga kostnaden är svår att ignorera, särskilt för en mindre byrå. Även om den kanske inte var bäst i det visuella kodtestet, gör priset och dess styrkor inom matematik den intressant för vissa typer av projekt eller interna verktyg.
Valet beror helt på projektets krav, budget och om man föredrar öppen källkod eller proprietära system. För mitt arbete på iCyber AB, som spänner över webbutveckling, innehåll och strategi, är det värdefullt att känna till styrkorna hos dessa olika verktyg. De kan potentiellt spara mycket tid och öppna dörrar för nya kreativa lösningar i digitala medieprojekt. Det ska bli spännande att följa utvecklingen!