Lanserer min "SVG av en katt som rir på en drage"-benchmark. (inspirert av @simonw Pelican Cycling Benchmark) Claude Opus 4.5 får Gemini 3 Pro & GPT 5.1 Pro og Grok 4.1 til å se ut som leker.
Kan ikke tro at GPT 5.1 Pro tenkte på 7 minutter og 40 sekunder for dette tullet 🤣
Jeg begynner å tvile på verdien av denne benchmarken, SVG-en endrer seg mye hver gang jeg kjører den! Et nytt forsøk og Gemini 3 Pro genererte denne overraskende søte anime-stil dragen.
3,87K