Mijn "SVG van een kat die op een draak rijdt" benchmark lanceren. (inspiratie van @simonw's pelikaan die op een fiets rijdt benchmark) Claude Opus 4.5 laat Gemini 3 Pro & GPT 5.1 Pro & Grok 4.1 eruitzien als speelgoed.
Kan niet geloven dat GPT 5.1 Pro 7 minuten en 40 seconden heeft nagedacht over deze onzin 🤣
Ik begin de waarde van deze benchmark in twijfel te trekken, de SVG verandert elke keer dat ik het uitvoer! Een andere poging en Gemini 3 Pro genereerde deze verrassend schattige anime-stijl draak.
3,88K