Lancio il mio benchmark "SVG di un gatto che cavalca un drago". (ispirato dal benchmark di @simonw con il pellicano che cavalca una bicicletta) Claude Opus 4.5 fa sembrare Gemini 3 Pro e GPT 5.1 Pro e Grok 4.1 dei giocattoli.
Non posso credere che GPT 5.1 Pro abbia pensato per 7m 40s per questa roba 🤣
Inizio a mettere in discussione il valore di questo benchmark, l'SVG cambia molto ogni volta che lo eseguo! Un altro tentativo e Gemini 3 Pro ha generato questo sorprendentemente carino drago in stile anime.
3,86K