Lanzando mi benchmark "SVG de un gato montando un dragón". (inspirado en el referente de bicicleta de @simonw Pelican) Claude Opus 4.5 hace que Gemini 3 Pro & GPT 5.1, Pro & Grok 4.1 parezcan juguetes.
No me puedo creer que GPT 5.1 Pro haya pensado 7 millones de 40s para esta mierda 🤣
Empiezo a cuestionar el valor de este benchmark, ¡el SVG cambia mucho cada vez que lo ejecuto! Otro intento y Gemini 3 Pro generó este dragón sorprendentemente adorable al estilo anime.
3.86K