Lanzando mi benchmark de "SVG de un gato montando un dragón". (inspirado en el benchmark de @simonw de un pelícano montando una bicicleta) Claude Opus 4.5 hace que Gemini 3 Pro y GPT 5.1 Pro y Grok 4.1 parezcan juguetes.
No puedo creer que GPT 5.1 Pro pensara durante 7m 40s para esta tontería 🤣
¡Estoy comenzando a cuestionar el valor de este punto de referencia, el SVG cambia mucho cada vez que lo ejecuto! Otro intento y Gemini 3 Pro generó este sorprendentemente lindo dragón de estilo anime.
3,87K