Lançando o meu benchmark "SVG de um gato montando um dragão". (inspirado pelo benchmark do pelicano montando uma bicicleta do @simonw) Claude Opus 4.5 faz o Gemini 3 Pro & GPT 5.1 Pro & Grok 4.1 parecerem brinquedos.
Não consigo acreditar que o GPT 5.1 Pro pensou por 7m 40s para esta merda 🤣
Estou a começar a questionar o valor deste benchmark, o SVG muda muito cada vez que o executo! Outra tentativa e o Gemini 3 Pro gerou este dragão em estilo anime surpreendentemente fofo.
3,87K