Nuestro nuevo experimento utiliza una versión avanzada de Gemini 2.5 Deep Think para verificar rigurosamente los artículos de ciencias de la computación teórica. El 97% de los participantes en la prueba, autores de #STOC2026, encontraron que los comentarios eran útiles para detectar errores y mejorar la claridad. Más en: