para tareas de razonamiento complejo, me encuentro ejecutando claude, grok, gpt, gemini todos en paralelo y comparando respuestas