Esta arquitetura (qwen3 a seguir) é muito interessante, mas atualmente não estou convencido de que seja melhor do que a arquitetura gemini 2.5 flash longformer + matformer do ponto de vista da eficiência / qualidade (sem exemplos de oss disso) eu gostaria de passar algum tempo mexendo nisso