Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Construire avec des agents d’IA @dair_ai • Précédent : Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Je partage des idées sur la façon de construire avec des LLM et des agents ⬇️ d’IA
Les petits modèles peuvent également être de bons raisonneurs.
Voici le problème et la solution proposée :
Les petits modèles se dégradent souvent lorsqu'on les entraîne avec des traces CoT de l'enseignant.
Cet article attribue l'échec à un désalignement distributionnel et introduit le Reverse Speculative Decoding (RSD) : lors de la génération de traces, l'enseignant propose des tokens, mais l'élève n'accepte que les tokens qui sont suffisamment probables selon sa propre distribution.
Le résultat est des traces adaptées aux élèves qui préservent la justesse tout en maintenant la surprise étape par étape à un niveau gérable.
Le RSD utilise l'échantillonnage par rejet pour sélectionner des traces correctes et alignées et les associe à des préfixes UPFT pour les éléments non résolus : entraîner des traces complètes où le RSD trouve une solution correcte et entraîner les 128 premiers tokens où il ne le fait pas.
Lorsqu'il est appliqué à Qwen3-0.6B, la distillation directe des données de traces de raisonnement s1K-1.1 dégrade la performance moyenne de 20,5 %, tandis que le même modèle entraîné sur des traces de raisonnement générées par RSD obtient des améliorations significatives de 4,9 %.
Article :

33,69K
Excellent travail montrant la synthèse rapide comme un nouvel axe d'échelle pour le raisonnement.
Les bonnes données d'entraînement sont rares.
Ce travail présente un cadre qui pourrait rendre possible la construction de problèmes d'entraînement de haute qualité pour les LLM axés sur le raisonnement.
Détails techniques ci-dessous :

55K
C'est incroyable à quel point GPT-5 est un excellent orchestrateur.
Si vous construisez un système agentique similaire à Claude Code pour n'importe quel domaine, GPT-5 devrait être l'un de vos principaux modèles.
Si vous construisez des systèmes multi-agents orchestrateur-travailleur pour des domaines au-delà de la programmation, GPT-5 est indispensable !
GPT-5 fonctionne bien pour de nombreux domaines car il comprend l'intention et peut raisonner sur une grande quantité de données de manière très efficace. Il est excellent pour combler les lacunes, ce qui aide les développeurs qui ont tendance à sous-spécifier leurs agents.
Les agents IA sont pleins de comportements émergents intéressants bénéfiques pour l'expérience utilisateur, mais cela n'est possible qu'avec des modèles avancés, comme GPT-5, orchestrant la communication entre les sous-agents.
Comme montré dans la figure, je l'ai utilisé pour construire un système dynamique et agentique pour le support client. Un agent orchestrateur (alimenté par GPT-5) peut efficacement planifier et orchestrer de manière efficace la récupération de toutes sortes d'informations (transcriptions, base de connaissances interne, documents, forums internet, etc.).
Comme il s'agit d'un système de multi-récupération, vous avez besoin d'un modèle extrêmement intelligent pour gérer l'orchestration, car les sous-agents sont laissés flexibles pour intégrer toutes sortes de contextes pour le système. GPT-5 permet cette flexibilité grâce à sa capacité à gérer et à raisonner sur une grande variété d'informations.
Si vos définitions d'outils sont correctement configurées, cela améliore encore la capacité de GPT-5 à tirer parti de tous les outils et contextes auxquels il a accès.
Si vous avez utilisé Claude Code avec des sous-agents, vous savez exactement de quoi je parle. D'une certaine manière, tout ce système agentique RAG de support client a été construit avec l'inspiration de Claude Code. Mais le meilleur modèle pour des problèmes au-delà de la programmation est GPT-5. J'ai construit une évaluation pour valider cela, donc ce n'était pas juste une estimation visuelle des résultats. J'ai couvert cela en détail pour mes abonnés de l'académie ici :
De plus, j'ai trouvé que GPT-5-Codex fonctionne bien pour ce flux de travail, mais ce n'est toujours pas aussi bon que GPT-5. J'ai également expérimenté avec GPT-5-mini et j'ai été époustouflé par son efficacité dans ce cas d'utilisation. Claude 4 est trop cher pour cela, et Gemini 2.5 Pro n'est pas du tout à la hauteur de GPT-5 (bien qu'il produise également des résultats corrects). La plupart de ces autres modèles manquaient de cohérence et appelaient parfois les outils dans le mauvais ordre ou avec de mauvais paramètres (faites vos évaluations d'appel d'outils pour confirmer cela). Un peu de réglage des invites système pourrait aider, mais GPT-5 reste supérieur.

71,91K
Meilleurs
Classement
Favoris