Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Apprentissage des caractéristiques silencieuses dans les Transformers
C'est l'un des articles les plus fascinants que j'ai lus cette semaine.
Laissez-moi expliquer :
Il soutient que les courbes de perte peuvent induire en erreur sur ce qu'un modèle apprend.
L'approche par défaut pour surveiller l'entraînement des réseaux neuronaux repose sur la perte comme principale mesure de progrès. Si la perte est plate, rien ne se passe. Si la perte diminue, l'apprentissage a lieu.
Mais cette hypothèse s'effondre sur les tâches algorithmiques.
Cette nouvelle recherche a entraîné des Transformers sur dix tâches algorithmiques fondamentales et a découvert des "caractéristiques silencieuses" : des représentations internes qui se développent alors que la perte semble stagnante.
Ils constatent que les modèles apprennent des étapes computationnelles intermédiaires bien avant que ces étapes n'améliorent la performance de sortie. Bits de transport dans l'addition, appartenance à une file d'attente dans BFS, produits partiels dans la multiplication. Ces caractéristiques émergent pendant des plateaux prolongés, puis se combinent soudainement pour résoudre la tâche.
Les chercheurs ont sondé les représentations internes à travers l'arithmétique binaire (addition, multiplication), les algorithmes de graphes (BFS, chemin le plus court, tri topologique, MST) et l'optimisation de séquences (sous-tableau maximum, sélection d'activités).
Six tâches ont montré des transitions claires en deux phases : stagnation prolongée suivie de gains de performance abrupts.
Des expériences d'ablation ont confirmé la causalité. La suppression des caractéristiques de transport d'un modèle d'addition 64 bits a entraîné une chute de 75,1 % de la précision. L'ablation de l'appartenance à la file d'attente dans BFS a fait chuter la précision de 43,6 %.
Les tâches algorithmiques nécessitent plusieurs sous-routines fonctionnant ensemble. Des composants individuels corrects ne réduisent pas la perte tant que toutes les pièces ne s'alignent pas. Les modèles accumulent des capacités latentes sous des courbes de perte plates.
Il semble que la perte d'entropie croisée soit un diagnostic incomplet. Un apprentissage interne substantiel peut se produire alors que les métriques semblent stagnantes. Cela motive des outils de surveillance plus riches au-delà des courbes de perte.
🔖 (ajoutez-le à vos favoris)
Article :

Meilleurs
Classement
Favoris

