Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Salut ! Une nouvelle façon de former des réseaux de neurones : basée sur un réarrangement d'anciennes idées d'IA mélangées avec le "save scumming" des jeux vidéo.
C'est une manière de forcer un "coup de pied" qui peut sauver certains types de modèles (surtout les topologies petites ou exotiques) lorsqu'ils sont bloqués.
Aveugle. Évolutif. Pression.

Je l'appelle "Frustration" : c'est comme redémarrer un jeu vidéo sauvegardé et réessayer le combat de boss.
Comment ?
Prenez une époque de Dernière Bonne Connaissance (LKG), PUIS vous tuez un neurone. Ensuite, réentraînez.
Contrairement au Dropout, les dégâts ne sont pas un bruit transitoire pendant les lots.
Nous brisons le modèle APRÈS qu'il s'améliore.

Dans la Frustration (Ablation [Stochastique] Persistante), les dégâts sont un nid de poule qu'il faut éviter et remplir en même temps lors de l'époque suivante.
2 stratégies : tuer tous les poids (comme dans une couche cachée) pour un neurone, ou juste ceux entrants (comme pour un logit de sortie).

Nous avons testé avec des topologies de réseaux MLP simples, allant de millions de paramètres à des centaines, en cataloguant leur "capacité d'entraînement" en fonction de la largeur (nombre de neurones) par rapport à la profondeur (nombre de couches).
PSA a sauvé certains modèles que Dropout et Weight Decay n'ont pas pu : un régime chaotique (en bleu).

Cela fonctionne même dans des conceptions défectueuses où le problème du gradient qui disparaît rend la rétropropagation inutile.
(Ce qui, lorsque vous n'avez pas de connexions de contournement, n'est pas tant de couches !)
De plus, vous pouvez répartir les dommages et entraîner plusieurs LKG corrompus en même temps sur différentes GPU.

Le document reflète le premier proof-of-concept, et oui, toute l'idée a *beaucoup* de limitations.
Surtout à quel point le mécanisme est énergétiquement inefficace, ou le fait qu'il était sur le jeu de données MNIST (un jouet) et non sur ImageNet.
Mais bonne nouvelle ! Les premiers tests de ResMLP montrent des résultats prometteurs !

Nous avons essayé d'être complets. Nous avons testé 98 topologies, dont beaucoup avec des configurations de correspondance de paramètres (différentes dimensions, même nombre de paramètres résultants).
Nous avons mesuré 3 techniques PSA différentes contre 3 contrôles, sur 10 essais chacun.
Un total de 5 880 essais.
Reproductible.

Même dans des conditions où le problème du gradient qui disparaît aurait dû rendre l'entraînement impossible (comme dans un MLP simple 18x18), PSA a pu s'entraîner en attaquant les logits de sortie sur MNIST.
Vous ne me croyez pas ? Essayez et voyez !

Il y a plein de petits moments "aha" ici. Gardez à l'esprit qu'aucune des idées sous-jacentes n'est nouvelle. Nous les avons simplement agencées d'une nouvelle manière pour essayer quelque chose qui n'est vraiment réalisable que maintenant que les GPU sont si puissants.

Travail futur :
• Reproduction des tests originaux sur ResMLP, CNN et Transformers (ResMLP corrige VGP, mais pour des topologies pathologiques, il semble que PSA aide toujours)
• Essayer sur ImageNet <- coûteux, mais c'est la véritable preuve dont nous avons besoin.
Observations :
• Tuer le même logit de sortie crée systématiquement des modèles "anti-experts", et lorsque vous regardez leurs matrices de confusion, vous pouvez voir la dyslexie en action (tuez 2 et la classification déborde sur 5, 7 et 8)
• Nous ne devons pas nous en tenir à des attaques stochastiques
Pourquoi est-ce précieux ?
• Si cela fonctionne sur des ensembles de données plus importants et des architectures de modèles modernes, j'espère que cela pourrait être un outil précieux pour construire des Petits Modèles de Langue (SLMs).
GitHub avec le document et le code ici :

1,51K
Meilleurs
Classement
Favoris

