Le lancement d'Extropic aujourd'hui soulève de nouveaux drapeaux rouges. J'ai commencé à suivre cette entreprise lorsqu'elle a refusé d'expliquer les spécifications d'entrée/sortie de ce qu'elle construit, nous laissant attendre des clarifications.) Voici 3 drapeaux rouges d'aujourd'hui : 1. De "L'IA générative échantillonne. Tous les algorithmes d'IA générative sont essentiellement des procédures d'échantillonnage à partir de distributions de probabilité. Former un modèle d'IA générative correspond à inférer la distribution de probabilité qui sous-tend certaines données d'entraînement, et exécuter une inférence correspond à générer des échantillons à partir de la distribution apprise. Parce que les TSUs échantillonnent, ils peuvent exécuter des algorithmes d'IA générative nativement." C'est une affirmation très trompeuse sur les algorithmes qui alimentent les IA modernes les plus utiles, au même niveau de manipulation que de qualifier le cerveau humain d'ordinateur thermodynamique. Si je comprends bien, autant que quiconque le sait, la majorité du travail de calcul de l'IA ne correspond pas au type d'entrée/sortie que vous pouvez alimenter dans la puce d'Extropic. La page dit : "Le prochain défi est de déterminer comment combiner ces primitives d'une manière qui permettrait d'augmenter les capacités à quelque chose de comparable aux LLM d'aujourd'hui. Pour ce faire, nous devrons construire des TSUs très grands et inventer de nouveaux algorithmes capables de consommer une quantité arbitraire de ressources de calcul probabiliste." Avez-vous vraiment besoin de construire de grands TSUs pour rechercher s'il est possible que des applications similaires aux LLM bénéficient de ce matériel ? J'aurais pensé qu'il vaudrait la peine de dépenser quelques millions de dollars pour enquêter sur cette question via une combinaison de théorie et de matériel de supercalculateur cloud moderne, au lieu de dépenser plus de 30 millions de dollars pour construire un matériel qui pourrait être un pont vers nulle part. Leur propre documentation pour leur THRML (leur bibliothèque open-source) dit : "THRML fournit des outils accélérés par GPU pour l'échantillonnage par blocs sur des graphes épars et hétérogènes, ce qui en fait un endroit naturel pour prototyper aujourd'hui et expérimenter avec le matériel Extropic futur." Vous dites que vous manquez d'un moyen dont vos primitives matérielles pourraient *en principe* être appliquées à des applications utiles de quelque sorte, et vous avez créé cette bibliothèque pour aider à faire ce type de recherche en utilisant les GPU d'aujourd'hui… Pourquoi ne pas avoir simplement publié la bibliothèque Python plus tôt (THRML), faire la recherche sur les goulets d'étranglement que vous avez dit devoir être faite plus tôt, et engager la communauté pour vous aider à obtenir une réponse à cette question clé d'ici maintenant ? Pourquoi avez-vous attendu tout ce temps pour d'abord lancer ce prototype matériel extrêmement niche à petite échelle pour venir expliquer ce goulet d'étranglement décisif, et seulement maintenant publiciser votre recherche de partenaires potentiels ayant une sorte de "charges de travail probabilistes" pertinentes, alors que le coût de ne pas le faire était de 30 millions de dollars et 18 mois ? 2. De "Nous avons développé un modèle de notre architecture TSU et l'avons utilisé pour estimer combien d'énergie il faudrait pour exécuter le processus de débruitage montré dans l'animation ci-dessus. Ce que nous avons trouvé, c'est que les DTM fonctionnant sur des TSUs peuvent être environ 10 000 fois plus efficaces en énergie que les algorithmes de génération d'images standard sur GPU." Je vois déjà des gens sur Twitter faire l'éloge de l'affirmation de 10 000 fois. Mais pour quiconque a suivi la saga de plusieurs décennies des entreprises de calcul quantique prétendant atteindre la "suprématie quantique" avec des chiffres de battage similaires, vous savez combien il faut de soin pour définir ce type de référence. En pratique, il est extrêmement difficile de pointer des situations où une approche de calcul classique *n'est pas* beaucoup plus rapide que l'approche "10 000 fois plus rapide en calcul thermodynamique" revendiquée. L'équipe d'Extropic le sait, mais a choisi de ne pas élaborer sur les conditions qui pourraient reproduire cette référence de battage qu'ils voulaient voir devenir virale. 3. La terminologie qu'ils utilisent a été changée en "ordinateur probabiliste" : "Nous avons conçu le premier ordinateur probabiliste évolutif au monde." Jusqu'à aujourd'hui, ils utilisaient "ordinateur thermodynamique" comme terme, et ont affirmé par écrit que "le cerveau est un ordinateur thermodynamique". On pourrait leur donner le bénéfice du doute pour avoir pivoté leur terminologie. C'est juste qu'ils parlaient toujours de manière absurde du cerveau étant un "ordinateur thermodynamique" (à mon avis, le cerveau n'est ni cela ni un "ordinateur quantique" ; c'est très certainement un algorithme de réseau neuronal fonctionnant sur une architecture d'ordinateur classique). Et ce pivot soudain de terminologie est cohérent avec le fait qu'ils ont toujours dit des absurdités à ce sujet. Maintenant pour les points positifs : * Du matériel a effectivement été construit ! * Ils expliquent comment son entrée/sortie a potentiellement une application dans le débruitage, bien que, comme mentionné, ils soient vagues sur les détails de la supposée "suprématie thermodynamique 10 000 fois" qu'ils ont atteinte à ce sujet. Dans l'ensemble : C'est à peu près ce que j'attendais lorsque j'ai commencé à demander l'entrée/sortie il y a 18 mois. Ils avaient une idée légitimement cool pour un morceau de matériel, mais n'avaient pas de plan pour le rendre utile, mais avaient quelques débuts vagues de recherche théorique qui avaient une chance de le rendre utile. Ils semblent avoir fait des progrès respectables pour mettre le matériel en production (le montant que 30 millions de dollars vous achète), et apparemment moins de progrès à trouver des raisons pour lesquelles ce matériel particulier, même après 10 générations de raffinements successifs, va être utile à quiconque. À l'avenir, au lieu de répondre aux questions sur l'entrée/sortie de votre appareil en "dominant" les gens et en disant que c'est un secret d'entreprise, et en tweetant des hyperstitions sur votre dieu thermodynamique, je recommanderais d'être plus ouvert sur la question apparemment géante de vie ou de mort à laquelle la communauté technologique pourrait en fait être intéressée à vous aider à répondre : si quelqu'un peut écrire un programme Python dans votre simulateur avec des preuves plus solides que quelque sorte de "suprématie thermodynamique" avec votre concept matériel peut un jour exister.
Je suppose que d'autres vont également tomber dans la même mauvaise caractérisation que vous, donc je vais clarifier : Ce n'est pas une étape 1 sur le chemin vers une étape 10 utile. C'est avancer agressivement sur le matériel sans une histoire théorique cohérente, ce qu'ils admettent. C'est bien, c'est juste inhabituel d'être si bien financé. Il existe de nombreux projets de recherche dans les universités avec des budgets très limités qui ont une histoire plus cohérente sur ce qui doit être construit et pourquoi.
@NGDPAB 2. Je vois une demi-page ici, mais mon point est que prouver des accélérations à une échelle minime n'a tout simplement pas beaucoup de valeur. Nous le savons tous.
Re : Alerte rouge #2, le battage médiatique trompeur de "10 000x" :
Comme je le disais, le goulot d'étranglement du succès d'Extropic est l'espoir que quelqu'un surgisse de nulle part avec une application utile de leur idée audacieuse. Il est tout simplement déconseillé de pré-brûler plus de 30 millions de dollars alors que ce même coup de dés aurait pu être tenté en premier.
287,47K