O lançamento do Extropic de hoje levanta algumas novas bandeiras vermelhas. Comecei a seguir esta empresa quando se recusaram a explicar a especificação de entrada/saída do que estão a construir, deixando-nos à espera de esclarecimentos.) Aqui estão 3 bandeiras vermelhas de hoje: 1. De "A IA Generativa está a Amostrar. Todos os algoritmos de IA generativa são essencialmente procedimentos para amostrar de distribuições de probabilidade. Treinar um modelo de IA generativa corresponde a inferir a distribuição de probabilidade que subjaz a alguns dados de treino, e executar a inferência corresponde a gerar amostras da distribuição aprendida. Como os TSUs amostram, podem executar algoritmos de IA generativa de forma nativa." Esta é uma afirmação altamente enganosa sobre os algoritmos que alimentam as IAs modernas mais úteis, no mesmo nível de manipulação que chamar o cérebro humano de um computador termodinâmico. Se entendi corretamente, até onde se sabe, a maioria do trabalho de computação em IA não corresponde ao tipo de entrada/saída que se pode alimentar no chip do Extropic. A página diz: "O próximo desafio é descobrir como combinar esses primitivos de uma forma que permita que as capacidades sejam escaladas para algo comparável aos LLMs de hoje. Para fazer isso, precisaremos construir TSUs muito grandes e inventar novos algoritmos que possam consumir uma quantidade arbitrária de recursos de computação probabilística." Você realmente precisa construir TSUs grandes para pesquisar se é possível que aplicações semelhantes a LLM se beneficiem deste hardware? Eu teria pensado que valeria a pena gastar alguns milhões de dólares investigando essa questão através de uma combinação de teoria e hardware moderno de supercomputação em nuvem, em vez de gastar mais de 30 milhões de dólares na construção de hardware que pode ser uma ponte para lugar nenhum. A própria documentação para o THRML (sua biblioteca de código aberto) diz: "O THRML fornece ferramentas aceleradas por GPU para amostragem em blocos em grafos esparsos e heterogêneos, tornando-se um lugar natural para prototipar hoje e experimentar com o futuro hardware do Extropic." Você está dizendo que não tem uma forma de que seus primitivos de hardware possam *em princípio* ser aplicados a aplicações úteis de algum tipo, e criou esta biblioteca para ajudar a fazer esse tipo de pesquisa usando as GPUs de hoje… Por que você não simplesmente liberou a biblioteca Python mais cedo (THRML), fez a pesquisa de gargalos que você disse que precisava ser feita mais cedo, e envolveu a comunidade para ajudar a obter uma resposta a esta questão chave até agora? Por que você estava esperando todo esse tempo para primeiro lançar este protótipo de hardware extremamente nichado e de pequena escala para vir a explicar este gargalo crucial, e apenas publicitar sua busca por parceiros potenciais que tenham algum tipo de "cargas de trabalho probabilísticas" agora, quando o custo de não fazer isso foi de 30 milhões de dólares e 18 meses? 2. De "Desenvolvemos um modelo da nossa arquitetura TSU e o usamos para estimar quanta energia seria necessária para executar o processo de desruído mostrado na animação acima. O que descobrimos é que os DTMs executando em TSUs podem ser cerca de 10.000x mais eficientes em termos de energia do que os algoritmos padrão de geração de imagens em GPUs." Já estou vendo pessoas no Twitter a promover a afirmação de 10.000x. Mas para quem acompanhou a saga de décadas de empresas de computação quântica que afirmam alcançar "supremacia quântica" com figuras de hype semelhantes, você sabe quanta atenção precisa ser dada à definição desse tipo de referência. Na prática, tende a ser extremamente difícil apontar situações onde uma abordagem de computação clássica *não* é muito mais rápida do que a alegada abordagem de "computação termodinâmica 10.000x mais rápida". A equipe do Extropic sabe disso, mas optou por não elaborar sobre o tipo de condições que poderiam reproduzir esse benchmark de hype que eles queriam ver viralizar. 3. A terminologia que estão usando foi alterada para "computador probabilístico": "Projetamos o primeiro computador probabilístico escalável do mundo." Até hoje, eles estavam usando "computador termodinâmico" como seu termo, e afirmaram por escrito que "o cérebro é um computador termodinâmico". Pode-se dar a eles o benefício da dúvida por pivotar sua terminologia. É apenas que eles sempre estavam a falar bobagens sobre o cérebro ser um "computador termodinâmico" (na minha opinião, o cérebro não é nem isso nem um "computador quântico"; é muito mais um algoritmo de rede neural executando em uma arquitetura de computador clássica). E essa repentina mudança de terminologia é consistente com eles terem estado a falar bobagens nesse aspecto. Agora para os pontos positivos: * Algum hardware realmente foi construído! * Eles explicam como sua entrada/saída potencialmente tem uma aplicação em desruído, embora, como mencionado, sejam vagos nos detalhes da suposta "supremacia termodinâmica 10.000x" que alcançaram nesse aspecto. No geral: Isto é sobre o que eu esperava quando comecei a perguntar pela entrada e saída há 18 meses. Eles tinham uma ideia legitimamente legal para um pedaço de hardware, mas não tinham um plano para torná-lo útil, mas tinham alguns começos vagos de alguma pesquisa teórica que tinha uma chance de torná-lo útil. Eles parecem ter feito progressos respeitáveis em colocar o hardware em produção (a quantidade que 30 milhões de dólares compra), e aparentemente menos progresso em encontrar razões pelas quais este hardware particular, mesmo após 10 gerações de refinamentos sucessores, vai ser útil para alguém. Seguindo em frente, em vez de responder a perguntas sobre a entrada/saída do seu dispositivo "mogando" as pessoas e dizendo que é um segredo da empresa, e twittando hiperstições sobre seu deus termodinâmico, eu recomendaria ser mais aberto sobre a aparentemente gigante questão de vida ou morte que a comunidade técnica pode realmente estar interessada em ajudá-lo a responder: se alguém pode escrever um programa Python em seu simulador com evidências mais fortes de que algum tipo de "supremacia termodinâmica" com seu conceito de hardware pode algum dia ser uma realidade.
Acho que alguns outros também vão cair na mesma má caracterização que você, então vou esclarecer: Isto não é um passo 1 no caminho para um passo 10 útil. É avançar agressivamente em hardware sem uma história teórica coerente, o que eles admitem. Tudo bem, é apenas incomum estar tão bem financiado. Existem muitos projetos de pesquisa em universidades com orçamentos limitados que têm uma história mais coerente sobre o que precisa ser construído e por quê.
@NGDPAB 2. Vejo uma meia página aqui, mas o meu ponto é que provar aumentos de velocidade em uma escala pequena não vale muito. Todos nós sabemos disso.
Re: Sinal de alerta #2, a hype enganosa de "10.000x":
Como eu estava dizendo, o gargalo para o sucesso da Extropic é a esperança de que alguém apareça com uma aplicação útil da sua ideia improvável. Simplesmente não é aconselhável queimar antecipadamente mais de $30M quando essa mesma jogada arriscada poderia ter sido feita primeiro.
287,48K