Análise de Desempenho: DiLoCo vs Aprendizado Federado Descoberta contraintuitiva: o desempenho do DiLoCo piora com mais réplicas (M↑ = desempenho↓), enquanto o Aprendizado Federado melhora com mais clientes (M↑ = desempenho↑) Por que as tendências opostas? DiLoCo: Orçamento de dados fixo dividido M maneiras. Mais réplicas = Menos dados por réplica. Assim, o total de computação permanece constante (análise isoflop) e cada trabalhador vê D/M dados = aprendizado pior Aprendizado Federado: Cada cliente traz NOVOS dados. Mais clientes = Mais conjuntos de dados únicos totais. Cada cliente adiciona tanto computação QUANTO dados novos. Assim, o total de dados cresce: D₁ + D₂ + ... + Dₘ = aprendizado melhor Insight chave: Não se trata do algoritmo - trata-se das restrições de recursos! Graças à palestra esclarecedora de @MatharyCharles no Scratch to Scale, aprendi muito sobre DiLoCo e Aprendizado Federado. Se você estiver interessado em aprender mais sobre DiLoCo, treinamento e inferência distribuídos e paralelismo, confira a aula Scratch to Scale de @TheZachMueller ou qualquer um desses recursos abaixo: Fontes: DiLoCo: Aprendizado Federado: Scratch to Scale: #MachineLearning #DistributedTraining #AI