一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

性能分析：DiLoCo 与联邦学习反直觉的发现：DiLoCo 的性能随着副本数量的增加而变差（M↑ = 性能↓），而联邦学习随着客户端数量的增加而变好（M↑ = 性能↑）为什么会有相反的趋势？ DiLoCo：固定的数据预算分配为 M 份。更多的副本 = 每个副本的数据更少。因此，总计算保持不变（等效浮点分析），每个工作者看到的数据为 D/M = 学习效果更差联邦学习：每个客户端带来新的数据。更多的客户端 = 更多的独特数据集。每个客户端同时增加计算和新数据。因此，总数据增长：D₁ + D₂ + ... + Dₘ = 学习效果更好关键见解：这不是关于算法 - 而是关于资源限制！感谢 @MatharyCharles 在 Scratch to Scale 的启发性演讲，我在 DiLoCo 和联邦学习方面学到了很多。如果你对了解更多关于 DiLoCo、分布式训练和推理以及并行性感兴趣，请查看 @TheZachMueller 的 Scratch to Scale 课程或以下任何资源：来源： DiLoCo：联邦学习： Scratch to Scale： #MachineLearning #DistributedTraining #AI