Registro di ricerca Giorno 0: DiLoCo Days Ho deciso di scrivere una tesi sul training distribuito a bassa comunicazione. Fondamentalmente, come possiamo addestrare modelli di grandi dimensioni in modo efficiente attraverso nodi distribuiti senza essere completamente distrutti dalla latenza di rete e dalla larghezza di banda? (1/n)