🧵Fem pretreningstriks fra CAI. Før Google-avtalen kjørte @character_ai fortrening på GCP H100-TCPX som har 1/4 båndbredde som IB (!). @NoamShazeer oppfant en gradientkomprimeringsalgoritme kalt "Squinch" som opprettholdt SOTA MFU til tross for dårlig nettverksbygging.