🧵Vijf pretraining trucs van CAI. Voor de Google-deal draaide @character_ai pretraining op GCP H100-TCPX, dat 1/4 van de bandbreedte heeft als IB (!). @NoamShazeer heeft een gradient compressie-algoritme uitgevonden genaamd "Squinch" dat SOTA MFU behoudt ondanks het slechte netwerk.