🧵Cinci trucuri pre-antrenament de la CAI. Înainte de afacerea cu Google, @character_ai rula pretraining pe GCP H100-TCPX, care are 1/4 din lățimea de bandă a IB (!). @NoamShazeer inventat un algoritm de compresie gradient numit "Squinch", care menține SOTA MFU în ciuda rețelei slabe.