🧵來自CAI的五個預訓練技巧。 在與Google的交易之前,@character_ai在GCP H100-TCPX上進行預訓練,該設備的帶寬只有IB的1/4(!)。@NoamShazeer發明了一種名為"Squinch"的梯度壓縮算法,儘管網絡條件不佳,但仍保持了SOTA MFU。