🧵Năm mẹo tiền huấn luyện từ CAI. Trước khi thỏa thuận với Google, @character_ai đã thực hiện tiền huấn luyện trên GCP H100-TCPX, có băng thông chỉ bằng 1/4 so với IB (!). @NoamShazeer đã phát minh ra một thuật toán nén gradient gọi là "Squinch" duy trì SOTA MFU mặc dù mạng lưới kém.