🧵Пять приемов предварительного обучения от CAI. Перед сделкой с Google, @character_ai проводил предварительное обучение на GCP H100-TCPX, который имеет 1/4 пропускной способности по сравнению с IB (!). @NoamShazeer изобрел алгоритм сжатия градиентов под названием "Squinch", поддерживающий SOTA MFU, несмотря на плохую сеть.