🧵خمس حيل تدريب مسبق من CAI. قبل صفقة جوجل، كان @character_ai يعمل تدريبا مسبقا على GCP H100-TCPX الذي يحتوي على ربع عرض النطاق الترددي كIB (!). اخترع @NoamShazeer خوارزمية ضغط التدرج تسمى "Squinch" للحفاظ على وحدة تخزين SOTA رغم ضعف الشبكة.