🧵Fünf Pretraining-Tricks von CAI.
Vor dem Google-Deal führte @character_ai Pretraining auf GCP H100-TCPX durch, das nur 1/4 der Bandbreite von IB hat (!). @NoamShazeer erfand einen Gradientenkodierungsalgorithmus namens "Squinch", der SOTA MFU trotz des schlechten Netzwerks aufrechterhält.
Glücklich, Teil von zwei (!) Grundprojekten (@vllm_project und @raydistributed) zu sein, die eine großartige Synergie miteinander haben.
Der Ray + vLLM + PyTorch-Stack kommt zusammen.
Herzlichen Glückwunsch, Ray!
We’re excited to welcome Ray to the PyTorch Foundation 👋 @raydistributed is an open source distributed computing framework for #AI workloads, including data processing, model training and inference at scale. By contributing Ray to the @PyTorch Foundation, @anyscalecompute reinforces its commitment to open governance and long-term sustainability for Ray and open source AI. ➡️ Read the announcement: #PyTorchCon