Språkmodeller som tänker och chattar bättre Föreslår ett enkelt RL-recept för att förbättra små öppna modeller (t.ex. 8B) som konkurrerar med GPT-4o och Claude 3.7 Sonnet (tänkande). Var uppmärksamma på den här, AI-utvecklare! Här är mina anteckningar: