Мовні моделі, які краще думають і спілкуються Пропонує простий рецепт RL для вдосконалення невеликих відкритих моделей (наприклад, 8B), який конкурує з GPT-4o та Claude 3.7 Sonnet (мислення). Зверніть на це увагу, AI-розробники! Ось мої нотатки: