Ілля уточнив і додав до змісту свого інтерв'ю: > Є один момент у співбесіді, який я не пояснив, хотів би додати: > Продовження масштабування у нинішньому стилі — потужність купи, дані, середовище навчання купи — безумовно принесе покращення. Вона не застигне і буде продовжувати покращуватися. > Однак завжди буде щось важливе, що є недоліком. Це виправляє можливе непорозуміння. В інтерв'ю він сказав багато слів на кшталт «повернення до епохи досліджень» і «сучасні методи зіткнуться зі стіною», що змушує людей думати, що він говорить поганий закон масштабування і що продовжувати накопичувати обчислювальну потужність, дані та навчання RL буде неефективним. Він сказав, що мав на увазі не це, і що нинішній шлях і надалі приносить покращення і не застоюється. Модель і надалі зміцнюватиметься, еталонний показник буде зростати, продукт продовжуватиме вдосконалюватися, а компанія й надалі зароблятиме гроші. Зверніть увагу на «але» наприкінці Є речі, які неможливо отримати у великому масштабі. Наче ти бігаєш спринт. Якщо ви продовжите тренуватися, ваша продуктивність покращиться — з 12 секунд до 11,5 секунди, потім до 11 секунд або навіть на 10,9 секунди. Це справжній прогрес. Але якщо ваша мета — навчитися літати, неважливо, наскільки швидко ви бігаєте — для цього потрібна зовсім інша здатність. Чого бракує? У поєднанні зі змістом інтерв'ю це «важливе відсутнє» має стосуватися: 1. Справжня здатність до узагальнення Справа не в тому, що після навчання на великих даних можна виконувати багато завдань, але можна швидко навчитися новому з невеликого досвіду, і те, що ви засвоєте, є стабільним і надійним у нових ситуаціях. 2. Ефективне навчання Антропологія може працювати за 10 годин, керуючи машиною і вивчаючи програмування за кілька місяців. Цю ефективність неможливо досягти шляхом попереднього навчання масивних даних. Аналогія з «двома студентами» на співбесіді дуже показова. Учні, які виконали 10 000 годин запитань, дійсно можуть продовжувати покращувати свої результати на змаганнях — від топ-10% до топ-1% і до чемпіона, що є справжнім прогресом. Але він ніколи не стане тим студентом, який проявляє «розуміння» після лише 100 годин практики.