Найважливіша стаття 2025 року не стосується поступових покращень архітектури Transformer.
Йдеться про заміну її послідовної, авторегресивної парадигми на паралельну, двонаправлену.
Стаття LLaDA 2.0 повністю переосмислює моє уявлення про дифузійні моделі.
До цього моменту дифузійні LLM здавалися цікавою ідеєю, але далеко не такою, яку можна було б запустити в масштабі 100B.
Ця стаття це змінює.
Їхня ідея дуже проста:
Візьміть сильну авторегресивну модель і перетворіть її на дифузійну модель, замість того щоб навчати її з нуля.
Автори з'ясували, як це зробити, не знищивши знання оригінальної моделі. Вони називають це «Розігрів-Стабільний-Розклад».
Причина, чому це важливо:
Дифузійна модель має багато переваг: паралельне декодування, потужну продуктивність мислення, швидкість тощо.
Я даю посилання на статтю нижче.
Читайте далі, щоб дізнатися, як ми можемо створити наступне покоління моделей.
Ми всі зосереджені на програмуванні на основі ШІ, але аудіо — це сфера, яка матиме величезний вплив у всьому світі.
Іноді ми сприймаємо «голос» і «аудіо» як належне. Ми не повинні.
Це величезна справа.
PolyAI залучила $200 млн від Nvidia та кількох провідних венчурних інвесторів.
Коли ми вперше збирали гроші, у нас не було ні продукту, ні моделі доходу, ні клієнта.
Чому я припинив створювати Siri, щоб створити компанію вартістю 100 мільярдів доларів, яка автоматизуватиме обслуговування клієнтів