Chamath: Два терміни, на які варто звертати увагу в AI — це Prefill і Decode "Є два терміни, про які, думаю, ти почуєш дуже багато протягом наступних кількох років." "Перший термін — попереднє заповнення, а наступне — декодування." «Що таке презаповнення і декодування — це два дуже різні способи мислення моделей і того, як модель проходить процес відповіді на питання, яке ви їй ставите.» "І коли ви надсилаєте запит ШІ, модель його обробляє. Це називається фазою читання або попереднім заповненням.» "Він читає весь твій запит одразу. А потім він робить купу розрахунків, обчислює всі ці зв'язки між усіма словами і зберігає їх у тимчасовій пам'яті.» "Проблема в тому, що це справді обмежується обчисленнями. Тож це вимагає величезної грубої сили. І відеокарти Nvidia тут просто круті.» «А їхня архітектура розроблена для масштабної паралельної обробки, що робить їх справді чудовими у переживанні довгих запитів.» «Тож проблема стає все більшою і більшою, Nvidia повністю домінує.» "Але наступна фаза, ця критична, фаза декодування, — це фаза написання, так?" "Отже, модель починає генерувати відповідь, ти ставиш їй питання, і вона відповідає, по токену за раз." "А щоб вибрати наступний жетон і наступне слово, він має озирнутися назад на все, що вже сказав, щоб не бачити галюцинацій." "Проблема в тому, що це надзвичайно обмежена пропускною здатністю пам'яті." "І в нашій архітектурі, дуже давно, ми приймали ці дизайнерські рішення з першого дня." «Тож ми обрали зовсім інший архітектурний підхід, дуже консервативну технологію процесу. Ми не розширювали межі фізики.» ...