Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Zephyr
Підпишіться на X, щоб читати мої статті про технології, штучний інтелект, напівпровідники.
Особисті повідомлення відкриті.
Більшість людей не усвідомлюють, наскільки сильно Rubin CPX скоротить Time To First Token (TTFT) наступного року
ваш Edge NPU завжди буде «mogging», навіть якщо додати затримку з хмари

Zephyr2 години тому
BOM вашого телефону має збільшитися на $100-$150, щоб увімкнути щось подібне
1B x $100 = $100B збільшена вартість апаратного забезпечення
Припустимо, ви замінюєте телефон через 3-4 роки, тобто 25-33 млрд доларів на рік
"Швидка перевірка того, що може змінитися: прості припущення — гнучкість, як хочеш.
-1B користувачів × 50 запитів/день × ~$0.002/запит x 365 днів = ~$35B/рік вартості хмарного виведення.
-Якщо 30% цієї суми перейде на пристрій, це буде ~$11B+ річного попиту на хмару, який так і не з'являється.
-Гранична вартість за локальний запит фактично становить ~$0 після відправки пристрою.»
1,12K
BOM вашого телефону має збільшитися на $100-$150, щоб увімкнути щось подібне
1B x $100 = $100B збільшена вартість апаратного забезпечення
Припустимо, ви замінюєте телефон через 3-4 роки, тобто 25-33 млрд доларів на рік
"Швидка перевірка того, що може змінитися: прості припущення — гнучкість, як хочеш.
-1B користувачів × 50 запитів/день × ~$0.002/запит x 365 днів = ~$35B/рік вартості хмарного виведення.
-Якщо 30% цієї суми перейде на пристрій, це буде ~$11B+ річного попиту на хмару, який так і не з'являється.
-Гранична вартість за локальний запит фактично становить ~$0 після відправки пристрою.»

Shanu Mathew6 груд., 00:29
Я вважаю, що це провокаційний погляд і хороша думка, але хотів би трохи попрацювати над логікою.
Сьогодні більшість інструментів ШІ працюють у хмарі. Кожного разу, коли ви просите модель написати, узагальнити, перекласти чи проаналізувати щось, цей запит надходить на GPU у дата-центрі. Більше користувачів → більше запитів → більше GPU, → більше дата-центрів → більше ліній електропередач, трансформаторів, підстанцій → генерації тощо. Це основний маховик нинішнього ШІ апаратного забезпечення + капітального вибуху дата-центрів.
Корисне виведення на пристрої порушує цей лінійний ланцюг.
Якщо багатомільярдна модель достатньо ефективна, щоб працювати на нейронному чіпі всередині вашого телефону, ноутбука, автомобіля чи гарнітури, то велика частина повсякденних завдань ніколи не змушена залишати пристрій. Думайте про прості, але великі запити: автозаповнення, написання листів, транскрипція голосу, узагальнення, просте розпізнавання зображень. Це саме ті загальні запити з великим обсягом і низькою складністю, які, ймовірно, домінуватимуть у використанні.
Швидка перевірка того, що може змінитися: прості припущення — гнучко, як хочете.
-1B користувачів × 50 запитів/день × ~$0.002/запит x 365 днів = ~$35B/рік вартості хмарного виведення.
-Якщо 30% цієї суми перейде на пристрій, це буде ~$11B+ річного попиту на хмару, який так і не з'являється.
-Гранична вартість за локальний запит фактично становить ~$0 після відправки пристрою.
Звичайні застереження: апаратне забезпечення рухається вперед, але все ще потрібно масштабувати пам'ять, пропускну здатність тощо. Але модель параметрів 3–7B, що працює на нейронному чіпі телефону (приблизно 10–45 «TOPS» сьогодні, прогнозується 60+ до 2027 року), могла б локально виконувати ці завдання з великим обсягом і низькою складністю. Для кожного завдання не потрібні моделі у масштабі фронтиру.
Хмара все ще має значення, щоб було дуже зрозуміло. Навчальні передові моделі, глибоке довготривале мислення, великі корпоративні навантаження, координація між кількома агентами — усе це набагато краще підходить для великих централізованих дата-центрів. Ключовим зсувом стало те, що логічний ланцюг більше не зводиться до «кожен новий користувач = я маю додати більше GPU і більше гігават дата-центру». Тут невідомий аргумент Jevon про парадокс і чи сприяє він більшому використанню ШІ і змушує користувачів шукати складніші підказки, що частково компенсує це
За словами Аашая, бум капітальних витрат не «зникає повністю», але його поточна інтенсивність, ймовірно, змінюється. Перенесення навіть 5–30% навантаження з інференції з хмари на пристрій у сучасному масштабі може бути значущим. Складні проблеми залишаються централізованими в хмарі. Але «повсякденний ШІ» стає особливістю обладнання, яке ви вже маєте, на відміну від утиліти з лічильником, яку орендує запит.
5,36K
Найкращі
Рейтинг
Вибране
