Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

steve hsu
Фізик, засновник штучного інтелекту, подкаст Manifold
Для неекспертів: моделі Frontier були навчені на великому шматку всіх людських знань, включаючи просунуту математику, фізику, медицину, кодування. Вони мають величезні приховані можливості.
Чи може відносно недорогий процес «тонкого налаштування» (в даному випадку LoRA) адаптувати модель, щоб зробити її більш корисною для конкретного випадку використання?
Це те, що досліджують Thinking Machines. Зауважимо, що це залежить від доступу до моделей Frontier з відкритим вихідним кодом.

steve hsu15 годин тому
Джон Шульман і мислячі машини: LoRA без жалю
LoRA замінює кожну вагову матрицю W з оригінальної моделі модифікованою версією W'=W+γBAW'=W+γBA, де B і A — матриці, які разом мають набагато менше параметрів, ніж W.
LoRA виконує подібно до повного тонкого налаштування, коли:
1. LoRA застосовується до всіх рівнів мережі, особливо до шарів MLP/MoE, на яких розміщено більшість параметрів.
2. LoRA не обмежена можливостями, тобто кількість параметрів, що тренуються, перевищує обсяг інформації, що підлягає вивченню, який можна оцінити в термінах розміру набору даних.
Наслідки: Великі (наприклад, трильйон параметрів) базові моделі можуть бути налаштовані за невелику частку вартості навчання нової моделі.

2,07K
Так, уряд КНР навмисно під звітами про економіку. Це пережиток попередньої епохи «хованок».
У цьому ми не можемо звинувачувати західних економістів, за винятком того, що вони повинні мати більше здорового глузду і двічі перевірити цифри, щоб переконатися, що вони реалістичні.
(Ситуація досить складна, оскільки іноді деякі цифри їх зростання можуть бути перебільшені, тоді як в офіційних цифрах ВВП вони повідомляють про більш значущі речі, такі як вартість послуг, житла і т.д.)

L.W13 годин тому
Внутрішній уряд не повинен прагнути перевершити Сполучені Штати за офіційно задекларованим ВВП.
Зараз розташування хороше.
Уряд США також не хоче, щоб Китай перевершив Сполучені Штати за рівнем ВВП.
Зараз розташування хороше.
18,74K
Джон Шульман і мислячі машини: LoRA без жалю
LoRA замінює кожну вагову матрицю W з оригінальної моделі модифікованою версією W'=W+γBAW'=W+γBA, де B і A — матриці, які разом мають набагато менше параметрів, ніж W.
LoRA виконує подібно до повного тонкого налаштування, коли:
1. LoRA застосовується до всіх рівнів мережі, особливо до шарів MLP/MoE, на яких розміщено більшість параметрів.
2. LoRA не обмежена можливостями, тобто кількість параметрів, що тренуються, перевищує обсяг інформації, що підлягає вивченню, який можна оцінити в термінах розміру набору даних.
Наслідки: Великі (наприклад, трильйон параметрів) базові моделі можуть бути налаштовані за невелику частку вартості навчання нової моделі.

4,3K
Найкращі
Рейтинг
Вибране