Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jak efektivněji trénovat modely uvažování malých lidí?
To je problém, na který naráží mnoho vývojářů umělé inteligence. Jemné doladění RL má obecně tendenci stagnovat, zejména u modelů 1–2B.
Myslím, že DeepSearch zde nabízí opravdu čistý přístup. Přebírá myšlenku Monte Carlo Tree Search (MCTS) na inferenci a posouvá ji do tréninkové smyčky. Tento posun odemyká lepší průzkum a efektivnější učení.
Zde jsou mé poznámky z novin:
Smyčka zahrnuje čtyři klíčové myšlenky:
Vyhledávání během tréninku: Namísto vyhledávání pouze v době testu se MCTS spouští během tréninku RL. Místní selektor UCT hodnotí sourozence, zatímco globální hraniční hodnotitel vybírá slibné listy napříč celým stromem na základě nadřazené hodnoty, entropie a hloubky.
Poučení z výher i sebevědomých chyb: Pokud není nalezeno správné řešení, model se stále učí tím, že dohlíží na sebevědomou špatnou cestu (chyby nejnižší entropie). Správné cesty zůstávají během aktualizací nezáporné, což pomáhá s přiřazením kreditů na úrovni kroků.
Stabilizace RL pomocí Tree-GRPO: Upřesňují cíle ve stylu PPO pomocí q-hodnot na úrovni uzlů, normalizace pouze na střední úrovni a strategie měkkého ořezávání. Tím se zabrání explozím odměn a zároveň zůstanou gradienty informativní.
Zachování efektivity: Aby se snížilo plýtvání výpočetními prostředky, filtruje DeepSearch tvrdou podmnožinu problémů, ukládá řešení do mezipaměti, jakmile jsou ověřena, a přeskočí úplné vyhledávání, když je již známa odpověď.
Všechna tato vylepšení vedou k dobrým výsledkům.
DeepSearch-1.5B dosahuje 62,95 % v benchmarcích AIME/AMC, čímž překonává špičkovou základní linii Nemotronu při využití pouhých ~330 hodin GPU. Pro srovnání, běžný trénink RL je nižší i při 1 800+ hodinách GPU.
Papír:
Myslím, že tento článek nabízí praktický recept na prolomení stagnací v malých LM uvažování:
• Přesuňte vyhledávání do školení, nejen odvozování
• Dohlížejte na správné i nesprávné cesty
• Využijte globální prioritizaci k chytřejšímu zkoumání
• Ukládání do mezipaměti a filtrování pro udržení vysoké efektivity

Top
Hodnocení
Oblíbené