Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Construirea cu agenți AI @dair_ai • Prev: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Împărtășesc informații despre cum să construiesc cu LLM-uri și agenți ⬇️ AI
Modelele mici pot fi, de asemenea, bune raționamente.
Iată problema și soluția propusă:
Modelele mici se înrăutățesc adesea atunci când le SFT pe urmele CoT ale profesorilor.
Această lucrare pune eșecul pe nealinierea distribuțională și introduce decodarea speculativă inversă (RSD): în timpul generării urmelor, profesorul propune token-uri, dar elevul acceptă doar token-uri care sunt suficient de probabile sub propria sa distribuție.
Rezultatul sunt urme prietenoase cu studenții, care păstrează corectitudinea, păstrând în același timp surprinderea pas cu pas gestionabilă.
RSD folosește eșantionarea respingerii pentru a selecta urme corecte, aliniate și le asociază cu prefixe UPFT pentru elementele nerezolvate: antrenați urme complete acolo unde RSD găsește o soluție corectă și antrenați primele 128 de tokenuri acolo unde nu.
Când este aplicată la Qwen3-0.6B, distilarea directă a datelor de raționament s1K-1.1 degradează performanța medie cu 20,5%, în timp ce același model antrenat pe urme de raționament generate de RSD obține îmbunătățiri semnificative de 4,9%.
Hârtie:

43,86K
O lucrare excelentă care arată sinteza promptă ca o nouă axă de scalare pentru raționament.
Datele bune de antrenament sunt rare.
Această lucrare prezintă un cadru care ar putea face posibilă construirea de probleme de formare de înaltă calitate pentru LLM-urile axate pe raționament.
Detalii tehnice mai jos:

55K
Este uimitor cât de grozav este un orchestrator GPT-5.
Dacă construiți un sistem agentic asemănător Claude Code pentru orice domeniu, GPT-5 ar trebui să fie unul dintre modelele de top.
Dacă construiți sisteme multi-agent orchestrator-lucrător pentru domenii dincolo de codare, GPT-5 este o necesitate!
GPT-5 funcționează bine pentru multe domenii, deoarece înțelege intenția și poate raționa foarte bine pentru o mulțime de date. Este excelent pentru a umple golurile, ceea ce ajută dezvoltatorii care în mod normal își specifică subestimarea agenților.
Agenții AI sunt plini de comportamente emergente interesante benefice pentru experiența utilizatorului, dar este posibil doar cu modele avansate, cum ar fi GPT-5, care orchestrează comunicarea între sugesti.
După cum se arată în figură, l-am folosit pentru a construi un sistem dinamic și agentic pentru asistența clienților. Un agent de orchestrare (alimentat de GPT-5) poate planifica eficient și orchestra eficient recuperarea eficientă a tuturor tipurilor de informații (transcrieri, KB interne, documente, forumuri de internet etc.).
Deoarece acesta este un sistem multi-recuperare, aveți nevoie de un model extrem de inteligent pentru a gestiona orchestrația, deoarece subagenții sunt lăsați flexibili pentru a trage tot felul de context pentru sistem. GPT-5 permite această flexibilitate prin capacitatea sa de a gestiona și de a raționa o mare varietate de informații.
Dacă definițiile instrumentelor sunt configurate corect, acest lucru îmbunătățește și mai mult capacitatea GPT-5 de a valorifica toate instrumentele și contextul la care are acces.
Dacă ați folosit Claude Code cu subagenți, știți exact despre ce vorbesc. Într-un fel, întregul sistem RAG agent de asistență pentru clienți a fost construit inspirat de Claude Code. Dar cel mai bun model pentru probleme dincolo de codare este GPT-5. Am construit o evaluare pentru a valida acest lucru, așa că nu au fost doar rezultate oculare. Tocmai am acoperit acest lucru mai detaliat pentru abonații mei de la academie aici:
În plus, am descoperit că GPT-5-Codex funcționează bine pentru acest flux de lucru, dar încă nu este la fel de grozav ca GPT-5. De asemenea, am experimentat cu GPT-5-mini și am rămas uimit de eficacitatea sa în acest caz de utilizare. Claude 4 este prea scump pentru asta, iar Gemini 2.5 Pro nu este nici pe departe aproape de GPT-5 (deși produce și rezultate bune). Majoritatea acestor modele nu aveau consistență și uneori apelau uneltele în ordinea greșită sau cu parametri greșiți (faceți evaluările de apelare a instrumentelor pentru a confirma acest lucru). Un pic de reglare promptă a sistemului ar putea ajuta, dar GPT-5 este încă superior.

72,48K
Limită superioară
Clasament
Favorite