Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Bouwen met AI-agents @dair_ai • Vorige: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Ik deel inzichten over hoe te bouwen met LLM's en AI-agents ⬇️
Kleine modellen kunnen ook goede redeneerders zijn.
Hier is het probleem en de voorgestelde oplossing:
Kleine modellen worden vaak slechter wanneer je ze SFT op leraars CoT-sporen.
Dit artikel wijst de mislukking toe aan distributionele misalignement en introduceert Reverse Speculative Decoding (RSD): tijdens de generatie van sporen stelt de leraar tokens voor, maar de student accepteert alleen tokens die voldoende waarschijnlijk zijn onder zijn eigen distributie.
Het resultaat zijn studentvriendelijke sporen die de correctheid behouden terwijl de stap-voor-stap verrassing beheersbaar blijft.
RSD gebruikt afwijzingssampling om correcte, uitgelijnde sporen te selecteren en koppelt dit aan UPFT-prefixen voor onopgeloste items: train volledige sporen waar RSD een correcte oplossing vindt en train de eerste 128 tokens waar dat niet het geval is.
Wanneer toegepast op Qwen3-0.6B, degradeert directe distillatie van s1K-1.1 redeneertracegegevens de gemiddelde prestatie met 20,5%, terwijl hetzelfde model dat is getraind op RSD-gegeneerde redeneertraces betekenisvolle verbeteringen van 4,9% behaalt.
Paper:

43,88K
Het is verbazingwekkend hoe goed een orkestrator GPT-5 is.
Als je een Claude Code-achtige agentic systeem voor een domein aan het bouwen bent, zou GPT-5 een van je topmodellen moeten zijn.
Als je orkestrator-werknemer multi-agent systemen voor domeinen buiten coderen bouwt, is GPT-5 een must!
GPT-5 werkt goed voor veel domeinen omdat het intentie begrijpt en goed kan redeneren over veel data. Het is geweldig in het aanvullen van de gaten, wat ontwikkelaars helpt die normaal gesproken hun agents onder specificeren.
AI-agents zitten vol met interessante opkomende gedragingen die gunstig zijn voor de gebruikerservaring, maar dat is alleen mogelijk met geavanceerde modellen, zoals GPT-5, die de communicatie tussen subagents orkestreren.
Zoals weergegeven in de afbeelding, heb ik het gebruikt om een dynamisch en agentic systeem voor klantenondersteuning te bouwen. Eén orkestratoragent (aangedreven door GPT-5) kan effectief plannen en efficiënt de effectieve retrieval van allerlei soorten informatie (transcripties, interne KB, documenten, internetforums, enz.) orkestreren.
Aangezien dit een multi-retrieval systeem is, heb je een extreem intelligent model nodig om de orkestratie te beheren, aangezien subagents flexibel zijn om allerlei context voor het systeem binnen te halen. GPT-5 maakt deze flexibiliteit mogelijk met zijn vermogen om een breed scala aan informatie te verwerken en erover te redeneren.
Als je tooldefinities goed zijn geconfigureerd, versterkt dit verder het vermogen van GPT-5 om alle tools en context die het heeft toegang tot te benutten.
Als je Claude Code met subagents hebt gebruikt, weet je precies waar ik het over heb. Op een bepaalde manier is dit hele klantenondersteuning agentic RAG-systeem gebouwd met inspiratie van Claude Code. Maar het beste model voor problemen buiten coderen is GPT-5. Ik heb een evaluatie gebouwd om dit te valideren, dus dit was niet alleen op basis van een blik op de resultaten. Ik heb dit hier in meer detail behandeld voor mijn academy-abonnees:
Bovendien ontdekte ik dat GPT-5-Codex goed werkt voor deze workflow, maar het is nog steeds niet zo goed als GPT-5. Ik heb ook geëxperimenteerd met GPT-5-mini en was verbluft door de effectiviteit ervan voor deze usecase. Claude 4 is te duur hiervoor, en Gemini 2.5 Pro komt niet in de buurt van GPT-5 (hoewel het ook redelijke resultaten oplevert). De meeste van deze andere modellen ontbeerden consistentie en zouden soms de tools in de verkeerde volgorde of met verkeerde parameters aanroepen (doe je tool-aanroep evaluaties om dit te bevestigen). Een beetje systeemprompt-tuning zou kunnen helpen, maar GPT-5 is nog steeds superieur.

72,5K
Boven
Positie
Favorieten