Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Entwickeln mit KI-Agenten @dair_ai • Zurück: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Ich teile Einblicke, wie man mit LLMs und KI-Agenten ⬇️ entwickelt
Kleine Modelle können auch gute Denker sein.
Hier ist das Problem und die vorgeschlagene Lösung:
Kleine Modelle schneiden oft schlechter ab, wenn man sie mit SFT auf Lehrer-CoT-Spuren trainiert.
Dieses Papier macht das Scheitern an der Verteilungsmisalignment fest und führt das Reverse Speculative Decoding (RSD) ein: Während der Spurenerzeugung schlägt der Lehrer Tokens vor, aber der Schüler akzeptiert nur Tokens, die unter seiner eigenen Verteilung ausreichend wahrscheinlich sind.
Das Ergebnis sind schülerfreundliche Spuren, die die Korrektheit bewahren und gleichzeitig die Überraschung von Schritt zu Schritt handhabbar halten.
RSD verwendet Ablehnungssampling, um korrekte, ausgerichtete Spuren auszuwählen und kombiniert sie mit UPFT-Präfixen für ungelöste Elemente: trainiere vollständige Spuren, wo RSD eine korrekte Lösung findet, und trainiere die ersten 128 Tokens, wo dies nicht der Fall ist.
Bei der Anwendung auf Qwen3-0.6B verschlechtert die direkte Destillation von s1K-1.1-Denkspur-Daten die durchschnittliche Leistung um 20,5 %, während dasselbe Modell, das auf RSD-generierten Denkspuren trainiert wurde, bedeutende Verbesserungen von 4,9 % erzielt.
Papier:

33,69K
Großartige Arbeit, die die schnelle Synthese als neue Skalierungsachse für das Denken zeigt.
Gute Trainingsdaten sind rar.
Diese Arbeit präsentiert ein Framework, das es möglicherweise ermöglicht, qualitativ hochwertige Trainingsprobleme für reasoning-fokussierte LLMs zu erstellen.
Technische Details unten:

54,99K
Es ist erstaunlich, wie großartig ein Orchestrator GPT-5 ist.
Wenn Sie ein agentisches System ähnlich wie Claude Code für irgendeinen Bereich aufbauen, sollte GPT-5 eines Ihrer Top-Modelle sein.
Wenn Sie Orchestrator-Arbeiter-Multi-Agenten-Systeme für Bereiche jenseits des Programmierens aufbauen, ist GPT-5 ein Muss!
GPT-5 funktioniert gut in vielen Bereichen, weil es Absichten versteht und sehr gut über große Datenmengen nachdenken kann. Es ist großartig darin, die Lücken zu füllen, was Entwicklern hilft, die normalerweise ihre Agenten unzureichend spezifizieren.
KI-Agenten sind voller interessanter aufkommender Verhaltensweisen, die für die Benutzererfahrung vorteilhaft sind, aber das ist nur mit fortschrittlichen Modellen wie GPT-5 möglich, die die Kommunikation zwischen Unteragenten orchestrieren.
Wie in der Abbildung gezeigt, habe ich es verwendet, um ein dynamisches und agentisches System für den Kundenservice zu erstellen. Ein Orchestrator-Agent (betrieben von GPT-5) kann effektiv planen und effizient die effektive Beschaffung aller Arten von Informationen (Transkripte, interne Wissensdatenbank, Dokumente, Internetforen usw.) orchestrieren.
Da dies ein Multi-Beschaffungssystem ist, benötigen Sie ein extrem intelligentes Modell, um die Orchestrierung zu bewältigen, da Unteragenten flexibel sind, um alle Arten von Kontext für das System zu ziehen. GPT-5 ermöglicht diese Flexibilität mit seiner Fähigkeit, eine Vielzahl von Informationen zu verarbeiten und darüber nachzudenken.
Wenn Ihre Tool-Definitionen richtig konfiguriert sind, verbessert dies weiter die Fähigkeit von GPT-5, alle Tools und Kontexte zu nutzen, auf die es Zugriff hat.
Wenn Sie Claude Code mit Unteragenten verwendet haben, wissen Sie genau, wovon ich spreche. In gewisser Weise wurde dieses gesamte agentische RAG-System für den Kundenservice mit Inspiration von Claude Code aufgebaut. Aber das beste Modell für Probleme jenseits des Programmierens ist GPT-5. Ich habe eine Bewertung erstellt, um dies zu validieren, also war das nicht nur eine Augenmaß-Bewertung. Ich habe dies hier für meine Akademie-Abonnenten ausführlicher behandelt:
Darüber hinaus habe ich festgestellt, dass GPT-5-Codex gut für diesen Workflow funktioniert, aber es ist immer noch nicht so großartig wie GPT-5. Ich habe auch mit GPT-5-mini experimentiert und war von seiner Effektivität in diesem Anwendungsfall überwältigt. Claude 4 ist dafür zu teuer, und Gemini 2.5 Pro kommt GPT-5 nicht einmal nahe (obwohl es auch akzeptable Ergebnisse liefert). Die meisten dieser anderen Modelle fehlten an Konsistenz und würden manchmal die Tools in der falschen Reihenfolge oder mit falschen Parametern aufrufen (führen Sie Ihre Tool-Aufrufbewertungen durch, um dies zu bestätigen). Ein wenig System-Prompt-Tuning könnte helfen, aber GPT-5 ist immer noch überlegen.

71,91K
Top
Ranking
Favoriten