Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Logisches Denken @OpenAI erforschen | Mitentwickelt von übermenschlichen Poker-KIs von Libratus/Pluribus, CICERO Diplomacy AI und OpenAI o3 / o1 / 🍓 Reasoning-Modellen
Ich habe über die Feiertage einen Open-Source-Poker-River-Solver vibecodiert. Der Code ist zu 100 % von Codex geschrieben, und ich habe auch eine Version mit Claude Code erstellt, um sie zu vergleichen.
Insgesamt haben mir diese Tools ermöglicht, viel schneller in einem Bereich zu iterieren, den ich gut kenne. Aber ich hatte auch das Gefühl, dass ich ihnen nicht vollständig vertrauen konnte. Sie machten Fehler und stießen auf Bugs, aber anstatt dies anzuerkennen, dachten sie oft, es sei nicht so schlimm oder versuchten gelegentlich einfach, mich dazu zu bringen, zu denken, dass nichts falsch sei.
In einer denkwürdigen Debugging-Sitzung mit Claude Code fragte ich es, zur Überprüfung, was der erwartete Wert einer "immer folden"-Strategie wäre, wenn der Spieler $100 im Pot hat. Es sagte mir, dass laut seinem Algorithmus der EV -$93 betrug. Als ich darauf hinwies, wie seltsam das war, in der Hoffnung, dass es von selbst erkennen würde, dass es einen Bug gibt, versicherte es mir, dass $93 nahe bei $100 sei, also wahrscheinlich in Ordnung. (Als ich es aufforderte, Blocker als potenzielles Problem zu berücksichtigen, erkannte es an, dass der Algorithmus sie tatsächlich nicht richtig berücksichtigte.) Codex war in dieser Hinsicht nicht viel besser und stieß auf seine eigenen (interessanterweise) unterschiedlichen Bugs und algorithmischen Fehler, die ich sorgfältig durchgehen musste. Glücklicherweise konnte ich diese durchgehen, weil ich ein Experte für Poker-Solver bin, aber ich glaube nicht, dass viele andere Menschen in der Lage gewesen wären, diesen Solver mit AI-Coding-Tools zu erstellen.
Die frustrierendste Erfahrung war die Erstellung einer GUI. Nach einem Dutzend Hin und Her waren weder Codex noch Claude Code in der Lage, das Frontend zu erstellen, das ich angefordert hatte, obwohl Claudes Code zumindest hübscher war. Ich habe wenig Erfahrung im Frontend, also war vielleicht das, was ich verlangte, einfach nicht möglich, aber wenn das der Fall war, wünschte ich, sie hätten mir *gesagt*, dass es schwierig oder unmöglich war, anstatt wiederholt fehlerhafte Implementierungen oder Dinge zu machen, die ich nicht angefordert hatte. Es hat mir vor Augen geführt, wie groß der Unterschied zwischen der Zusammenarbeit mit einem menschlichen Teamkollegen und der Arbeit mit einer KI immer noch ist.
Nachdem die ersten Implementierungen abgeschlossen und debuggt waren, bat ich Codex und Claude Code, optimierte C++-Versionen zu erstellen. In dieser Hinsicht schnitt Codex überraschend gut ab. Seine C++-Version war 6x schneller als die von Claude Code (auch nach mehreren Iterationen, in denen ich um weitere Optimierungen bat). Codex' Optimierungen waren immer noch nicht so gut wie das, was ich machen konnte, aber andererseits habe ich 6 Jahre mit einem Doktorat damit verbracht, Pokerbots zu erstellen. Insgesamt fand ich, dass Codex dabei einen beeindruckenden Job gemacht hat.
Meine letzte Anfrage war, die AIs zu fragen, ob sie neuartige Algorithmen entwickeln könnten, die NLTH-Rivers noch schneller lösen könnten. Keiner von beiden hatte damit Erfolg, was nicht überraschend war. LLMs werden schnell besser, aber die Entwicklung neuartiger Algorithmen für solche Dinge ist ein monatelanges Forschungsprojekt für einen menschlichen Experten. LLMs sind noch nicht auf diesem Niveau.

977
Eine wichtige Lektion, die ARC-AGI verinnerlicht hat, die aber nicht viele andere haben, ist, dass die Benchmark-Leistung eine Funktion der Rechenleistung zur Testzeit ist.
@OpenAI veröffentlicht Einzelzahlen-Benchmark-Ergebnisse, weil es einfacher ist und die Leute erwarten, sie zu sehen, aber idealerweise sollten alle Bewertungen eine x-Achse haben.

ARC Prize12. Dez. 2025
Vor einem Jahr haben wir eine Vorschau auf eine unveröffentlichte Version von @OpenAI o3 (Hoch) verifiziert, die 88 % auf ARC-AGI-1 erzielte bei geschätzten 4.500 $/Aufgabe.
Heute haben wir einen neuen GPT-5.2 Pro (X-Hoch) SOTA-Wert von 90,5 % bei 11,64 $/Aufgabe verifiziert.
Dies stellt eine ~390-fache Effizienzsteigerung innerhalb eines Jahres dar.

460
Top
Ranking
Favoriten
