Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SWE-BENCH PRO veröffentlicht
Selbst die stärksten KI-Coding-Modelle haben Schwierigkeiten, wenn der Test schwieriger wird.
Bei SWE-BENCH Verified erzielten sie etwa 70 %. Bei dem schwierigeren SWE-BENCH PRO fiel dieser Wert auf unter 25 %.
SWE-BENCH Verified war chaotisch und zu einfach, die Modelle haben die Antworten während des Trainings gesehen, und die Probleme spiegeln nicht die echte Softwarearbeit wider. PRO behebt dies, indem es unternehmensgerechte, langfristige Projekte hinzufügt, die näher an der Realität sind.
- Im öffentlichen Set: GPT-5 löst 23,3 %, Claude Opus 4.1 löst 22,7 %.
- Im kommerziellen Set: Noch schwieriger. Claude erzielt 17,8 %, GPT-5 erzielt 14,9 %.
Drei Dinge, die wir gelernt haben
1. Große Modelle stoßen an eine Denkgrenze. GPT-5 und Claude können sauberen Code schreiben und Werkzeuge verwenden, aber sie machen oft logische Fehler.
2. Kleinere Modelle scheitern früher. Sie brechen bei Grundlagen wie Syntax, Formatierung oder Werkzeugnutzung.
3. Jedes Modell hat seine eigenen Schwächen. Sonnet läuft aus dem Kontextfenster. Gemini macht eine Mischung aus Werkzeug-, Syntax- und Denkfehlern.
Modelle kommen mit Python und Go besser zurecht. Sie haben immer noch große Schwierigkeiten mit JavaScript und TypeScript.
Aktuelle KI ist weit davon entfernt, ein zuverlässiger Softwareingenieur zu sein. Erfolg bei einfachen Aufgaben ist irreführend. Die echte Herausforderung besteht jetzt nicht darin, Code zu schreiben, sondern das Problem durchzudenken.


Top
Ranking
Favoriten