Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Connor Davis
Heilige Scheiße… dieses Papier könnte die wichtigste Veränderung darin sein, wie wir LLMs in diesem ganzen Jahr nutzen.
„Große kausale Modelle aus großen Sprachmodellen.“
Es zeigt, dass man vollständige kausale Modelle direkt aus einem LLM wachsen lassen kann, keine Annäherungen, keine Vibes, sondern tatsächliche kausale Graphen, kontrafaktische Überlegungen, Interventionen und strukturierte, überprüfte Einschränkungen.
Und die Art und Weise, wie sie es tun, ist verrückt:
Anstatt ein spezialisiertes kausales Modell zu trainieren, befragen sie das LLM wie ein Wissenschaftler:
→ einen Kandidaten für einen kausalen Graphen aus dem Text extrahieren
→ das Modell bitten, bedingte Unabhängigkeiten zu überprüfen
→ Widersprüche erkennen
→ die Struktur überarbeiten
→ kontrafaktische und interventionale Vorhersagen testen
→ iterieren, bis das kausale Modell stabilisiert ist
Das Ergebnis ist etwas, das wir noch nie zuvor hatten:
ein kausales System, das im LLM unter Verwendung seines eigenen latenten Weltwissens aufgebaut ist.
Über Benchmarks hinweg, synthetische, reale, chaotische Bereiche schlagen diese LCMs klassische Methoden zur kausalen Entdeckung, weil sie aus dem riesigen Vorwissen des LLM schöpfen, anstatt nur lokale Korrelationen zu betrachten.
Und das kontrafaktische Denken?
Schockierend stark.
Das Modell kann „Was wäre wenn“-Fragen beantworten, bei denen Standardalgorithmen völlig versagen, einfach weil es bereits „weiß“, Dinge über die Welt, die diese Algorithmen aus Daten allein nicht ableiten können.
Dieses Papier deutet auf eine Zukunft hin, in der LLMs nicht nur Muster-Maschinen sind.
Sie werden zu kausalen Motoren, Systemen, die strukturelle Erklärungen der Realität bilden, testen und verfeinern.
Wenn das skaliert, wird jedes Feld, das auf kausaler Inferenz basiert – Wirtschaft, Medizin, Politik, Wissenschaft – neu geschrieben.
LLMs werden dir nicht nur sagen, was passiert.
Sie werden dir sagen, warum.

38
Dieses DeepMind-Papier hat gerade die tröstlichste Lüge in der KI-Sicherheit still und leise entlarvt.
Die Idee, dass Sicherheit damit zu tun hat, wie Modelle die meiste Zeit funktionieren, klingt vernünftig. Sie ist jedoch falsch, sobald Systeme skaliert werden. DeepMind zeigt, warum Durchschnitte irrelevant werden, wenn die Bereitstellung Millionen von Interaktionen erreicht.
Das Papier stellt die AGI-Sicherheit als ein Verteilungsproblem dar. Was zählt, ist nicht das typische Verhalten. Es ist der Schwanz. Seltene Fehler. Grenzfälle. Ereignisse mit niedriger Wahrscheinlichkeit, die in Tests ignorierbar erscheinen, aber in der realen Welt unvermeidlich werden.
Benchmarks, Red-Teaming und Demos erfassen alle die Mitte. Die Bereitstellung erfasst alles. Seltsame Benutzer, merkwürdige Anreize, feindliche Rückkopplungsschleifen, Umgebungen, für die niemand geplant hat. In großem Maßstab hören diese Fälle auf, selten zu sein. Sie sind garantiert.
Hier ist die unangenehme Einsicht: Fortschritt kann Systeme sicherer erscheinen lassen, während sie sie stillschweigend gefährlicher machen. Wenn die Fähigkeit schneller wächst als die Kontrolle über den Schwanz, sinken die sichtbaren Fehler, während das katastrophale Risiko im Hintergrund ansteigt.
Zwei Modelle können im Durchschnitt identisch aussehen und sich dennoch in ihrem schlimmsten Verhalten stark unterscheiden. Aktuelle Bewertungen können diese Lücke nicht erkennen. Governance-Rahmen gehen davon aus, dass sie das können.
Man kann Sicherheit nicht mit endlichen Tests zertifizieren, wenn das Risiko in der Verlagerung der Verteilung liegt. Man testet niemals das System, das man tatsächlich bereitstellt. Man probiert eine Zukunft aus, die man nicht kontrolliert.
Das ist die eigentliche Pointe.
AGI-Sicherheit ist kein Attribut des Modells. Es ist ein Systemproblem. Der Bereitstellungskontext, Anreize, Überwachung und wie viel Schwanzrisiko die Gesellschaft toleriert, sind wichtiger als saubere Durchschnitte.
Dieses Papier beruhigt nicht. Es entfernt die Illusion.
Die Frage ist nicht, ob das Modell normalerweise gut funktioniert.
Es ist, was passiert, wenn es das nicht tut – und wie oft das erlaubt ist, bevor die Skalierung es inakzeptabel macht.
Papier:

36
Der interne Aufforderungsstil von Anthropic ist völlig anders als das, was die meisten Menschen lehren.
Ich habe 3 Wochen damit verbracht, ihre offizielle Dokumentation, die Aufforderungsbibliothek und API-Beispiele zu analysieren.
Nur 2% der Nutzer wissen von der XML-strukturierten Aufforderung.
Hier sind alle Geheimnisse, die ich extrahiert habe 👇

35
Top
Ranking
Favoriten
