Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Neues Papier: Wertausrichtung in großen Sprachmodellen
Eine neue Studie untersucht den Nachtrainingsprozess von LLMs und zeigt, wie und wann diese Modelle Positionen zu umstrittenen Themen wie Einwanderung, Abtreibung und mehr einnehmen. Entgegen der weit verbreiteten Meinung zeigt die Forschung, dass die Wertausrichtung nicht hauptsächlich durch fortschrittliche Präferenzoptimierungstechniken geprägt wird, sondern vielmehr frühzeitig während des überwachten Feintunings (SFT) entsteht.
Die Studie verfolgt "Wertdrifts" – Verschiebungen in der Haltung eines Modells bei der Beantwortung von wertprobenbasierten Aufforderungen im gesamten Nachtrainingsprozess.
Anhand von Modellen wie Llama-3 und Qwen-3 untersuchten die Forscher beliebte Datensätze wie WildChat und Alpaca. Sie fanden heraus, dass SFT die dominierende Kraft bei der Etablierung des Werteprofils eines Modells ist. Beispielsweise führte das Training mit WildChat zu 95 % neutralen oder gegenteiligen Antworten auf einwanderungsbezogene Aufforderungen, während die Alpaca-Datensätze die Modelle in unterstützende Haltungen lenkten.
Diese Verschiebungen treten schnell und früh im Prozess auf und verdeutlichen, wie selbst Datensätze, die nicht ausdrücklich für das Wertlernen konzipiert sind, die Ergebnisse erheblich beeinflussen können.
Präferenzoptimierungsmethoden wie Direct Preference Optimization (DPO) und Proximal Policy Optimization (PPO) sollten diese Werte weiter verfeinern. Die Analyse ergab jedoch vernachlässigbare Drifts bei der Verwendung standardmäßiger Präferenzdatensätze.
Der Grund? Bevorzugte und abgelehnte Antworten in diesen Datensätzen weisen oft minimale Unterschiede in den Werten auf, was ein schwaches Signal für Veränderungen liefert. Konfidenzintervall-Diagramme zu Themen wie Abtreibung bestätigten, dass Modelle weitgehend ihre SFT-gelernten Profile nach der Optimierung beibehalten.
Um zu testen, ob die Präferenzoptimierung bedeutende Verschiebungen bewirken könnte, erstellten die Forscher synthetische Datensätze mit konstruierten "Wertlücken" zwischen gewählten und abgelehnten Antworten.
Hier erwies sich PO als effektiv bei der Umgestaltung von Haltungen, aber die Ergebnisse variierten je nach Algorithmus – PPO und DPO lieferten unterschiedliche Ergebnisse trotz identischer Daten. Dies unterstreicht das Zusammenspiel zwischen Datensätzen und Algorithmen in der Wertausrichtung.
Die Wertausrichtung ist ein dynamischer Verlauf, der durch jeden Schritt des Nachtrainings geprägt wird. Ohne transparente Nachverfolgung dieser Drifts riskieren Entwickler unbeabsichtigte Vorurteile.
Deshalb ist meine Methode, KI mit sehr proteinreichen Daten aus den Jahren 1870-1970 zu trainieren, entscheidend, um Drifts zu begrenzen, die aus qualitativ minderwertigen, proteinarmen Daten aus dem Internet entstehen. Nicht nur das Basistraining, sondern auch das Feintuning. Andernfalls kann man es einfach nicht beheben.
Papier—/:
Wertdrifts: Verfolgung der Wertausrichtung während des LLM-Nachtrainings
Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karol Stanczak, Vered Shwartz, Siva Reddy

Top
Ranking
Favoriten

