Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

steve hsu
Physiker, KI-Gründer, Manifold Podcast
Für Nicht-Experten: Frontier-Modelle wurden mit einem großen Teil des gesamten menschlichen Wissens trainiert - einschließlich fortgeschrittener Mathematik, Physik, Medizin und Programmierung. Sie haben enorme latente Fähigkeiten.
Kann ein relativ kostengünstiger "Feinabstimmungs"-Prozess (in diesem Fall LoRA) das Modell anpassen, um es für einen bestimmten Anwendungsfall nützlicher zu machen?
Das ist es, was Thinking Machines erforscht. Beachten Sie, dass dies auf den Zugang zu Open-Source-Frontier-Modellen angewiesen ist.

steve hsuVor 15 Stunden
John Schulman & Thinking Machines: LoRA ohne Bedauern
LoRA ersetzt jede Gewichtsmatrix W des ursprünglichen Modells durch eine modifizierte Version W’=W+γBAW’=W+γBA, wobei B und A Matrizen sind, die zusammen deutlich weniger Parameter als W haben.
LoRA funktioniert ähnlich wie das vollständige Fine-Tuning, wenn:
1. LoRA auf alle Schichten des Netzwerks angewendet wird, insbesondere auf die MLP/MoE-Schichten, die die meisten Parameter enthalten.
2. LoRA nicht kapazitätsbeschränkt ist, d.h. die Anzahl der trainierbaren Parameter die Menge an Informationen übersteigt, die gelernt werden soll, was in Bezug auf die Datensatzgröße geschätzt werden kann.
Implikationen: Große (z.B. Billionen-Parameter) Basismodelle können zu einem Bruchteil der Kosten eines neuen Modells angepasst werden.

2,07K
Ja, die Regierung der VR China berichtet absichtlich zu niedrig über die Wirtschaft. Es ist ein Überbleibsel aus der früheren "hide and bide"-Ära.
Dafür können wir die westlichen Ökonomen nicht verantwortlich machen, außer dass sie mehr gesunden Menschenverstand haben sollten, um die Zahlen zu überprüfen, um zu sehen, ob sie realistisch sind.
(Die Situation ist ziemlich komplex, da einige ihrer Wachstumszahlen manchmal übertrieben sein könnten, während sie in den offiziellen BIP-Zahlen bedeutendere Dinge wie den Wert von Dienstleistungen, Wohnraum usw. unterberichten.)

L.WVor 13 Stunden
Die heimische Regierung möchte wahrscheinlich nicht in der offiziellen Erklärung des BIP die USA übertreffen.
Dieser Standort ist jetzt gut.
Die US-Regierung möchte auch nicht, dass China die USA im BIP übertrifft.
Dieser Standort ist jetzt gut.
18,75K
John Schulman & Thinking Machines: LoRA ohne Bedauern
LoRA ersetzt jede Gewichtsmatrix W des ursprünglichen Modells durch eine modifizierte Version W’=W+γBAW’=W+γBA, wobei B und A Matrizen sind, die zusammen deutlich weniger Parameter als W haben.
LoRA funktioniert ähnlich wie das vollständige Fine-Tuning, wenn:
1. LoRA auf alle Schichten des Netzwerks angewendet wird, insbesondere auf die MLP/MoE-Schichten, die die meisten Parameter enthalten.
2. LoRA nicht kapazitätsbeschränkt ist, d.h. die Anzahl der trainierbaren Parameter die Menge an Informationen übersteigt, die gelernt werden soll, was in Bezug auf die Datensatzgröße geschätzt werden kann.
Implikationen: Große (z.B. Billionen-Parameter) Basismodelle können zu einem Bruchteil der Kosten eines neuen Modells angepasst werden.

4,31K
Top
Ranking
Favoriten