Trend-Themen
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
Ich experimentiere mit dem Training eines kleinen 11M-Parameter-Zeichenebenen-Textdiffusionsmodells!
Es ist ein WIP, aber der Code ist derzeit eine stark modifizierte Nanochat-GPT-Implementierung (um von autoregressivem Decoding zu Diffusion zu wechseln) und wurde mit dem Tiny Shakespeare-Datensatz trainiert.
Die naive Implementierung eines Maskierungsplans hat eine uniforme Maskierungswahrscheinlichkeit für jedes Token in jeder Iteration. Neuere Ansätze maskieren in Blockstücken von links nach rechts, was die Ausgabequalität verbessert und eine gewisse Wiederverwendung des KVCache ermöglicht.
Ich habe festgestellt, dass man Maskierung tatsächlich auf jede beliebige Weise während des Generierungsprozesses anwenden kann. Unten sehen Sie, dass ich die Maskierung basierend auf den Regeln von Conways Spiel des Lebens angewendet habe.
Ich frage mich, ob es ungewöhnliche Maskierungsstrategien wie diese gibt, die Vorteile bieten. Unabhängig davon ist dies eine sehr interessante und faszinierende Möglichkeit, Text zu korrumpieren und zu deformieren.
Top
Ranking
Favoriten

