ジョン・シュルマン & シンキング・マシーンズ: 後悔のない LoRA LoRAは、元のモデルの各重み行列Wを、修正バージョンのW'=W+γBAW'=W+γBAに置き換えます。ここで、BとAは、Wよりもはるかに少ないパラメータを持つ行列です。 LoRAは、次の場合に完全な微調整と同様に機能します。 1. LoRAは、ネットワークのすべての層、特にほとんどのパラメータを格納するMLP / MoE層に適用されます。 2. LoRAは容量に制約がなく、学習可能なパラメータの数が学習する情報量を超えており、データセットのサイズで推定できます。 含意: 大規模な (たとえば、1 兆のパラメーター) ベース モデルは、新しいモデルのトレーニングのコストの数分の一でカスタマイズできます。
Thinking Machines の投稿: フロンティアモデルでのLoRAの計算要件に関するGemini - まだ手ごわいですが、使用されるパラメーターの数はモデル全体のサイズ(事前トレーニング)の1%未満です。
4.33K