最近、事前学習のためのRLに関する多くの論文があります。もちろんこれがうまくいくのはわかりませんが、文字通りトークンのためにCoTをサンプリングしているのはとても厄介な感じです。これは、潜在的な推論が明らかに望ましい唯一の場所です。 それにもかかわらず、有効です。サットンに対するもう一つの反論。