トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
ロボドーパミン:ロボットの精密さにおけるゲームチェンジャー – 人間の直感を模倣したプロセス報酬!
この画期的な論文は、ロボット学習を粗雑な成果ベースの報酬から高度なプロセス指向のものへと移行させるフレームワーク「ロボドーパミン」を紹介します。
3,400+時間の膨大なマルチビューデータセットで訓練することで、彼らのGeneral Reward Model(GRM)は操作進捗を評価する際に92.8%の精度を達成し、これまでにないほどの視点を融合させてオクルーズや細かいディテールを処理しています。
タオルの折りたたみやキューブの積み重ねなどの作業を比較した実際のテストでは、Dopamine-RLポリシーがわずか150回の展開で成功率を95%にまで急上昇させ、ロボットの時間は約1時間に相当します!
興味深い洞察:
・従来の報酬形成における「意味の罠」を回避し、最適でないループに陥ることなく最適化されるポリシーを保証します。これは信頼できるAIにとって理論的な勝利です。
・大まかに一般化:シムから実際の見えないオブジェクトやレイアウトへと、OOD(外景)シナリオでは8〜20%しか減少せず、競合他社は50〜60%にとどまります。
・その影響は?外科医、工場、ホームアシスタントは、人間のような繊細な操作を人間のような手つきで扱い、ミスを削減し、訓練時間を確保することができるようになる。
今日これをテストしてみます!
全文論文:–

トップ
ランキング
お気に入り
