拡大
DeepSeek-R1の訓練方法がネイチャーに掲載された。
DeepSeek-AIチームの梁文鋒氏とその同僚は17日に学術誌ネイチャーで、オープンソース人工知能(AI)モデル「DeepSeek-R1」が採用する大規模推論モデルの訓練方法を発表した。研究によると、大規模言語モデル(LLM)の推論能力は純粋な強化学習によって向上させることができ、それによって性能向上に必要な人間の入力作業量を削減できる。訓練されたモデルは数学、プログラミング競技、STEM分野の大学院レベルの課題といったタスクにおいて、従来の訓練を受けたLLMよりも優れた性能を示すとしている。科技日報が伝えた。
DeepSeek-R1には、推論プロセスの最適化を目的とする、人間の監督下で行う深層トレーニング段階が含まれている。梁氏のチームの報告によると、このモデルは推論ステップの開発において人間が示す事例ではなく、強化学習を採用することで、訓練コストと複雑性を低減させている。
DeepSeek-R1は、優れた問題解決の事例を提示されると、それを基に推論プロセスを生成するテンプレートを得る。つまり、このモデルは問題を解くことでインセンティブを得て、強化学習の効果を高めることができることを意味している。チームは、今後の研究ではインセンティブプロセスの最適化に焦点を当てることで、推論とタスク結果の信頼性を高められるとまとめている。
AIのパフォーマンスを評価する数学ベンチマークテストにおいて、DeepSeek-R1-Zeroの得点は77.9%、DeepSeek-R1は79.8%だった。プログラミング競技や大学院レベルの生物学、物理、化学の問題でも優れたパフォーマンスを示している。(提供/人民網日本語版・編集/YF)
Record China
2025/9/18
Record China
2025/9/18
Record China
2025/9/18
Record China
2025/9/18
Record China
2025/9/18
Record China
2025/9/17