DeepSeek-R1の訓練方法が「ネイチャー」に掲載―中国メディア

人民網日本語版    
facebook X mail url copy

拡大

DeepSeek-R1の訓練方法がネイチャーに掲載された。

DeepSeek-AIチームの梁文鋒氏とその同僚は17日に学術誌ネイチャーで、オープンソース人工知能(AI)モデル「DeepSeek-R1」が採用する大規模推論モデルの訓練方法を発表した。研究によると、大規模言語モデル(LLM)の推論能力は純粋な強化学習によって向上させることができ、それによって性能向上に必要な人間の入力作業量を削減できる。訓練されたモデルは数学、プログラミング競技、STEM分野の大学院レベルの課題といったタスクにおいて、従来の訓練を受けたLLMよりも優れた性能を示すとしている。科技日報が伝えた。

DeepSeek-R1には、推論プロセスの最適化を目的とする、人間の監督下で行う深層トレーニング段階が含まれている。梁氏のチームの報告によると、このモデルは推論ステップの開発において人間が示す事例ではなく、強化学習を採用することで、訓練コストと複雑性を低減させている。

DeepSeek-R1は、優れた問題解決の事例を提示されると、それを基に推論プロセスを生成するテンプレートを得る。つまり、このモデルは問題を解くことでインセンティブを得て、強化学習の効果を高めることができることを意味している。チームは、今後の研究ではインセンティブプロセスの最適化に焦点を当てることで、推論とタスク結果の信頼性を高められるとまとめている。

AIのパフォーマンスを評価する数学ベンチマークテストにおいて、DeepSeek-R1-Zeroの得点は77.9%、DeepSeek-R1は79.8%だった。プログラミング競技や大学院レベルの生物学、物理、化学の問題でも優れたパフォーマンスを示している。(提供/人民網日本語版・編集/YF)

※本記事はニュース提供社の記事であり、RecordChinaの立場を代表するものではありません。すべてのコンテンツの著作権は、ニュース提供社に帰属します。

noteに華流エンタメ情報を配信中!詳しくはこちら


   

we`re

RecordChina

お問い合わせ

Record China・記事へのご意見・お問い合わせはこちら

お問い合わせ

業務提携

Record Chinaへの業務提携に関するお問い合わせはこちら

業務提携