blog

強化学習を学ぶために習得すべき3つのスキル

教師あり学習\n現代の強化学習はほとんど深層強化学習のみに焦点を当てています。深層強化学習の「深層」とは、アルゴリズムの中核にニューラルネットワークを使用することを意味します。ニューラルネットワークは...

Apr 23, 2020 · 3 min. read
シェア

教師あり学習

現代の強化学習は、ほとんど深層強化学習だけに焦点を当てています。深層強化学習の「深層」という言葉は、アルゴリズムの中核にニューラルネットワークが使われていることを意味しています。ニューラルネットワークは、学習プロセスにおいて高次元の近似を行います。とはいえ、モデルに多くの層や特徴を持たせる必要はありません。これは、深いと多くの層を意味するという一般的な誤解です。

ほとんどのコースやチュートリアルでは、単純なニューラルネットワークを微調整して状態値を近似したり、最終的な戦略を作成したりすることを想定しています。歴史的に、これらのモデルは、学習率、バッチサイズ、モデルパラメータ、データ正規化などの学習パラメータに非常に敏感です。RL学習には多くの問題があり、それらにアプローチする最善の方法は、教師あり学習を学習し、AutoMLツールに作業を任せることです。

まずはコードを学び、そのすべてを理解し、そして再構築することから始めましょう。これを何度か繰り返せば、しっかり身につきます。教師あり学習は、今後10年間でコンピュータサイエンスのほとんどの分野に応用できるスキルでもあります。

人工知能における探索手法

RLは戦略空間における探索問題です。近年、最も影響力のある論文は、この古くからある探索問題から多大な影響を受けています。RLで最も影響力のある最近の論文を3つ見てみましょう:

  1. これまでの強化学習の最も主流な成果は、Deepmindが多くのゲームをマスターし、大規模な強化学習を行ったことです。最近では、プランニング・ネットワークを使って未来の行動を探求しています。

  2. MBPOは、より完全な知識を得るために、状態アクション空間の近傍を探索します。このモデル化された知識は、単純な探索のようなものです。

  3. モデルフリーRL研究の最先端:ソフト・アクター・クリティック.SACは、効率的な探索と高いピーク性能の組み合わせで知られています。これは、戦略のエントロピー項を最大化することによって達成されます。探索問題として、直接戦略探索はRLの最も重要な側面です。

カリフォルニア大学バークレー校やマサチューセッツ工科大学(MIT)のAIコースを受講し、プロジェクトに挑戦するのもいいでしょう。

ocw.mit.edu/courses/ele...

学術論文の理解

学術論文を読む鍵は、それを理解できるようになることだとは言っていないことに注意してください。

学術分野は急速に変化しており、活発なツイッターコミュニティでは毎日のように論文が発表されています。あなたが学ばなければならないのは、影響力のある論文を雑音から切り離し、進歩を誇大広告から見分けることです。

被引用数は差別化を図る良い方法だと思いますが、被引用数の問題ではありません。問題を提起し、実験し、解決策を提案するという軌跡をたどっているのか、それとも別のアプローチを少しずつ改良しているだけなのか。最良の論文は、数字ではなく真実を追求しています。

最高の研究は、学術的な議論の波に関係なく、最も重要な問いを探します。こうしたシグナルを見極める力を身につければ、この分野に遅れをとることなく、次の10年に向けて貴重な人材となることができるでしょう。

エピローグ

私は、強化学習の基本的なスキルに関するチュートリアルをたくさん書いて投稿してきました。

  1. マルコフ決定過程とは何ですか?
  2. 集中学習のための線形代数
  3. 強化学習の基本的な反復アプローチ。

パンチャンAIブログサイトへようこそ:

Panchuangのブログリソースラウンドアップへようこそ:

Read next

docker を使う

よく使われる docker コマンドをいくつか列挙します。詳しくは docker --help や docekr --help を参照してください。

Apr 23, 2020 · 4 min read