|
内容紹介・もくじなど
著者プロフィール
曽我部 東馬(ソガベ トウマ)
理学博士(物理学専攻)。マックス・プランク研究所(独)博士研究員、ケンブリッジ大学(英)研究員を経て、2009年帰国、株式会社グリッドの設立に携わり、取締役最高技術責任者を務める。2011年より東京大学先端科学技術研究センター特任助教、特任准教授を歴任、2016年3月電気通信大学准教授、株式会社グリッド最高技術顧問(兼務)、東京大学先端科学技術研究センター客員研究員(兼務)(本データはこの書籍が刊行された当時に掲載されていたものです) 曽我部 東馬(ソガベ トウマ)
理学博士(物理学専攻)。マックス・プランク研究所(独)博士研究員、ケンブリッジ大学(英)研究員を経て、2009年帰国、株式会社グリッドの設立に携わり、取締役最高技術責任者を務める。2011年より東京大学先端科学技術研究センター特任助教、特任准教授を歴任、2016年3月電気通信大学准教授、株式会社グリッド最高技術顧問(兼務)、東京大学先端科学技術研究センター客員研究員(兼務)(本データはこの書籍が刊行された当時に掲載されていたものです) |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
もくじ情報:第1章 平均で学ぶ強化学習の基本概念(平均と期待値;平均と価値 ほか);第2章 各アルゴリズムの特徴と応用(強化学習における方策π(a|S);動的計画法 ほか);第3章 関数近似手法(関数近似の基本概念;関数近似モデルを用いたV(St)の表現 ほか);第4章 深層強化学習の原理と手法(TD‐Q学習法におけるNNによる行動価値関数の回帰;DQNによる行動状態価値関数の近似 ほか)
もくじ情報:第1章 平均で学ぶ強化学習の基本概念(平均と期待値;平均と価値 ほか);第2章 各アルゴリズムの特徴と応用(強化学習における方策π(a|S);動的計画法 ほか);第3章 関数近似手法(関数近似の基本概念;関数近似モデルを用いたV(St)の表現 ほか);第4章 深層強化学習の原理と手法(TD‐Q学習法におけるNNによる行動価値関数の回帰;DQNによる行動状態価値関数の近似 ほか)