ようこそ!
文庫
新書・選書
文芸
教養
人文
教育
芸術
児童
趣味
生活
地図・ガイド
就職・資格
語学
小学学参
中学学参
高校学参
辞典
コミック
ゲーム攻略本
エンターテイメント
日記手帳
社会
法律
経済
経営
ビジネス
理学
工学
コンピュータ
医学
看護学
薬学
出版社名:技術評論社
出版年月:2020年7月
ISBN:978-4-297-11515-9
283P 21cm
ITエンジニアのための強化学習理論入門 Pythonで学ぶアルゴリズムの動作原理
中井悦司/著
組合員価格 税込 2,950
(通常価格 税込 3,278円)
割引率 10%
在庫あり
生協宅配にてお届け
※ご注文が集中した場合、お届けが遅れる場合がございます。
内容紹介・もくじなど
強化学習の基礎となるアルゴリズムを体系的に学ぶ。
もくじ情報:1 強化学習のゴールと課題(強化学習の考え方;実行環境のセットアップ;バンディットアルゴリズム(基本編);バンディットアルゴリズム(応用編));2 環境モデルを用いた強化学習の枠組み(マルコフ決定過程による環境のモデル化;エージェントの行動ポリシーと状態価値関数;動的計画法による状態価値関数の決定);3 行動ポリシーの改善アルゴリズム(ポリシー反復法;価値反復法;より実践的な実装例);4 サンプリングデータを用いた学習法(モンテカルロ法;TD(Temporal‐Difference)法);5 ニューラルネットワークによる関数近似(ニ…(続く
強化学習の基礎となるアルゴリズムを体系的に学ぶ。
もくじ情報:1 強化学習のゴールと課題(強化学習の考え方;実行環境のセットアップ;バンディットアルゴリズム(基本編);バンディットアルゴリズム(応用編));2 環境モデルを用いた強化学習の枠組み(マルコフ決定過程による環境のモデル化;エージェントの行動ポリシーと状態価値関数;動的計画法による状態価値関数の決定);3 行動ポリシーの改善アルゴリズム(ポリシー反復法;価値反復法;より実践的な実装例);4 サンプリングデータを用いた学習法(モンテカルロ法;TD(Temporal‐Difference)法);5 ニューラルネットワークによる関数近似(ニューラルネットワークによる状態価値関数の計算;ニューラルネットワークを用いたQ‐Learning)

同じ著者名で検索した本