詳解 強化学習の発展と応用―ロボット制御・ゲーム開発のための実践的理論(設計技術シリーズ) [単行本]
    • 詳解 強化学習の発展と応用―ロボット制御・ゲーム開発のための実践的理論(設計技術シリーズ) [単行本]

    • ¥3,960119 ゴールドポイント(3%還元)
    • 在庫あり2025年7月19日土曜日までヨドバシエクストリームサービス便(無料)がお届け
100000009003822479

詳解 強化学習の発展と応用―ロボット制御・ゲーム開発のための実践的理論(設計技術シリーズ) [単行本]



ゴールドポイントカード・プラスのクレジット決済で「書籍」を購入すると合計12%ゴールドポイント還元!合計12%還元書籍の購入はゴールドポイントカード・プラスのクレジット決済がお得です。
通常3%ゴールドポイント還元のところ、後日付与されるクレジット決済ポイント(1%)と特典ポイント(6%)、さらにご利用明細WEBチェックにご登録いただくと2%追加して合計12%ゴールドポイント還元!詳しくはこちら

価格:¥3,960(税込)
ゴールドポイント:119 ゴールドポイント(3%還元)(¥119相当)
お届け日:在庫あり今すぐのご注文で、2025年7月19日土曜日までヨドバシエクストリームサービス便(無料)がお届けします。届け先変更]詳しくはこちら
出版社:その他
販売開始日: 2024/03/22
お取り扱い: のお取り扱い商品です。
ご確認事項:返品不可
店舗受け取りが可能です
マルチメディアAkibaマルチメディア梅田マルチメディア博多にて24時間営業時間外でもお受け取りいただけるようになりました

詳解 強化学習の発展と応用―ロボット制御・ゲーム開発のための実践的理論(設計技術シリーズ) の 商品概要

  • 目次

    第1章 強化学習とは

    1 - 1  強化学習の目的

    1 - 2  解決すべき課題

    1 - 2 - 1  間接的な教示

    1 - 2 - 2  データの収集

    1 - 2 - 3  収益の予測

    参考文献


    第2章 強化学習の基本的な問題設定

    2 - 1  マルコフ決定過程

    2 - 2  方策関数

    2 - 2 - 1  離散行動空間における方策関数

    2 - 2 - 2  連続行動空間における方策関数

    2 - 3  収益・価値関数

    2 - 3 - 1  収益の定義

    2 - 3 - 2  価値関数の導入

    2 - 3 - 3  方策オン型と方策オフ型

    2 - 4  関数近似

    2 - 4 - 1  線形関数近似

    2 - 4 - 2  非線形関数近似

    参考文献


    第3章 基本的な学習アルゴリズム

    3 - 1  価値関数の学習

    3 - 1 - 1  モンテカルロ法

    3 - 1 - 2  TD 法

    3 - 1 - 3  アドバンテージ関数

    3 - 2  価値関数の一般化

    3 - 2 - 1  n ステップTD 法

    3 - 2 - 2  TD(λ) 法

    3 - 2 - 3  適正度履歴

    3 - 3  方策関数の学習

    3 - 3 - 1  行動価値関数を用いたモデル

    3 - 3 - 2  方策勾配法

    3 - 3 - 3  Actor-Critic 法

    3 - 4  学習を支援する技術

    3 - 4 - 1  深層学習

    3 - 4 - 2  経験再生

    3 - 4 - 3  ターゲットネットワーク

    3 - 4 - 4  アンサンブル学習

    参考文献


    第4章 方策勾配法の発展

    4 - 1  重要なテクニック

    4 - 1 - 1  確率分布間の乖離度

    4 - 1 - 2  重点サンプリング

    4 - 1 - 3  再パラメータ化トリック

    4 - 2  方策更新の制限

    4 - 2 - 1  Trust Region Policy Optimization: TRPO

    4 - 2 - 2  Proximal Policy Optimization: PPO

    4 - 2 - 3  Locally Lipschitz Continuous Constraint:L2C2

    4 - 3  直接的な方策勾配の計算

    4 - 3 - 1  Deterministic Policy Gradient: DPG

    4 - 3 - 2  Twin Delayed DDPG: TD3

    4 - 4  方策エントロピーの最大化

    4 - 4 - 1  Soft Q-learning: SQL

    4 - 4 - 2  Soft Actor-Critic: SAC

    4 - 4 - 3  SAC の改良例

    参考文献


    第5章 モデルベース強化学習

    5 - 1  世界モデルの学習

    5 - 1 - 1  状態遷移確率・報酬関数の学習

    5 - 1 - 2  表現学習

    5 - 1 - 3  世界モデルの学習アルゴリズム例:PlaNet . . 132

    5 - 2  世界モデルの活用

    5 - 2 - 1  収益の推定

    5 - 2 - 2  仮想的な経験の生成

    5 - 2 - 3  プランニング

    5 - 2 - 4  プランニングの改良例

    5 - 3  残差強化学習

    参考文献


    第6章 報酬設計の課題と対策

    6 - 1  疎な報酬

    6 - 1 - 1  Hindsight Experience Replay: HER

    6 - 1 - 2  内発的動機付け

    6 - 2  多目的性

    6 - 2 - 1  セーフ強化学習

    6 - 2 - 2  多目的強化学習

    6 - 2 - 3  階層強化学習

    6 - 3  エキスパートの模倣

    6 - 3 - 1  模倣による方策の初期化

    6 - 3 - 2  逆強化学習

    6 - 4  学習難易度の調整

    6 - 4 - 1  カリキュラム学習

    6 - 4 - 2  自己競争

    参考文献


    第7章 今後の展望

    7 - 1  マルチエージェント強化学習

    7 - 2  確率推論としての強化学習

    7 - 3  生物の意思決定モデル

    参考文献

    索引

    著者紹介
    "
  • 出版社からのコメント

    入門者から中級者へ!一歩進んだ解説書
  • 内容紹介

    【まえがき】※一部抜粋



    本書では強化学習を実世界の問題に応用することを目指したい研究者(大学院生含め)や企業の技術者を主な対象にして,実応用向きの強化学習技術について紹介している.

    これらは,過度に数理的な説明に踏み込みすぎずに概念的な理解を重視して説明するよう試みたつもりである.また,最近の強化学習論文では前提となっていて丁寧に紹介してもらえないテクニックや問題意識などについても適宜まとめているので,最新論文を読む下地としても有用であろう.

    このように本書は,既存の強化学習ライブラリの利用方法をまとめたような入門書では満足できない,かと言って強化学習の詳細な数理に踏み込んで何故強化学習が上手く動くのかまで深く理解する段階ではない,いわば強化学習に入門を終えた強化学習ユーザー向けの構成となっている.

    そのため,強化学習の基礎的な内容も本書には一応載せているが,比較的簡潔に留めたつもりである.また,本書を参考に新たな強化学習アルゴリズムの開発をすることも可能だと思うが,その際は必要に応じて他書や最新論文から理論的な補強をすると良いだろう.



    本書は上記の対象を念頭に,まず1 章で強化学習の狙いや難しさを数理を一旦省いて言語的に紹介することで,大まかな思想を共有する.

    その後に,その実現に必要とされる強化学習理論や最新技術の詳細を数理的に紹介していく.具体的には,2 章で強化学習の問題設定を数理的に改めるとともに,本書で必要となる幾つかの道具を紹介する.

    3 章では,強化学習の最も基礎となる学習アルゴリズムと,近年の主流である深層強化学習で頻出の技術についてもまとめる.

    4 章では,実世界への強化学習応用に向けた,行動として実数値を扱える強化学習手法の中の最新技術を,重要となる概念・技術とともに紹介する.

    また5 章では,実世界でエージェントが効率良く学習するために有力な方法論であるモデルベース強化学習について,その基礎と応用法を分類分けしながらまとめる.

    6 章では,実世界で強化学習を利用する際の恐らく最大の悩みの種となるであろう報酬の設計に関して,様々な対応策を簡潔に紹介する.最後に7 章では,筆者が今後特に期待している強化学習に関する話題を幾つか提供する.
  • 著者紹介(「BOOK著者紹介情報」より)(本データはこの書籍が刊行された当時に掲載されていたものです)

    小林 泰介(コバヤシ タイスケ)
    2016年9月に名古屋大学大学院を短縮修了。博士(工学)取得。2016年11月から2022年3月まで奈良先端大学院大学助教。2022年4月から現在まで国立情報学研究所/総合研究大学院大学助教。その他に、2016年4月から10月まで日本学術振興会特別研究員、2018年5月から2019年3月までミュンヘン工科大学滞在研究員、2020年12月から2022年3月までJSTさきがけ研究者として従事。専門はヒューマノイドロボットを始めとする複雑なロボットの運動制御と、ロボット応用に向けた機械学習理論の開発
  • 著者について

    小林 泰介 (コバヤシ タイスケ)
    2016年9月に名古屋大学大学院を短縮修了.博士(工学)取得.

    2016年11月から2022年3月まで奈良先端大学院大学助教.

    2022年4月から現在まで国立情報学研究所/総合研究大学院大学助教.

    その他に,2016年4月から10月まで日本学術振興会特別研究員,2018年5月から2019年3月までミュンヘン工科大学滞在研究員,2020年12月から2022年3月までJSTさきがけ研究者として従事.

    専門はヒューマノイドロボットを始めとする複雑なロボットの運動制御と,ロボット応用に向けた機械学習理論の開発.

詳解 強化学習の発展と応用―ロボット制御・ゲーム開発のための実践的理論(設計技術シリーズ) の商品スペック

商品仕様
出版社名:科学情報出版
著者名:小林 泰介(著)
発行年月日:2024/03/13
ISBN-10:4910558276
ISBN-13:9784910558271
判型:A5
発売社名:科学情報出版
対象:専門
発行形態:単行本
内容:情報科学
言語:日本語
ページ数:212ページ
縦:21cm
重量:410g
他のその他の書籍を探す

    その他 詳解 強化学習の発展と応用―ロボット制御・ゲーム開発のための実践的理論(設計技術シリーズ) [単行本] に関するレビューとQ&A

    商品に関するご意見やご感想、購入者への質問をお待ちしています!