強化学習アルゴリズム [単行本]
    • 強化学習アルゴリズム [単行本]

    • ¥4,840146 ゴールドポイント(3%還元)
    • お取り寄せ
100000009004170899

強化学習アルゴリズム [単行本]



ゴールドポイントカード・プラスのクレジット決済で「書籍」を購入すると合計12%ゴールドポイント還元!合計12%還元書籍の購入はゴールドポイントカード・プラスのクレジット決済がお得です。
通常3%ゴールドポイント還元のところ、後日付与されるクレジット決済ポイント(1%)と特典ポイント(6%)、さらにご利用明細WEBチェックにご登録いただくと2%追加して合計12%ゴールドポイント還元!詳しくはこちら

価格:¥4,840(税込)
ゴールドポイント:146 ゴールドポイント(3%還元)(¥146相当)
お届け日:お取り寄せこの商品は、日時を指定できません。届け先変更]詳しくはこちら
出版社:コロナ社
販売開始日: 2025/11/05
お取り扱い: のお取り扱い商品です。
ご確認事項:返品不可
店舗受け取りが可能です
マルチメディアAkibaマルチメディア梅田マルチメディア博多にて24時間営業時間外でもお受け取りいただけるようになりました

強化学習アルゴリズム [単行本] の 商品概要

  • 目次

    ☆発行前情報のため,一部変更となる場合がございます

    1.数学的な準備
    1.1 確率 
     1.1.1 多変数の確率 
     1.1.2 期待値 
     1.1.3 最尤法と最小二乗法の関係 
     1.1.4 最尤法と交差エントロピー損失 
     1.1.5 偏差と分散 
    1.2 強化学習でよく使われる情報量 
     1.2.1 エントロピー 
     1.2.2 カルバック・ライブラー情報量 
     1.2.3 forward KL 情報量とreverse KL 情報量 
     1.2.4 f-ダイバージェンス 
     1.2.5 Wasserstein距離 
     1.2.6 相互情報量 
     1.2.7 エントロピー正則化とボルツマン分布 
    1.3 ブラックボックス最適化アルゴリズム 
     1.3.1 reward-weighted regression 
     1.3.2 クロスエントロピー法 

    2.強化学習の定式化
    2.1 強化学習とはどんなものか 
    2.2 マルコフ決定過程 
     2.2.1 マルコフ性とマルコフ決定過程 
     2.2.2 強化学習とバンディット問題 
     2.2.3 マルコフ決定過程における軌道の分布 
     2.2.4 リターン,状態価値関数,行動価値関数 
     2.2.5 強化学習における行動の探索と方策の評価の基本 
    2.3 強化学習の種類 
     2.3.1 オンポリシー型とオフポリシー型 
     2.3.2 価値関数ベースと方策ベース 
     2.3.3 オンライン強化学習とオフライン強化学習 
     2.3.4 モデルフリー強化学習とモデルベース強化学習 
     2.3.5 エピソードベースとステップベース 
     2.3.6 強化学習と模倣学習 

    3.価値関数の学習
    3.1 ベルマン方程式 
     3.1.1 状態価値関数が満たすベルマン方程式 
     3.1.2 行動価値関数が満たすベルマン方程式 
     3.1.3 ベルマン最適方程式 
    3.2 価値関数の推定とベルマン作用素の収束性 
     3.2.1 SARSA法による行動価値関数の推定 
     3.2.2 行動価値関数のベルマン作用素の収束性 
     3.2.3 状態価値関数の推定とベルマン作用素の収束性 
     3.2.4 ベルマン最適作用素とその収束性 
    3.3 Q学習 
     3.3.1 深層Q学習 
     3.3.2 Q学習における行動価値の目標値の過大推定 
     3.3.3 行動価値の過大推定への対処法 
     3.3.4 行動価値の分布を学習するQ学習 
     3.3.5 優先度付き再生 
     3.3.6 連続な行動空間のためのQ学習 
    3.4 偏差と分散のバランスを考慮した累積報酬の計算 
     3.4.1 リターンの推定における偏差と分散 
     3.4.2 n-stepリターン 
     3.4.3 λ-リターン 
     3.4.4 TD(λ) 
     3.4.5 generalized advantage estimation 

    4.オンポリシー型の方策の学習
    4.1 方策の学習のアプローチ 
     4.1.1 価値反復法 
     4.1.2 方策反復法 
    4.2 方策勾配法 
     4.2.1 サンプリングベースの方策勾配の導出 
     4.2.2 REINFORCEアルゴリズム 
     4.2.3 REINFORCEアルゴリズムにおける方策勾配の偏差と分散 
    4.3 近似した価値関数を用いた方策勾配法 
     4.3.1 価値関数を用いた方策勾配の導出 
     4.3.2 関数近似を用いた方策勾配による方策の学習 
     4.3.3 actor-critic法における適合的な関数近似 
     4.3.4 ベースライン関数を用いた分散低減 
    4.4 自然方策勾配とKL情報量に基づく拘束を用いた方策の更新 
     4.4.1 自然勾配 
     4.4.2 自然方策勾配 
     4.4.3 重要度サンプリングを用いた方策勾配 
     4.4.4 KL 情報量の拘束を用いた方策勾配 
     4.4.5 trust region policy optimization(TRPO)アルゴリズム 
     4.4.6 proximal policy optimization(PPO)アルゴリズム 
    4.5 オンポリシー型のアルゴリズムの実験的比較 

    5.オフポリシー型の方策の学習
    5.1 決定論的方策を用いたアルゴリズム 
     5.1.1 決定論的方策 
     5.1.2 決定論的方策に対する方策勾配 
     5.1.3 deep deterministic policy gradient(DDPG) 
     5.1.4 twin delayed deep deterministic policy gradient(TD3) 
    5.2 密度推定としての方策学習 
     5.2.1 リターン重み付き尤度最大化による方策の学習 
     5.2.2 軌道ベースでの重み付き尤度最大化 
     5.2.3 ステップベースでの重み付き尤度最大化 
     5.2.4 正則化付き強化学習と密度推定による方策の学習 
     5.2.5 密度推定としての方策の学習におけるKL情報量の最小化 
    5.3 エントロピー正則化付き強化学習アルゴリズム 
     5.3.1 エントロピー正則化付き強化学習における目的関数および価値関数 
     5.3.2 soft actor-criticアルゴリズム 
     5.3.3 エントロピー正則化付き強化学習とボルツマン分布の関係 
    5.4 KL 情報量による拘束を用いたオフポリシー型actor-critic法 
     5.4.1 軌道ベースでの議論/relative entropy policy search 
     5.4.2 ステップベースでのKL情報量に基づく正則化 
     5.4.3 maximum a posteriori policy optimization(MPO)アルゴリズム 
    5.5 オフポリシー型actor-critic法の学習効率を高める工夫 
     5.5.1 サンプル当りの方策の更新回数を効果的に増やすための工夫 
     5.5.2 行動価値関数の目標値の分布の非対称性に対する工夫 
    5.6 オフポリシー型のアルゴリズムの実験的比較 

    6.オフライン強化学習アルゴリズム
    6.1 オフライン強化学習の問題設定 
    6.2 オフライン強化学習における方策に対する正則化 
     6.2.1 TD3+BC 
     6.2.2 advantage-weighted actor-critic(AWAC) 
    6.3 価値関数の学習に対する正則化 
     6.3.1 conservative Q-learning 
     6.3.2 behavior regularized actor-critic 
    6.4 サンプル内学習による価値関数の学習 
    6.5 データの多峰性に対応した方策モデルの使用 
     6.5.1 混合モデルを用いた方策 
     6.5.2 拡散モデルを用いた方策 
    6.6 密度比に基づいたオフライン強化学習アルゴリズム 
     6.6.1 フェンシェル共役 
     6.6.2 密度比推定アルゴリズム:DualDICE 
     6.6.3 オフラインデータによる方策の更新 
    6.7 オフライン強化学習アルゴリズムの性能比較 

    7.モデルベース強化学習
    7.1 モデルベース強化学習アルゴリズムの分類 
    7.2 最適制御に基づくアプローチ 
     7.2.1 反復型線形二次制御 
     7.2.2 guided policy search 
    7.3 近似された状態遷移モデルを用いたモデル予測制御 
    7.4 仮想的なサンプルによる方策の学習 
    7.5 状態遷移モデルを通した誤差伝播による方策の学習 
    7.6 状態遷移モデルの表現と学習 

    8.発展的話題
    8.1 目標条件付き方策とその訓練 
     8.1.1 目標条件付き価値関数 
     8.1.2 目標条件付き方策の訓練 
    8.2 階層型強化学習 
     8.2.1 階層型方策 
     8.2.2 階層型強化学習のメリット 
     8.2.3 階層型強化学習の難しさ 
     8.2.4 下位方策の事前訓練 
    8.3 内的報酬による強化学習 
     8.3.1 状態遷移モデルに基づく内的報酬 
     8.3.2 試行錯誤データ内の状態の分布に基づく内的報酬 
    8.4 複数の挙動を同時に学習する強化学習 
     8.4.1 潜在変数に条件付けられた方策と価値関数 
     8.4.2 複数の最適な方策を学習するための方策の訓練 
     8.4.3 メタ強化学習における潜在変数に条件付けられた方策の訓練 
    8.5 マルチモーダルな生成モデルと強化学習 
     8.5.1 ロボティクスにおける状態と行動を含むデータセット 
     8.5.2 ロボティクスにおけるマルチモーダルな生成モデル 
     8.5.3 ロボティクスにおけるマルチモーダル生成モデルの訓練法 
     8.5.4 ロボティクス分野における生成モデルの評価 
     8.5.5 生成モデルの行動生成における役割 
     8.5.6 強化学習やロボティクスにおける生成モデルに関する考察 

    引用・参考文献
    索引
  • 内容紹介

    【読者対象】
    本書は、強化学習について網羅的に勉強してみたいと考える方に向けて書かれています。具体的には、大学学部後半(3・4年生)で強化学習をこれから勉強したいと考える学部生や、強化学習を自分の研究や開発に使ってみたいと考えている大学院生、社会人の方々に向けて書かれています。強化学習の勉強を独学してみたけれど、自力で最近の論文を理解するには至っていない、という方におすすめです。

    【書籍の特徴】
    本書の特徴は、最新の強化学習に関する論文を理解するために必要な前提知識を幅広く網羅している点にあります。基礎的な内容もカバーしつつ、発展的な内容も解説しています。本書を読んだ後、強化学習に関する最新の論文を読んだ時「この部分はあの本に書いてあったな…」と思ってもらえることを目指して書いてあります。

    【各章について】
    1章では、強化学習アルゴリズムを理解するために必要な数学的な知識を簡単にまとめています。
    続けて2章では、マルコフ決定過程をはじめとする、強化学習の定式化について述べています。また、強化学習アルゴリズムの分類なども紹介します。3章では、強化学習において重要な役割を果たす、価値関数の学習について解説します。4章では、REINFORCEアルゴリズムなどの古典的なアルゴリズムから始めて、PPOなどの最近でもよく使われているものまで、オンポリシー型のアルゴリズムについて述べています。5章では、オンポリシー型よりも高い学習効率をしばしば発揮するオフポリシー型のアルゴリズムについて説明します。6章では、事前に収集されたデータを活用するアルゴリズムである、オフライン強化学習アルゴリズムについて説明しています。7章では、状態遷移モデルを活用したアプローチである、モデルベース強化学習について述べています。最後の8章では、内発的報酬による強化学習や、目標条件付き強化学習、生成モデルをつかったアプローチなどに関する発展的な内容に触れています。

    【著者からのメッセージ】
    強化学習は大規模言語モデルなどにも用いられて注目を集めていますが、強化学習に関する研究開発を行える人材は、日本ではまだまだ足りていません。本書が、強化学習をこれから自分の研究に役立てていきたい、という志を持っている方のお役に立てれば幸いです。

    【キーワード】
    強化学習、機械学習、ロボット学習、意思決定、深層学習、方策勾配、マルコフ決定過程、Q学習、ロボティクス、生成モデル

    図書館選書
    強化学習の論文の理解に必要な知識を網羅し,研究者に広く利用されている知識・手法を可能な限り解説。さらなる応用が期待される強化学習アルゴリズムについて,論文を読み,最新の研究動向を理解する力を得ることを目指す。
  • 著者紹介(「BOOK著者紹介情報」より)(本データはこの書籍が刊行された当時に掲載されていたものです)

    長 隆之(オサ タカユキ)
    2007年東京大学工学部産業機械工学科卒業。2025年理化学研究所チームディレクター

強化学習アルゴリズム [単行本] の商品スペック

商品仕様
出版社名:コロナ社
著者名:長 隆之(著)
発行年月日:2025/11/25
ISBN-10:433902953X
ISBN-13:9784339029536
判型:B5
発売社名:コロナ社
対象:専門
発行形態:単行本
内容:電子通信
言語:日本語
ページ数:252ページ
縦:26cm
横:18cm
他のコロナ社の書籍を探す

    コロナ社 強化学習アルゴリズム [単行本] に関するレビューとQ&A

    商品に関するご意見やご感想、購入者への質問をお待ちしています!