生成AIアプリケーション評価入門(技術評論社) [電子書籍]
    • 生成AIアプリケーション評価入門(技術評論社) [電子書籍]

    • ¥2,640792 ゴールドポイント(30%還元)
    • ただいま予約受付中!2026年05月01日12:00:00からお読みいただけます
100000086603235846

生成AIアプリケーション評価入門(技術評論社) [電子書籍]

松木晋祐(著者)
価格:¥2,640(税込)
ゴールドポイント:792 ゴールドポイント(30%還元)(¥792相当)
フォーマット:
専用電子書籍リーダーアプリ「Doly」が必要です。無料ダウンロード
お届け日:ただいま予約受付中!
出版社:技術評論社
公開日時:2026年05月01日12:00:00からお読みいただけます。
お取り扱い: のお取り扱い商品です。
ご確認事項:電子書籍リーダーアプリ「Doly」専用コンテンツ
こちらの商品は電子書籍版です

生成AIアプリケーション評価入門(技術評論社) の 商品概要

  • 生成AIを活用したアプリケーションは,リサーチ,ソフトウェア開発,各種創作活動の補助等,さまざまな知的労働において,欠かせないパートナーとなりつつあります。従来の演繹的なロジックの積み重ねにより構築されたソフトウェアと構造的に異なる生成AIアプリケーションは,その性質上,次の特徴を持ちます。
    ・確率的出力:同じ入力に対して,常に同じ出力が得られるとは限らない
    ・複雑な挙動:入力と出力の関係が明確ではなく,ブラックボックス的な側面がある
    ・文脈依存性:過去のやり取りや外部情報によって出力が変化する
    これらの特徴から,生成AIアプリケーションの品質を保証するためには,従来のソフトウェアテストとは異なる手法によるテストと評価が不可欠となります。
    本書では,生成AIを活用したアプリケーション,システムに焦点をあてて,そのテスト,評価のアプローチを紹介していきます。
  • 目次

    第1章 生成AIアプリケーションの評価の概要
    1.1 生成AIアプリケーションの特徴と評価の必要性
    1.1.1 確率的出力とその影響
    1.1.2 ブラックボックス的な内部処理
    1.1.3 文脈依存性とダイナミックな挙動
    1.1.4 評価の必要性とその背景
    1.1.5 テストと評価のちがい
    1.2 生成AIアプリケーションの基本的な構造モデルと評価プロセスモデル
    1.2.1 生成AIアプリケーションの基本的な構造モデル
    1.2.2 生成AIアプリケーションの評価プロセスモデル
    1.2.3 フライホイールの形成とQAエンジニアの役割
    1.3 開発ライフサイクルにおける生成AIアプリケーションの評価アプローチ
    1.3.1 要件定義と設計フェーズ
    1.3.2 実装および単体テストフェーズ
    1.3.3 統合テストとシステムテスト.
    1.3.4 デプロイメントと運用フェーズ
    1.4 まとめ
    第2章 生成AIアプリケーションの評価基盤モデルと評価アプローチ
    2.1 生成AIアプリケーションの品質モデル
    2.1.1 AIシステムの製品品質モデルISO/IEC 25059:2023
    2.1.2 ISO/IEC 25059:2023 Quality in use 社会的・倫理的リスクの低減性
    2.2 機械学習利用システムの外部品質特性レベル
    2.2.1 リスク回避性
    2.2.2 AIパフォーマンス
    2.2.3 公平性
    2.2.4 プライバシー
    2.2.5 AIセキュリティ
    2.3 品質モデルとテストタイプを組み合わせて
    テスト計画を構成することの是非
    2.3.1 テストの目的と手法が不明確になる
    2.3.2 すべての特性をテスト計画に織り込んでしまう
    2.3.3 テストの重複や抜け漏れが発生する可能性がある
    2.4 生成AIアプリケーションの基盤評価モデル
    2.4.1 評価観点基盤モデルとは
    2.4.2 評価観点基盤モデルの解説
    2.5 評価観点基盤モデルにもとづく製品独自の評価観点モデルの構築とメトリクス設計
    2.5.1 評価観点の取捨選択
    2.5.2 タスク固有の指標に対する観点の創出
    2.5.3 製品独自の評価観点モデル
    2.5.4 評価メトリクスの設計
    2.6 生成AIアプリケーション開発における開発チームとQAチームの役割分担の例
    2.6.1 基盤アプリケーション層
    2.6.2 基盤モデル層
    2.6.3 チューニング層から出力調整層まで
    2.6.4 生成AIアプリケーション層
    2.7 まとめ
    第3章 基本的な評価メトリクス
    3.1 混同行列にもとづくメトリクス
    3.1.1 混同行列とは
    3.1.2 具体例 ―メールのスパム判定
    3.2 検索・RAG向けの基本的なメトリクス
    3.2.1 Recall@k/Hit@k. ―「上位k件に正解が入っているか」を測る
    3.2.2 Precision@k. ―「上位k件の純度」を測る
    3.2.3 F1@k ―Recallと適合率を単一スコアに集約
    3.3 生成テキストの内容一致の基本的なメトリクス
    3.3.1 EM ―「出力の完全一致率」を測る
    3.3.2 BLEU・ROUGE-N/L ―「n-gram重複で内容類似度」を測る
    3.3.3 WER・CER ―「編集距離でズレ量」を測る
    3.4 各メトリクスを実際に運用する
    3.5 まとめ
    第4章 評価メトリクスのツールによる評価の実際
    4.1 LLMを評価者として利用する「LLM-as-a-Judge」
    4.2 メトリクスの評価環境の構築
    4.2.1 Google Colab上にLlama2環境を構築する
    4.2.2 DeepEvalを利用する準備をする
    4.3 評価の実行
    4.3.1 出力テキストの関連性の評価
    4.3.2 G-Evalを利用した出力テキストの正確性の評価
    4.3.3 出力テキストのバイアスの評価
    4.3.4 出力テキストの毒性の評価
    4.3.5 出力テキストのハルシネーションの評価
    4.4 pytestと統合した利用
    4.5 まとめ
    第5章 生成AIアプリケーションのセキュリティ評価
    5.1 OWASP LLMとは
    5.1.1 OWASP GenAI Security ProjectとOWASP LLM Top 10
    5.1.2 OWASP LLM 2023/2024から2025への推移
    5.2 OWASP LLM2025
    5.2.1 LLM01:2025 プロンプトインジェクション
    5.2.2 LLM02:2025 機密情報の漏えい
    5.2.3 LLM02:2025 サプライチェーン
    5.2.4 LLM04:2025 データ・モデルポイズニング
    5.2.5 LLM05:2025 不適切な出力処理
    5.2.6 LLM06:2025 過度な自律性
    5.2.7 LLM07:2025 システムプロンプトの漏えい
    5.2.8 LLM08:2025 ベクトル/埋め込みの脆弱性
    5.2.9 LLM09:2025 誤情報
    Column 航空会社のチャットボットが誤った案内をし,顧客が訴訟にいたったケース
    5.2.10 LLM10:2025 無制限なリソース消費
    5.3 生成AI・LLMのセキュリティテスト・レッドチーミング
    5.3.1 レッドチーミングとは
    5.3.2 LLMレッドチーミングフレームワーク「DeepTeam」
    5.3.3 仮想のチャットアプリケーションのシステムプロンプトを奪取する
    5.4 まとめ
    第6章 AIエージェントの評価
    6.1 AIエージェントとは
    6.1.1 定義と特徴
    6.1.2 代表的な利用例
    6.2 AIエージェントのパターンと構造・評価観点の例
    6.2.1 シングルエージェントパターン
    6.2.2 マルチエージェントパターン
    6.3 AIエージェントの評価メトリクス
    6.3.1 ツール:DeepEvalの評価メトリクス
    6.3.2 プラットフォーム:Azure AI Serviceブログによる評価メトリクス
    6.3.3 サーベイ:Survey on Evaluation of LLM-based Agentsの評価メトリクス
    6.3.4 各視点における評価メトリクスの焦点
    6.4 まとめ
    第7章 生成AIアプリケーションのテスト・評価のその他のトピック
    7.1 プロパティベースドテスト
    7.2 画像分析型の生成AIアプリケーションの評価
    7.2.1 画像分析型の生成AIアプリケーションの身近な例
    7.2.2 I2T生成AIアプリケーションのテスト観点基盤モデル
    7.2.3 画像分析のメトリクス
    7.2.4 セキュリティのメトリクス
    7.2.5 IT2型についてのまとめ
    7.3 AI駆動開発のテスト・QA
    7.3.1 AI駆動開発とは
    7.3.2 AI駆動開発におけるリスク
    7.3.3 AI駆動開発におけるリスクに対応するためのテスト・QA

生成AIアプリケーション評価入門(技術評論社) の商品スペック

Cコード 3305
出版社名 技術評論社
本文検索
紙の本のISBN-13 9784297156145
他の技術評論社の電子書籍を探す
ファイルサイズ 5.2MB
著者名 松木晋祐
著述名 著者

    技術評論社 生成AIアプリケーション評価入門(技術評論社) [電子書籍] に関するレビューとQ&A

    商品に関するご意見やご感想、購入者への質問をお待ちしています!