Data-centric AI入門(技術評論社) [電子書籍]
    • Data-centric AI入門(技術評論社) [電子書籍]

    • ¥3,520704 ゴールドポイント(20%還元)
    • すぐ読めます
100000086602638445

Data-centric AI入門(技術評論社) [電子書籍]

片岡裕雄 監修宮澤一之(著者)齋藤邦章(著者)清野舜(著者)小林滉河(著者)河原塚健人(著者)鈴木達哉(著者)
価格:¥3,520(税込)
ゴールドポイント:704 ゴールドポイント(20%還元)(¥704相当)
フォーマット:
専用電子書籍リーダアプリ「Doly」が必要です。無料ダウンロード
出版社:技術評論社
公開日: 2025年01月08日
すぐ読めます。
お取り扱い: のお取り扱い商品です。
ご確認事項:電子書籍リーダーアプリ「Doly」専用コンテンツ
こちらの商品は電子書籍版です

Data-centric AI入門(技術評論社) の 商品概要

  • Data-centric AIとは,機械学習の権威でありGoogleのAI研究チームを率いたAndrew Ngが2021年に提唱した,モデルよりもデータに主眼を置くというAI開発のアプローチです。過去数十年にわたりAI開発においては,固定されたデータセットに対してニューラルネットワークをはじめとしたモデルを適用し,そのモデルを改善することに関心が寄せられていました。しかし,このモデルを中心としたアプローチでは,データセットへの過度な依存やデータセットが抱える課題への無意味な適合により,実用において期待ほどモデルの性能が改善しないといった問題が指摘されています。そのため近年はモデルを固定したうえで,データ拡張,アノテーションの効率化や一貫性の担保,能動学習といったデータに工夫を加えることによってモデルの性能を向上させるアプローチに注目が集まっています。本書では,Data-centric AIの概要を解説したあとに,画像認識,自然言語処理,ロボットといった分野におけるデータを改善するための具体的なアプローチを解説します。最終章では,企業における実践的な取り組みを紹介します。
  • 目次

    第1章 Data-centric AIの概要
    1.1 Data-centric AIとは
    1.1.1 Model-centric AIとData-centric AI
    1.1.2 ラベルの一貫性
    1.1.3 データセットサイズとデータ品質との関係
    1.1.4 MLOpsの役割
    1.1.5 ビッグデータからグッドデータへ
    1.1.6 まとめ
    1.2 データセットのサイズとモデルの性能の関係
    1.3 データの品質の重要性
    1.3.1 AIシステムにおける品質特性
    1.3.2 データの品質が与える影響
    1.4 おわりに

    第2章 画像データ
    2.1 画像認識におけるData-Centric AIとは
    2.2 画像認識モデルの基礎知識
    2.2.1 代表的な画像認識タスクとデータセット
    2.2.2 CNN
    2.2.3 ViT
    2.2.4 モデルの評価方法
    2.2.5 モデルとデータのスケール
    2.3 データを拡張,生成する技術
    2.3.1 データ拡張とその恩恵
    2.3.2 人工的にデータを生成する技術
    2.4 不完全なアノテーションからの学習
    2.4.1 自己教師学習
    2.4.2 半教師付き学習
    2.4.3 モデルベースでのアノテーションデータのクリーニング方法
    2.5 画像と言語ペアの関係性を学習した基盤モデル
    2.5.1 CLIP
    2.5.2 BLIP
    2.5.3 Data-CentricなVLデータの評価とデータの安全性
    2.6 能動学習
    2.6.1 予測の不確かさに基づく考え方
    2.6.2 多様性に基づく考え方
    2.6.3 予測の不確かさとデータの多様性両方に基づく考え方
    2.7 おわりに

    第3章 テキストデータの収集と構築
    3.1 言語モデルの事前学習
    3.2 事前学習データの収集
    3.2.1 必要な事前学習データの規模
    3.2.2 データの収集戦略
    3.2.3 HTMLからの本文抽出
    3.3 ノイズ除去のためのフィルタリング
    3.3.1 なぜフィルタリングが必要か?
    3.3.2 ルールに基づくフィルタリング
    3.3.3 機械学習を用いたフィルタリング
    3.4 データからの重複除去
    3.4.1 なぜ重複除去が必要か?
    3.4.2 URLを用いた重複排除
    3.4.3 MinHash
    3.5 テキストデータ収集の限界
    3.5.1 複数エポックの利用
    3.5.2 データセットの多言語化
    3.5.3 品質の高いデータの利用
    3.6 おわりに

    第4章 大規模言語モデルのファインチューニングデータ
    4.1 ファインチューニングとは
    4.1.1 ファインチューニングの概要
    4.2 Instruction Data
    4.2.1 よいInstruction Dataとは?
    4.2.2 既存のデータを活用したデータセット作成
    4.2.3 人手によるデータセット作成
    4.2.4 大規模言語モデルによるデータセット作成
    4.3 Preference Data
    4.3.1 Preference Dataの作成方法
    4.3.2 データセット
    4.4 ファインチューニングモデルの評価
    4.4.1 評価方法
    4.4.2 定量的な指標による評価
    4.4.3 人間や大規模言語モデルによる評価
    4.4.4 評価時の注意点
    4.5 日本語における大規模言語モデルのファインチューニング
    4.5.1 日本語ファインチューニングモデルの構築
    4.5.2 日本語評価データセット
    4.6 おわりに

    第5章 ロボットデータ
    5.1 はじめに
    5.2 RTシリーズの概要
    5.2.1 RT-1
    5.2.2 RT-2
    5.2.3 RT-X
    5.2.4 その他
    5.3 多様なロボット
    5.3.1 単腕ロボット
    5.3.2 双腕ロボット
    5.3.3 台車型ロボット
    5.3.4 脚型ロボット
    5.3.5 その他のロボット
    5.4 ロボットにおけるデータ収集
    5.4.1 ユニラテラルなオンライン遠隔教示
    5.4.2 バイラテラルなオンライン遠隔教示
    5.4.3 オフライン教示
    5.5 データセット
    5.5.1 QT-Opt
    5.5.2 RoboNet
    5.5.3 BridgeData V2
    5.5.4 BC-Z
    5.5.5 Interactive Language
    5.5.6 DROID
    5.5.7 その他
    5.6 データ拡張
    5.6.1 画像データ拡張
    5.6.2 言語データ拡張
    5.7 おわりに

    第6章 Data-centric AIの実践例
    6.1 テスラ
    6.2 メタ
    6.3 チューリング
    6.4 LINEヤフー
    6.5 GO
    6.6 コンペティションとベンチマーク
    6.6.1 Data-centric AI Competition
    6.6.2 DataComp
    6.6.3 DataPerf
    6.6.4 Kaggle
    6.7 Data-centric AI実践のためのサービス
    6.7.1 Snorkel AI
    6.7.2 Cleanlab
    6.8 おわりに

Data-centric AI入門(技術評論社) の商品スペック

シリーズ名 ML Systems
Cコード 3055
出版社名 技術評論社
本文検索
他の技術評論社の電子書籍を探す
紙の本のISBN-13 9784297146634
ファイルサイズ 346.5MB
著者名 片岡裕雄 監修
宮澤一之
齋藤邦章
清野舜
小林滉河
河原塚健人
鈴木達哉
著述名 著者

    技術評論社 Data-centric AI入門(技術評論社) [電子書籍] に関するレビューとQ&A

    商品に関するご意見やご感想、購入者への質問をお待ちしています!