Data-centric AI入門(ML Systems) [単行本]
    • Data-centric AI入門(ML Systems) [単行本]

    • ¥3,520106 ゴールドポイント(3%還元)
    • 在庫あり2025年7月18日金曜日までヨドバシエクストリームサービス便(無料)がお届け
100000009003996331

Data-centric AI入門(ML Systems) [単行本]



ゴールドポイントカード・プラスのクレジット決済で「書籍」を購入すると合計12%ゴールドポイント還元!合計12%還元書籍の購入はゴールドポイントカード・プラスのクレジット決済がお得です。
通常3%ゴールドポイント還元のところ、後日付与されるクレジット決済ポイント(1%)と特典ポイント(6%)、さらにご利用明細WEBチェックにご登録いただくと2%追加して合計12%ゴールドポイント還元!詳しくはこちら

価格:¥3,520(税込)
ゴールドポイント:106 ゴールドポイント(3%還元)(¥106相当)
フォーマット:
お届け日:在庫あり今すぐのご注文で、2025年7月18日金曜日までヨドバシエクストリームサービス便(無料)がお届けします。届け先変更]詳しくはこちら
出版社:技術評論社
販売開始日: 2025/01/08
お取り扱い: のお取り扱い商品です。
ご確認事項:返品不可
店舗受け取りが可能です
マルチメディアAkibaマルチメディア梅田マルチメディア博多にて24時間営業時間外でもお受け取りいただけるようになりました

Data-centric AI入門(ML Systems) の 商品概要

  • 要旨(「BOOK」データベースより)

    高品質なデータを設計・開発する技術。
  • 目次

    まえがき
    第1章 Data-centric AIの概要
    1.1 Data-centric AIとは
    1.1.1 Model-centric AIとData-centric AI
    1.1.2 ラベルの一貫性
    1.1.3 データセットサイズとデータ品質との関係
    1.1.4 MLOpsの役割
    1.1.5 ビッグデータからグッドデータへ
    1.1.6 まとめ
    1.2 データセットのサイズとモデルの性能の関係
    1.3 データの品質の重要性
    1.3.1 AIシステムにおける品質特性
    1.3.2 データの品質が与える影響
    1.4 おわりに

    第2章 画像データ
    2.1 画像認識におけるData-Centric AIとは
    2.2 画像認識モデルの基礎知識
    2.2.1 代表的な画像認識タスクとデータセット
    2.2.2 CNN
    2.2.3 ViT
    2.2.4 モデルの評価方法
    2.2.5 モデルとデータのスケール
    2.3 データを拡張、生成する技術
    2.3.1 データ拡張とその恩恵
    2.3.2 人工的にデータを生成する技術
    2.4 不完全なアノテーションからの学習
    2.4.1 自己教師学習
    2.4.2 半教師付き学習
    2.4.3 モデルベースでのアノテーションデータのクリーニング方法
    2.5 画像と言語ペアの関係性を学習した基盤モデル
    2.5.1 CLIP
    2.5.2 BLIP
    2.5.3 Data-CentricなVLデータの評価とデータの安全性
    2.6 能動学習
    2.6.1 予測の不確かさに基づく考え方
    2.6.2 多様性に基づく考え方
    2.6.3 予測の不確かさとデータの多様性両方に基づく考え方
    2.7 おわりに

    第3章 テキストデータの収集と構築
    3.1 言語モデルの事前学習
    3.2 事前学習データの収集
    3.2.1 必要な事前学習データの規模
    3.2.2 データの収集戦略
    3.2.3 HTMLからの本文抽出
    3.3 ノイズ除去のためのフィルタリング
    3.3.1 なぜフィルタリングが必要か?
    3.3.2 ルールに基づくフィルタリング
    3.3.3 機械学習を用いたフィルタリング
    3.4 データからの重複除去
    3.4.1 なぜ重複除去が必要か?
    3.4.2 URLを用いた重複排除
    3.4.3 MinHash
    3.5 テキストデータ収集の限界
    3.5.1 複数エポックの利用
    3.5.2 データセットの多言語化
    3.5.3 品質の高いデータの利用
    3.6 おわりに

    第4章 大規模言語モデルのファインチューニングデータ
    4.1 ファインチューニングとは
    4.1.1 ファインチューニングの概要
    4.2 Instruction Data
    4.2.1 よいInstruction Dataとは?
    4.2.2 既存のデータを活用したデータセット作成
    4.2.3 人手によるデータセット作成
    4.2.4 大規模言語モデルによるデータセット作成
    4.3 Preference Data
    4.3.1 Preference Dataの作成方法
    4.3.2 データセット
    4.4 ファインチューニングモデルの評価
    4.4.1 評価方法
    4.4.2 定量的な指標による評価
    4.4.3 人間や大規模言語モデルによる評価
    4.4.4 評価時の注意点
    4.5 日本語における大規模言語モデルのファインチューニング
    4.5.1 日本語ファインチューニングモデルの構築
    4.5.2 日本語評価データセット
    4.6 おわりに

    第5章 ロボットデータ
    5.1 はじめに
    5.2 RTシリーズの概要
    5.2.1 RT-1
    5.2.2 RT-2
    5.2.3 RT-X
    5.2.4 その他
    5.3 多様なロボット
    5.3.1 単腕ロボット
    5.3.2 双腕ロボット
    5.3.3 台車型ロボット
    5.3.4 脚型ロボット
    5.3.5 その他のロボット
    5.4 ロボットにおけるデータ収集
    5.4.1 ユニラテラルなオンライン遠隔教示
    5.4.2 バイラテラルなオンライン遠隔教示
    5.4.3 オフライン教示
    5.5 データセット
    5.5.1 QT-Opt
    5.5.2 RoboNet
    5.5.3 BridgeData V2
    5.5.4 BC-Z
    5.5.5 Interactive Language
    5.5.6 DROID
    5.5.7 その他
    5.6 データ拡張
    5.6.1 画像データ拡張
    5.6.2 言語データ拡張
    5.7 おわりに

    第6章 Data-centric AIの実践例
    6.1 テスラ
    6.2 メタ
    6.3 チューリング
    6.4 LINEヤフー
    6.5 GO
    6.6 コンペティションとベンチマーク
    6.6.1 Data-centric AI Competition
    6.6.2 DataComp
    6.6.3 DataPerf
    6.6.4 Kaggle
    6.7 Data-centric AI実践のためのサービス
    6.7.1 Snorkel AI
    6.7.2 Cleanlab
    6.8 おわりに
  • 内容紹介

    Data-centric AIとは、機械学習の権威でありGoogleのAI研究チームを率いたAndrew Ngが2021年に提唱した、モデルよりもデータに主眼を置くというAI開発のアプローチです。過去数十年にわたりAI開発においては、固定されたデータセットに対してニューラルネットワークをはじめとしたモデルを適用し、そのモデルを改善することに関心が寄せられていました。しかし、このモデルを中心としたアプローチでは、データセットへの過度な依存やデータセットが抱える課題への無意味な適合により、実用において期待ほどモデルの性能が改善しないといった問題が指摘されています。そのため近年はモデルを固定したうえで、データ拡張、アノテーションの効率化や一貫性の担保、能動学習といったデータに工夫を加えることによってモデルの性能を向上させるアプローチに注目が集まっています。本書では、Data-centric AIの概要を解説したあとに、画像認識、自然言語処理、ロボットといった分野におけるデータを改善するための具体的なアプローチを解説します。最終章では、企業における実践的な取り組みを紹介します。
  • 著者紹介(「BOOK著者紹介情報」より)(本データはこの書籍が刊行された当時に掲載されていたものです)

    片岡 裕雄(カタオカ ヒロカツ)
    2014年慶應義塾大学大学院博士(工学)。2024年現在、産業技術総合研究所上級主任研究員、オックスフォード大学Academic Visitorおよびcvpaper.challenge主宰。時空間モデルのベースライン3D ResNetの研究開発、実データ不要の事前学習法数式ドリブン教師あり学習(Formula‐Driven Supervised Learning;FDSL)を提案。2019/2022年度AIST Best Paperなど

    宮澤 一之(ミヤザワ カズユキ)
    GO株式会社にてコンピュータビジョン技術の研究開発や実装を担うチームのリーダーを務める。2010年に東北大学にて博士号を取得後、三菱電機株式会社に入社し、映像解析や自動外観検査などの研究開発に携わる。2019年より株式会社ディー・エヌ・エーにてモビリティ向けのコンピュータビジョン技術の研究開発およびチームマネジメントに従事し、2020年に同社が関わり設立された株式会社Mobility Technologiesに転籍。2023年4月にGO株式会社へ商号変更。定期的な勉強会を開催している

    齋藤 邦章(サイトウ クニアキ)
    OMRON SINIC X Corporationシニアリサーチャー。2018年に東京大学情報理工学系研究科創造情報学専攻の修士課程を修了し、アメリカBoston UniversityのComputer Science専攻の博士課程に進学。Nvidia、Meta、Googleでリサーチインターンを経験。大学およびインターン先では、ドメイン適合、半教師付き学習、画像生成、Vision‐Languageに関する研究を行い、2023年に博士号を取得。2023年より現職。現在は画像と言語療法にかかわる研究に従事

    清野 舜(キヨノ シュン)
    SB Intuitions株式会社シニアリサーチエンジニア。2022年に東北大学大学院情報科学研究科博士後期課程を修了し、博士(情報科学)を取得。2019年より理化学研究所革新知能統合研究センターにて勤務したのち、2022年にLINE株式会社(現:LINEヤフー株式会社)に入社。2024年より現職。現在は主に大規模言語モデルの研究開発に従事

    小林 滉河(コバヤシ コウガ)
    SB Intuitions株式会社チーフリサーチエンジニア。2021年に筑波大学大学院図書館情報メディア研究科修士課程修了。同年よりLINE株式会社(現:LINEヤフー株式会社)に入社。2024年より現職にて、大規模言語モデルのファインチューニングに関する研究開発およびチームマネジメントに従事

    河原塚 健人(カワハラズカ ケント)
    東京大学大学院情報理工学系研究科特任助教。2017年に東京大学工学部機械情報工学科を卒業、2019年・2022年に東京大学大学院情報理工学系研究科知能機械情報学専攻の修士課程・博士課程を修了し、博士(情報理工学)を取得。2022年より現職、筋骨格ヒューマノイドの身体設計と制御、深層学習に基づく知能ロボットシステムの研究に従事

    鈴木 達哉(スズキ タツヤ)
    2020年に上智大学大学院理工学研究科を修了後、株式会社ディー・エヌ・エーに入社。現在はGO株式会社へ出向し、コンピュータビジョンに関する研究開発に従事
  • 著者について

    片岡 裕雄 (カタオカ ヒロカツ)
    2014年 慶應義塾大学大学院 博士(工学)。2024年現在、産業技術総合研究所 上級主任研究員、オックスフォード大学 Academic Visitor および cvpaper.challenge 主宰。時空間モデルのベースライン3D ResNetの研究開発,実データ不要の事前学習法 数式ドリブン教師あり学習(Formula-Driven Supervised Learning; FDSL)を提案。2019/2022年度AIST Best Paper、2020年 ACCV 2020 Best Paper Honorable Mention Award、2023年 BMVC 2023 Best Industry Paper Finalist。研究はMIT Technology Reviewや日経等メディアにて掲載。本書の監修を担当。

    宮澤 一之 (ミヤザワ カズユキ)
    GO株式会社にてコンピュータビジョン技術の研究開発や実装を担うチームのリーダーを務める。2010年に東北大学にて博士号を取得後、三菱電機株式会社に入社し、映像解析や自動外観検査などの研究開発に携わる。2019年より株式会社ディー・エヌ・エーにてモビリティ向けのコンピュータビジョン技術の研究開発およびチームマネジメントに従事し、2020年に同社が関わり設立された株式会社Mobility Technologiesに転籍。2023年4月にGO株式会社へ商号変更。プライベートでは、1,200人以上のメンバーが所属するData-Centric AI Communityを運営し、定期的な勉強会を開催している。本書の1章、6章の執筆を担当。

    齋藤 邦章 (サイトウ クニアキ)
    OMRON SINIC X Corporation シニアリサーチャー2018年に東京大学情報理工学系研究科創造情報学専攻の修士課程を修了し、アメリカBoston UniversityのComputer Science専攻の博士課程に進学。Nvidia, Meta, Googleでリサーチインターンを経験。大学およびインターン先では、ドメイン適合、半教師付き学習、画像生成、Vision-Languageに関する研究を行い、2023年に博士号を取得。2023年より現職。現在は画像と言語両方に関わる研究に従事。本書の2章の執筆を担当。

    清野 舜 (キヨノ シュン)
    SB Intuitions株式会社 シニアリサーチエンジニア2022年に東北大学大学院情報科学研究科博士後期課程を修了し、博士(情報科学)を取得。2019年より理化学研究所革新知能統合研究センターにて勤務したのち、 2022年にLINE株式会社 (現: LINEヤフー株式会社) に入社。2024年より現職。現在は主に大規模言語モデルの研究開発に従事。本書の3章の執筆を担当。

    小林 滉河 (コバヤシ コウガ)
    SB Intuitions株式会社 チーフリサーチエンジニア2021年に筑波大学大学院図書館情報メディア研究科修士課程修了。同年よりLINE株式会社 (現: LINEヤフー株式会社) に入社。2024年より現職にて、大規模言語モデルのファインチューニングに関する研究開発およびチームマネジメントに従事。本書の4章の執筆を担当。

    河原塚 健人 (カワハラヅカ ケント)
    東京大学大学院情報理工学系研究科特任助教2017年に東京大学工学部機械情報工学科を卒業、2019年・2022年に東京大学大学院情報理工学系研究科知能機械情報学専攻の修士課程・博士課程を修了し、博士(情報理工学)を取得。2022年より現職。筋骨格ヒューマノイドの身体設計と制御, 深層学習に基づく知能ロボットシステムの研究に従事。本書の5章の執筆を担当。

    鈴木 達哉 (スズキ タツヤ)
    2020年に上智大学大学院理工学研究科を修了後、株式会社ディー・エヌ・エーに入社。現在はGO株式会社へ出向し、コンピュータビジョンに関する研究開発に従事。プライベートでは、Data-Centric AI Communityの運営に参加し、定期的な勉強会を開催。本書の6章の執筆を担当。

Data-centric AI入門(ML Systems) の商品スペック

商品仕様
出版社名:技術評論社
著者名:片岡 裕雄(監修)/宮澤 一之(著)/齋藤 邦章(著)/清野 舜(著)/小林 滉河(著)/河原塚 健人(著)/鈴木 達哉(著)
発行年月日:2025/01/21
ISBN-10:4297146630
ISBN-13:9784297146634
判型:A5
対象:専門
発行形態:単行本
内容:電子通信
言語:日本語
ページ数:272ページ
縦:21cm
他の技術評論社の書籍を探す

    技術評論社 Data-centric AI入門(ML Systems) [単行本] に関するレビューとQ&A

    商品に関するご意見やご感想、購入者への質問をお待ちしています!