音源分離・音声認識(メディアテクノロジーシリーズ〈9〉) [全集叢書]
    • 音源分離・音声認識(メディアテクノロジーシリーズ〈9〉) [全集叢書]

    • ¥4,180126 ゴールドポイント(3%還元)
    • 在庫あり2025年8月9日土曜日までヨドバシエクストリームサービス便(無料)がお届け
100000009003892320

音源分離・音声認識(メディアテクノロジーシリーズ〈9〉) [全集叢書]

大淵 康成(編)武田 龍(共著)高島 遼一(共著)


ゴールドポイントカード・プラスのクレジット決済で「書籍」を購入すると合計12%ゴールドポイント還元!合計12%還元書籍の購入はゴールドポイントカード・プラスのクレジット決済がお得です。
通常3%ゴールドポイント還元のところ、後日付与されるクレジット決済ポイント(1%)と特典ポイント(6%)、さらにご利用明細WEBチェックにご登録いただくと2%追加して合計12%ゴールドポイント還元!詳しくはこちら

価格:¥4,180(税込)
ゴールドポイント:126 ゴールドポイント(3%還元)(¥126相当)
お届け日:在庫あり今すぐのご注文で、2025年8月9日土曜日までヨドバシエクストリームサービス便(無料)がお届けします。届け先変更]詳しくはこちら
出版社:コロナ社
販売開始日: 2024/10/16
お取り扱い: のお取り扱い商品です。
ご確認事項:返品不可
店舗受け取りが可能です
マルチメディアAkibaマルチメディア梅田マルチメディア博多にて24時間営業時間外でもお受け取りいただけるようになりました

音源分離・音声認識(メディアテクノロジーシリーズ〈9〉) の 商品概要

  • 目次

    第1章
    序論:音源分離・音声認識へのいざない
    1.1 音源分離・音声認識とは
    1.2 本書でカバーする状況
    1.3 本書の構成
    第2章
    音声信号処理の基本
    2.1 データ表現と音源分離・音声認識の入出力
     2.1.1 音響信号データとは
     2.1.2 テキストデータとは
     2.1.3 音源分離や音声認識とは
    2.2 機械学習技術を用いたアプローチ
     2.2.1 機械学習とは
     2.2.2 学習・推論フェーズとポイント
     2.2.3 音源分離や音声認識にどう適用するか
     2.2.4 データへの適応:モデルのチューニングや学習・推論の同時実行
    2.3 音声信号の伝達モデルと基本的な分析・特徴量
     2.3.1 時間波形と時間周波数成分の可視化
     2.3.2 信号源からマイクへの伝達過程と特徴量
     2.3.3 音声信号の生成過程と特徴量
    2.4 ディープニューラルネットワークとは
     2.4.1 ネットワークの構造
     2.4.2 ネットワークの学習
    2.5 データの準備・生成
     2.5.1 実収録
     2.5.2 伝達系の再現
     2.5.3 音源データ
    第3章
    音源分離:音を聞き分ける
    3.1 音の聞き分け処理の概要
     3.1.1 応用する際の事前検討
     3.1.2 おもなタスク設定
     3.1.3 音源分離で用いられるおもな評価尺度
    3.2 基本的な枠組みと技術
     3.2.1 基本的な処理領域やフロー
     3.2.2 基本的な分離方式
     3.2.3 ディープニューラルネットワークに基づく音源分離
    3.3 参照信号を用いる音源分離:適応フィルタ
     3.3.1 基本的な観測モデル
     3.3.2 最小二乗法
     3.3.3 LMS,NLMSおよびRLS
     3.3.4 ディープニューラルネットワークを併用した手法
    3.4 モノラル信号に対する音源分離・
     3.4.1 非負値行列分解
     3.4.2 DeMask
     3.4.3 ConvTasNet
     3.4.4 SepFormer
    3.5 マルチチャネル信号に対する音源分離
     3.5.1 ビームフォーマ
     3.5.2 ブラインド音源分離:ICA,IVA,ILRMA,fastMNMF
     3.5.3 ディープニューラルネットワークを併用した手法
    3.6 音源分離技術の実装例
     3.6.1 エコーキャンセラ:システム音声の除去
     3.6.2 音声強調:音声・非音声雑音から音声の抽出
     3.6.3 音源分離:すべての信号を抽出
     3.6.4 音楽音響信号分析
     3.6.5 事前学習やfine-tuning
    3.7 その他のトピック
     3.7.1 Recursive Souce Seapration
     3.7.2 Mixture Invariant Training
     3.7.3 Location-based Training
     3.7.4 Target Sound Extraction
    3.8 本章のまとめ
    第4章
    音声認識:発話内容を認識する
    4.1 音声認識の基礎知識
    4.2 DNNとHMMによる音声認識
     4.2.1 音響モデルの確率計算とアライメントについて
     4.2.2 隠れマルコフモデル
     4.2.3 DNN-HMMハイブリッドモデル
     4.2.4 辞書および言語モデルを用いた連続音声認識
    4.3 End-to-End音声認識
     4.3.1 End-to-End音声認識における認識単位の定義
     4.3.2 Connectionist temporal classification
     4.3.3 RNNトランスデューサ
     4.3.4 Attentionエンコーダ・デコーダモデル
     4.3.5 Transformer
     4.3.6 Conformer
    4.4 End-to-End音声認識ツールESPNet
     4.4.1 ツールの導入と使用方法
     4.4.2 CTCとエンコーダ・デコーダ型モデルとの
    マルチタスク学習
     4.4.3 評価結果の見方と評価指標
    4.5 事前学習済みモデル
     4.5.1 自己教師あり学習
     4.5.2 Whisper
    4.6 本章のまとめ
    第5章
    音源分離と音声認識にまたがる技術
    5.1 データ拡張
     5.1.1 波形の伸縮
     5.1.2 雑音重畳とインパルス応答の畳み込み
     5.1.3 SpecAugment
    5.2 ダイアリゼーション
     5.2.1 モジュールベース構成
     5.2.2 End-to-End構成
     5.2.3 音源分離とダイアリゼーションの統合
     5.2.4 音声認識とダイアリゼーションの統合
    5.3 音声認識と音源分離の統合
     5.3.1 モデルミスマッチ問題
     5.3.2 全体最適化によるアプローチ
    引用・参考文献
    索引
  • 出版社からのコメント

    人間が持つ音を聞き分け理解する能力を、コンピュータで実現するための音声技術活用のノウハウを解説する。
  • 内容紹介

    【読者対象】
    本書は、マイクから取り込んだ音を聞き分け、理解するシステムに興味のある幅広い読者を対象としています。音声そのものを扱う研究に従事する人だけでなく、様々なITシステムの中で音声を活用したいと思っている方にも役立つ内容となっています。

    【書籍の特徴】
    本書では、様々な音が混ざり合った状態から目的の音声だけを取り出す音源分離技術と、そうして得られた音声の内容を理解する音声認識技術とを扱っています。この二つは異なる技術ですが、音響信号からの特徴抽出や、大量のデータのモデル化の方法など、共通して学ぶべき内容も多く、一冊の書籍にまとめることで、さらに理解しやすくなると考えました。もちろん片方だけでも十分に役立ちますので、必要なところだけを読んでもらっても構いません。また、アルゴリズムを自分で実装するのは大変だという人でも、既存のツールなどを使いこなすための基礎知識が得られるような内容になっています。

    【各章について】
    1章では、本書で扱う技術の位置づけと、本書の構成を説明しています。
    2章では、音声の信号処理や機械学習の基礎的な部分を概説しています。本書で扱う分野の入門的知識として過不足の無い内容になっているはずです。
    3章は、音源分離に関する章です。音声認識や音声通話など様々な目的で用いることも考慮に入れ、使用目的や雑音環境、マイク配置などに応じた最適な手法を説明します。
    4章は、音声認識に関する章です。基本となる確率モデルの考え方に加えて、近年の主流となっている深層学習を用いたシステムの活用方法についても解説します。
    5章では、音源分離と音声認識の両者にまたがる技術を紹介します。どちらか片方の章の続きとして読んでも、あるいは両者のまとめとして読んでも構いません。

    【著者からのメッセージ】
    近年のAIブームに乗って、音源分離や音声認識の様々なツールやアプリケーションが公開されています。周辺分野の研究者や開発者が、これらを自分のシステムに取り込む機会も多くなっていることでしょう。しかし、扱う音声データの種類や、アプリケーションの形態などにより、AIツールの最適な使い方は変わってきます。様々な目的を持った研究者・開発者の方々が、本書を通じて得られた知識をもとに、最先端の音声処理機能を活用していただければ幸いです。

    図書館選書
    人間は音を聞き分け,大事な音だけを理解する能力を持つ。技術の進歩に伴い,この能力をコンピュータで実現することが可能になりつつある。本書は音声に関わる多様な分野の研究者に向け,音声技術活用のノウハウを解説する。
  • 著者紹介(「BOOK著者紹介情報」より)(本データはこの書籍が刊行された当時に掲載されていたものです)

    大淵 康成(オオブチ ヤスナリ)
    1988年東京大学理学部物理学科卒業。2015年東京工科大学教授

    武田 龍(タケダ リュウ)
    2006年京都大学工学部情報学科卒業。2019年大阪大学准教授

    高島 遼一(タカシマ リョウイチ)
    2008年神戸大学工学部情報知能工学科卒業。2019年神戸大学准教授

音源分離・音声認識(メディアテクノロジーシリーズ〈9〉) の商品スペック

商品仕様
出版社名:コロナ社
著者名:大淵 康成(編)/武田 龍(共著)/高島 遼一(共著)
発行年月日:2024/11/01
ISBN-10:433901379X
ISBN-13:9784339013795
判型:A5
発売社名:コロナ社
対象:専門
発行形態:全集叢書
内容:電子通信
言語:日本語
ページ数:238ページ
縦:21cm
横:15cm
他のコロナ社の書籍を探す

    コロナ社 音源分離・音声認識(メディアテクノロジーシリーズ〈9〉) [全集叢書] に関するレビューとQ&A

    商品に関するご意見やご感想、購入者への質問をお待ちしています!