ビッグデータを支える技術 刻々とデータが脈打つ自動化の世界(技術評論社) [電子書籍]
    • ビッグデータを支える技術 刻々とデータが脈打つ自動化の世界(技術評論社) [電子書籍]

    • ¥3,256977 ゴールドポイント(30%還元)
    • すぐ読めます
100000086600742935

ビッグデータを支える技術 刻々とデータが脈打つ自動化の世界(技術評論社) [電子書籍]

価格:¥3,256(税込)
ゴールドポイント:977 ゴールドポイント(30%還元)(¥977相当)
フォーマット:
専用電子書籍リーダアプリ「Doly」が必要です。無料ダウンロード
出版社:技術評論社
公開日: 2018年11月14日
すぐ読めます。
お取り扱い: のお取り扱い商品です。
ご確認事項:電子書籍リーダーアプリ「Doly」専用コンテンツ
こちらの商品は電子書籍版です

ビッグデータを支える技術 刻々とデータが脈打つ自動化の世界(技術評論社) の 商品概要

  • 多彩な技術の集合体。
    ビッグデータの今。

    スマホで買い物をして,翌日には届けてもらえる。
    たとえば,このような身近な場面でも,背後では決済/在庫管理/配送をはじめとした複数のシステムが連携して動いています。

    コンピュータの性能向上に伴い,機械学習をはじめとした,データを活かすシステム開発への期待は高まる一方です。
    今後,システム規模の大小を超えて「データ処理そのものをシステムの一部とする」技術への需要は増していくでしょう。

    データ処理をどのようにシステム化するか。
    本書ではこのエンジニアリングの問題に主軸を置き,可視化を例に,一連のデータ処理に必要な要素技術を整理しデータを効率良く扱うための土台を作り,その上でシステムの自動化をサポートする種々の技術を追っていきます。
  • 目次

    第1章 ビッグデータの基礎知識
    1.1 [背景]ビッグデータの定着
    分散システムによるデータ処理の高速化 ……ビッグデータの扱いづらさを乗り越える二大技術
    ビッグデータ技術への要求 ……HadoopとNoSQLの台頭
    Hadoop ……多数のコンピュータで大量のデータ処理
    NoSQLデータベース ……頻繁な読み書き&分散処理に強みあり
    HadoopとNoSQLデータベースの組み合わせ ……現実的なコストで大規模データ処理を実現
    分散システムのビジネス利用の開拓 ……データウェアハウスとの共存
    自分でできる! データ分析の間口の広がり ……クラウドサービスとデータディスカバリで加速したビッグデータ活用
    Column スモールデータ&ビッグデータの活用 ……スモールデータの技術も重要
    データディスカバリの基礎知識 ……セルフサービスのBIツール
    1.2 ビッグデータ時代のデータ分析基盤
    [再入門]ビッグデータの技術 ……分散システムを活用してデータを加工していく仕組み
    データパイプライン ……データ収集からワークフロー管理まで
    データ収集 ……バルク型とストリーミング型のデータ転送
    ストリーム処理とバッチ処理
    分散ストレージ ……オブジェクトストレージ,NoSQLデータベース
    分散データ処理 ……クエリエンジン,ETLプロセス
    ワークフロー管理
    データウェアハウスとデータマート ……データパイプラインの基本形
    データレイク ……あらゆるデータをそのまま貯蔵
    データレイクとデータマート ……必要なデータはデータマートにまとめる
    データ分析基盤を段階的に発展させる ……チームと役割分担,スモールスタートと拡張
    アドホック分析とダッシュボードツール
    Column データパイプラインの大きな流れは変わらない
    データマートとワークフロー管理
    データを集める目的 ……「検索」「加工」「可視化」の3つの例
    データの検索
    データの加工
    データの可視化
    Column 基幹系システムと情報系システムを分離しよう
    確証的データ解析と探索的データ解析
    1.3 [速習]スクリプト言語によるアドホック分析とデータフレーム
    データ処理とスクリプト言語 ……人気のPythonと,データフレーム
    データフレーム,基礎の基礎 ……「配列の配列」から作成
    Webサーバーのアクセスログの例 ……pandasのデータフレームで簡単処理
    データの前処理で使えるpandasの関数
    時系列データを対話的に集計する ……データフレームをそのまま用いてデータ集計
    Column スモールデータの技術をうまく使っていく
    SQLの結果をデータフレームとして活用する
    実行結果を確認するところではデータフレームを使う
    1.4 BIツールとモニタリング
    スプレッドシートによるモニタリング ……プロジェクトの現状を把握する
    データに基づく意思決定 ……KPIモニタリング
    月次レポート ……スプレッドシートによるレポート作成とその限界
    変化を捉えて詳細を理解する ……BIツールの活用
    モニタリングの基本戦略とBIツール ……定期的なレポートによる変化の把握と再集計
    Tip BIツールは,自分でデータを見るために。
    手作業と自動化すべきこととの境界を見極める
    手作業で済むことは手作業で済ませる
    自動化したいときにはデータマートを作る
    1.5 まとめ
    第2章 ビッグデータの探索
    2.1 基本のクロス集計
    トランザクションテーブル,クロステーブル,ピボットテーブル ……クロス集計の考え方
    ピボットテーブル機能によるクロス集計
    ルックアップテーブル ……テーブルを結合して属性を増やす
    BIツールによるクロス集計
    pandasによるクロス集計
    SQLによるテーブルの集約 ……大量データのクロス集計の事前準備
    Column テーブルの縦横変換❶[SQL編]
    Column テーブルの縦横変換❷[pandas編]
    データ集約➡「データマート」➡可視化 ……システム構成はデータマートの大きさで決まる
    2.2 列指向ストレージによる高速化
    データベースの遅延を小さくする
    データ処理の遅延 ……遅延の小さいデータマート作成のための基礎知識
    「圧縮」と「分散」によって遅延を小さくする ……MPPの技術
    列指向データベースのアプローチ ……カラムを圧縮してディスクI/Oを減らす
    Column スループットとレイテンシ
    行指向データベース ……各行がディスク上で一連のデータとして書き込まれる
    列指向データベース ……カラムごとにデータをまとめておく
    MPPデータベースのアプローチ ……並列化によってマルチコアを活用する
    MPPデータベースと対話型クエリエンジン
    Column リソース消費を制限する ……列指向ストレージ×MPPによる高速化と注意点
    2.3 アドホック分析と可視化ツール
    Jupyter Notebookによるアドホック分析 ……ノートブックに分析過程を記録する
    ノートブック内での可視化
    ノートブックによるワークフロー ……一連のタスクをまとめて実行
    Tip ノートブックの共有
    ダッシュボードツール ……定期的に集計結果を可視化する
    Redash ……SQLによるクエリの実行結果をそのまま可視化
    Column データマートは必要なくなるか?
    Superset ……画面上でマウス操作によってグラフを作る
    Column CSVファイルによる簡易的なデータマート
    Kibana ……Elasticsearchのフロントエンドでリアルタイムに作成
    Column 可視化ツールの選択の指針 ……どれを使う?
    BIツール ……対話的なダッシュボード
    1つのデータを多角的に分析する
    2.4 データマートの基本構造
    可視化に適したデータマートを作る ……OLAP
    多次元モデルとOLAPキューブ
    MPPデータベースと非正規化テーブル
    テーブルを非正規化する
    ファクトテーブルとディメンジョンテーブル
    スタースキーマと非正規化 ……ファクトテーブルを中心に複数のディメンジョンテーブルを結合
    非正規化テーブル ……データマートに正規化は必要ない
    Tip データウェアハウスとスタースキーマ
    多次元モデル ……可視化に備えてテーブルを抽象化する
    モデルの定義を拡張する
    Column ブレイクダウン分析
    2.5 まとめ
    第3章 ビッグデータの分散処理
    3.1 大規模分散処理のフレームワーク
    構造化データと非構造化データ
    スキーマレスデータ  ……基本書式はある,スキーマは定めない
    データ構造化のパイプライン ……テーブル形式にして列指向ストレージに長期保存
    列指向ストレージの作成 ……分散ストレージ上に作成して効率良くデータ集計
    Hadoop ……分散データ処理の共通プラットフォーム
    分散システムのコンポーネント ……HDFS,YARN,MapReduce
    分散ファイルシステムとリソースマネージャ ……HDFS,YARN
    Tip YARNコンテナ
    分散データ処理とクエリエンジン ……MapReduce,Hive
    Hive on Tez
    Tip Hive on Spark
    対話型クエリエンジン ……ImpalaやPresto
    Spark ……インメモリ型の高速なデータ処理
    MapReduceを置き換える ……Sparkの位置付け
    3.2 クエリエンジン
    データマート構築のパイプライン
    Hiveによる構造化データの作成
    列指向ストレージへの変換 ……データ集計の高速化(バッチ型クエリエンジン向け)
    Hiveで非正規化テーブルを作成する
    サブクエリ内でレコード数を削減する ……早い段階でファクトテーブルを小さくする
    データの偏りを避ける ……分散システムの性能発揮のために
    Tip ベストプラクティス
    対話型クエリエンジンPrestoのしくみ ……Prestoで構造化データを集計する
    プラグイン可能なストレージ ……1つのクエリの中から複数のデータソースに接続可能
    CPU処理の最適化 ……読み込みもコードも並列実行
    Tip Prestoのリソース管理
    インメモリ処理による高速化 ……クエリ実行には極力,対話型クエリエンジンを
    分散結合とブロードキャスト結合
    列指向ストレージの集計 ……Prestoによる高速集計
    データ分析のフレームワークを選択する ……MPPデータベース,Hive,Presto,Spark
    MPPデータベース ……完成した非正規化テーブルの高速集計に向いている
    Hive ……データ量に左右されないクエリエンジン
    Presto ……速度重視&対話型特化のクエリエンジン
    Spark ……分散システムを使ったプログラミング環境
    Column Mesosによるリソース管理
    3.3 データマートの構築
    ファクトテーブル ……時系列データを蓄積する
    テーブルパーティショニング ……物理的なパーティションに分割
    データマートの置換
    Tip データ量を最初に見積もる
    サマリーテーブル ……レコード数を削減する
    スナップショットテーブル ……マスタの状態を記録する
    Column サマリーテーブルからの数値計算に注意
    Column スナップショットの日付に注意
    Tip スナップショット時に非正規化する
    履歴テーブル ……マスタの変化を記録する
    [最終ステップ]ディメンジョンを追加して非正規化テーブルを完成させる
    データ集約の基本形
    3.4 まとめ
    第4章 ビッグデータの蓄積

    第5章 ビッグデータのパイプライン

    第6章 ビッグデータ分析基盤の構築

ビッグデータを支える技術 刻々とデータが脈打つ自動化の世界(技術評論社) の商品スペック

シリーズ名 WEB+DB PRESS plus
書店分類コード K300
Cコード 3055
出版社名 技術評論社
本文検索
他の技術評論社の電子書籍を探す
紙の本のISBN-13 9784774192253
ファイルサイズ 34.1MB
著者名 西田圭介
著述名

    技術評論社 ビッグデータを支える技術 刻々とデータが脈打つ自動化の世界(技術評論社) [電子書籍] に関するレビューとQ&A

    商品に関するご意見やご感想、購入者への質問をお待ちしています!