人文学のためのテキストデータ構築入門-TEIガイドラインに準拠した取り組みにむけて [単行本]

販売休止中です

    • 人文学のためのテキストデータ構築入門-TEIガイドラインに準拠した取り組みにむけて [単行本]

    • ¥3,30099 ゴールドポイント(3%還元)
100000009003598728

人文学のためのテキストデータ構築入門-TEIガイドラインに準拠した取り組みにむけて [単行本]

価格:¥3,300(税込)
ゴールドポイント:99 ゴールドポイント(3%還元)(¥99相当)
フォーマット:
日本全国配達料金無料
出版社:その他
販売開始日: 2022/08/04
お取り扱い: のお取り扱い商品です。
ご確認事項:返品不可

人文学のためのテキストデータ構築入門-TEIガイドラインに準拠した取り組みにむけて の 商品概要

  • 目次

    はじめに:人文学のためのテキストデータ構築●永﨑研宣

    ・課題に正面から取り組むためのガイドブック
    ・知を蓄積・共有し、より広い世界へつなげる
    ・本書の構成

    本書の読み方

    第1部 概説編

    第1章 人文学のためのテキストデータの構築とは●永﨑研宣

    1.テキストデータベース構築に関する概況
    2.元資料とテキストデータの整合性
    3.元資料との関係をどう位置づけるか
    3-1.文字がUnicodeに入ってない場合
    3-2.字形・字体の相違をどう扱うか
    3-3.文字の扱い方を記録しておく
    3-4.誤転記を含むテキストの扱い
    3-5.テキストデータ構築の深さ
    3-6.学術編集のためのタグ付けについて
    3-7.そもそもタグ付けとは
    3-8.タグを介した外部情報との連結
    3-9.参照情報ファイルを独立させる
    3-10.タグの共通化に向けて

    第2章 日本におけるテキストデータ構築の歴史●永﨑研宣
    1.はじめに
    2.大まかな時期の区分
    3.1980年代の状況
    4.1990年代の状況
    5.2000年代の状況
    6.2010年代の状況
    7.2020年代から今後の可能性へ

    COLUMN 1  TEIガイドラインで自分の資料を作り始めるには●永﨑研宣

    1.はじめに
    2.「モデル」を考えてみる
    3.TEIの適用可能性について検討する
    4.全体的な構造の方針
    5.個別的な検討
    6.人手で作業すべきかどうか
    7.どこまで人手をかけるか
    8.TEIを適用すべきでない場合
    9.おわりに

    第2部 実践編

    第1章 Transkribusによる手書きテキスト資料の自動翻刻●宮川 創

    1.OCRとHTR
    2.Transkribusの概要
    3.文字資料のスキャンに関する基礎事項
    3-1.Transkribusに取り込めるファイル形式や枠組み
    3-1-1.JPEG(Joint Photographic Experts Group; ジェイペグ)
    3-1-2.TIFF(Tagged Image File Format; ティフ)
    3-1-3.PDF(Portable Document Format; ピーディーエフ)
    3-1-4.IIIF(International Image Interoperability Framework; 国際画像相互利用枠組み; トリプルアイエフ)
    3-2.画像の単位
    3-2-1.DPI(dots per inch;ディーピーアイ)
    3-2-2.画素(ピクセル)
    3-3.スキャナとカメラの種類
    3-3-1.スキャナ
    3-3-2.カメラ
    3-3-3.ScanTent
    4.画像前処理ソフトScanTailor
    4-1.ScanTailorのインストール
    4-2.プロジェクトの作成と画像読み込み
    4-3.向きの訂正
    4-4.ページ分割
    4-5.傾きの修正
    4-6.版面を選択
    4-7.余白
    4-8.出力
    5.Transkribusのインストール
    5-1.Transkribusアカウントを作る
    5-2.Transkribus.zipのダウンロード
    5-3.Transkribus.zipの解凍
    5-4.Javaのインストール
    6.Transkribusで画像を読み込む
    6-1.Transkribusを開く
    6-2.Transrkibusアプリ上でログインする
    6-3.新しいコレクションを作る
    6-4.ドキュメントのインポート
    7.レイアウト分析
    7-1.レイアウト分析の設定
    7-2.リージョンの調整
    7-3.ベースラインの調整
    7-4.ポリゴンの調整
    8.グラウンド・トゥルースの作成
    9.トレーニング
    9-1.デフォルトのトレーニング
    9-2.追加トレーニング
    9-2-1.コレクションやモデルの共有方法
    9-2-2.追加トレーニングの実行
    10.学習済みモデルを用いた文字認識
    10-1.トレーニング
    10-2.クレジット購入
    11.TEI XMLやPDFへの出力、バージョン管理
    11-1.TEI XML、PDF、プレインテキストなどへの出力
    11-2.バージョン管理、その他
    12.Transkribus Lite(ブラウザ版)
    13.OCRopy
    14.Kraken
    15.eScriptorium
    16.OCR4all
    17.おわりに

    第2章 Transkribus実践レポート:100年分のフランス語議事録翻刻プロジェクト●小風綾乃

    1.はじめに
    2.使用する史料について
    3.約100年分の議事録に適応できるHTRモデルの作成は可能か
    3-1.史料における前提と想定される選択肢
    3-2.画像のインポート
    3-3.レイアウト認識
    3-4.翻刻テキストの作成
    3-4-1.単年の議事録を使用したCITlab HTR+、PyLaia HTRモデルの比較
    3-4-2.複数年に適用できるHTRモデルの作成
    3-4-3.差分の可視化による翻刻精度の比較
    3-4-4.小括:最善の翻刻方法
    3-5.マークアップ
    3-6.エクスポート
    4.おわりに

    第3章 TEIガイドラインとは●永﨑研宣

    1.はじめに
    2.TEI登場の文脈
    3.TEIガイドラインの内容
    4.TEI ガイドラインのアップデートと「国際化」
    5.TEIガイドラインと人文情報学
    6.本章のまとめ

    第4章 実践演習:漱石書簡を用いたTEIによるテキスト構造化入門●原作:James Cummings・翻案:永﨑研宣

    0.この演習を始める前に
    0-1.ソフトウェアとデータの準備
    0-2.XMLに関する最低限の基本的な知識
    0-2-1.タグを追記して意味を付与する
    0-2-2.タグには開始タグ・終了タグ・空白タグがある
    0-2-3.タグは入れ子構造にできるが、オーバーラップはできない
    0-2-4.エレメント(要素)とは0-2-5.アトリビュート(属性)とは
    0-2-6.XMLにおけるサブセットの必要性とスキーマ
    0-2-7.整形式の(Well-formed)XML文書と妥当な(valid)XML文書
    1.実践演習1:基本的なマークアップでXML文書を作成する
    1-1.学習の成果
    1-2.要点
    1-3.XMLファイルの新規作成を始める
    1-4.〈text〉 エレメントを付与する
    1-5.テキストを挿入する
    1-6.手紙の基本的な構造を符号化(encodeing)する
    1-7.段落と行をマークアップする
    1-8.散文における改行
    1-9.整形式(Well-formed)のXML文書を整形しインデントする
    1-10.あなたの作業を保存する
    1-11.セルフチェック
    1-12.次回にすべきこと
    2.実践演習2:妥当な(valid)TEI/XML文書の作成
    2-1.学習の成果
    2-2.要点
    2-3.新しいXMLファイルを作成して開始する
    2-4.〈TEI〉エレメント(要素)の挿入
    2-5.〈teiHeader〉を追加する
    2-6.〈text〉を追加する
    2-7.日本語 TEIスキーマを関連づける
    2-8.マークアップを改良する
    2-8-1.日付・地名をマークアップ
    2-8-2.〈add〉と〈del〉を追加する
    2-8-3.〈closer〉を改良する
    2-8-4.明らかな〈sic〉間違い〈/sic〉をタグ付けする
    2-8-5.記述の正規化
    2-8-6.縦書きスタイルと言語コードの記述
    2-9.あなたの作品を保存する
    2-10.セルフチェック
    2-11.さらに先へ
    3.実践演習3:より良い符号化(エンコーディング)の実践:書誌情報を深める
    3-1.学習の成果
    3-2.要点
    3-3.はじめに
    3-4.〈publicationStmt〉を改良する
    3-5.〈sourceDesc〉に詳細な書誌情報を記述する
    3-6.〈fileDesc〉 の他の構成要素
    3-7.〈encodingDesc〉を追加する
    3-8.〈profileDesc〉を追加する
    3-9.〈revisionDesc〉を追記する
    3-10.固有表現(人物・地名情報等)を記述する
    3-11.あなたの作品を保存する
    3-12.自己評価
    3-13.もっと読みたい人へ
    3-14.実践演習1~3のまとめ

    第5章 利活用演習:TEI準拠テキストの活用方法●永﨑研宣

    1.基本的な考え方
    2.Oxygen上での高度な検索
    2-1.XMLの構造を活かした検索
    2-2.XPath検索
    2-2-1. XPathでエレメントを検索
    2-2-2. XPathでエレメントを絞り込み
    2-2-3. XPathで属性を絞り込み
    2-2-4. XPathへの理解を深めるには
    2-2-5.複数ファイルの同時検索
    3.XSLTによる処理
    3-1. XSLT文書を新規作成する
    3-2. TEIの名前空間に関する情報を記述して保存
    3-3. XML文書にXSLファイルを関連付ける
    3-4. 「変換シナリオの設定」
    3-5. 「新しいシナリオ」の設定-XSLT
    3-6. 「新しいシナリオ」の設定-出力
    3-7. 「変換シナリオの適用」をする
    3-8. 本文〈body〉の内容を表示させる
    3-9. 本文の段落を表示
    3-10. 〈choice〉の選択を行う
    3-11. 〈subst〉の表示を行う
    3-12. 〈add〉を表示する
    3-13. 〈closer〉の表示
    3-14. 〈lb〉を改行させる
    3-15. 縦書き表示
    3-16. 余計な空白を削除する:適切な検索のために
    3-17. 人名リストを取り出してみる
    3-18. さらなる挑戦
    3-19. XSLTのまとめ
    4.既存のツールによる活用
    5.保存と共有
    6.おわりに

    COLUMN 2  TEI協会 東アジア/日本語分科会の活動●永﨑研宣

    1.はじめに
    2.EAJ分科会の設置
    3.EAJ分科会の活動
    4.TEI翻訳会
    5.TEI勉強会
    ・青空文庫でTEI
    ・TEI日本語ガイドライン作成とルビエレメントの提案
    ・『校異源氏物語』の校異情報マークアップ
    6.おわりに

    第3部 事例編:テキストデータ構築の最新事情①

    [古辞書から最低限の共通要素を取り出す]
    第1章 日本古辞書のTEI符号化 ●岡田一祐

    1.はじめに
    2.日本の古辞書について
    3.文字標準化の埒外にある文献の翻刻
    3-1.翻刻とはなにをすることか
    3-2.古辞書の電子的な原典的翻刻の実際
    4.TEI辞書モジュールとTEI Lex-0プロジェクト
    4-1.辞書モジュールの前提とする構造と漢字字書の構造との相違
    4-2.本モデルでの符号化について
    4-3.TEI Lex-0
    5.日本古辞書の符号化モデル
    5-1.符号化の段階
    5-2.ヘッダー
    5-2-1.引用文献の記載
    5-3.前置き・後置き
    5-4.本文構造:分巻・分部
    5-5.本文構造:項目
    5-5-1.項目の符号化
    5-5-2.親子項目の符号化
    5-5-3.連続項目の符号化
    5-5-4.組み込まれた・欠損した・欄外にある項目
    5-6.本文構造:掲出字
    5-6-1.単字項目
    5-6-2.複字項目:熟字のばあい
    5-6-3.複字項目:重出のばあい
    5-7.本文構造:注文
    5-7-1.注文の符号化
    5-7-2.引用
    5-7-3.字音
    5-7-4.語釈
    5-7-5.異体字
    5-7-6.和訓
    5-8.本文要素:書き入れ
    5-9.本文要素:校訂
    5-10.本文要素:割書きおよび改行の保存
    6.符号化の例
    6-1.『篆隷万象名義』
    6-2.図書寮本『類聚名義抄』
    6-3.参考:『色葉字類抄』
    6-4.参考:『康煕字典』
    7.おわりに

    [日記および日程表のテキストデータを再構築して公開する]
    第2章 TEIを用いた『渋沢栄一伝記資料』テキストデータの再構築:「渋沢栄一ダイアリー」公開まで●金 甫榮・井上さやか

    1.まえがき
    2.『渋沢栄一伝記資料』デジタル化の歩み
    3.TEIマークアップ の検討
    3-1.TEIを用いる理由
    3-2.構造化について考える
    4.テキストデータの再構築
    4-1.共同研究の始まり
    4-2.マークアップ方針
    4-2-1.マークアップの深さ
    4-2-2.構造化
    4-2-3.固有表現
    5. 成果
    5-1.テキストデータの改善
    5-2.「渋沢栄一ダイアリー」の公開
    6.あとがき

    [財務史料の原史料へのアクセスと計算可能性を確保する]
    第3章  TEIとRDFを用いた財務史料の構造化:古代日本・近世スペイン・近代イギリスを事例に●小風尚樹

    1.はじめに
    2.財務史料の構造化におけるふたつの困難
    3.財務史料の構造化に関する方法論的考察
    3-1.TEI P5
    3-2.Transactionography
    3-3.XBRL
    3-4.DEPCHA
    4.事例研究
    4-1.古代日本史
    4-2.近世スペイン複式簿記史料
    4-3.近代イギリス会計史料
    5.財務史料の標準的構造化データの意義
    5-1.TEIにおける相互運用性の限界と克服に向けた取り組み
    5-2.分析プログラムの開発
    6.まとめ

    [TEI/XMLファイルを作成した後のプロセス]
    第4章 TEIデータの可視化方法と事例紹介●中村 覚

    1.はじめに
    2.TEIデータの可視化方法
    2-1.導入
    2-2.可視化ツールの例
    2-2-1.Voyant Tools
    2-2-2.校異情報の可視化
    2-2-3.TEI Publisher
    2-2-4.Omeka S
    3.独自開発
    3-1.導入
    3-1-1.CETEIcean
    3-1-2.発展:JavaScriptフレームワークでの利用
    3-2.事例紹介
    3-2-1.事例1:TEI-C東アジア/日本語分科会[2]
    TEI Multi Viewer
    校本風異文可視化ツール
    戯曲のLINE風チャット画面での表示
    書簡の送受信情報の可視化
    3-2-2.事例2:デジタル源氏物語[3]
    3-2-3.事例3:渋沢栄一ダイアリー[4]
    日付、時間
    人物関係の可視化
    3-2-4.事例4:東京大学史料編纂所「蒋洲咨文」[5]
    4.まとめ

    [プログラミングなしに人名を自動抽出するための道を拓く]
    第5章 Transkribusを用いたTEIの人名タグ付きテキストの機械学習による自動人名抽出:ジャアファル・ブン・イドリース・カッターニー『目録』を例に●石田友梨

    1.はじめに
    2.カッターニーの『目録』について
    3.人名の自動抽出方法
    4.抽出結果の評価
    5.おわりに

    COLUMN 3  TEIにおけるセマンティック記述と〈standOff〉●小川 潤

    1.はじめに
    2.インラインとスタンドオフ
    3.TEIにおける〈standOff〉要素の導入
    4.TEIとセマンティックデータ

    第4部 事例編:テキストデータ構築の最新事情②

    [マークアップの方針をどう立てるか]
    第1章 大正新修大蔵経TEI化に関する概略●渡邉要一郎

    1.はじめに
    2.概要
    3.本文の構造化
    3-1.広義の本文の確定
    3-2.狭義の本文の階層性
    3-3.奥書に関して
    3
  • 内容紹介

    より効果的にテキストデータを蓄積・共有し、広く世界につなげるために、人文学研究においてテキストデータはこれからどう作っていけばいいのか。
    私たちの読みを残し、共有し、たどれるようにする、あるいはどう読んだかを次世代に継承するためには、どういう処理や方法が必要なのか。
    今後の人文学研究にとって必須のテキストデータ構築の方法を、丁寧に解説、紹介していく書です。

    欧米ではすでに、こういったことに1980年代から取り組んできており、TEI(Text Encoding Initiative)ガイドラインという形でルールを共有してきましたが、日本では文字の扱いなどで難しい部分もあり、導入が遅れていました。しかし近年状況が劇的に変化しつつあります。

    本書では、今後の人文学のための、より広い世界につながっていけるようにするためのテキストデータの構築手法を、全4部構成でレクチャーします。第1部ではテキストデータの構築に関する概要とこれまでの日本での動向、第2部は、テキストデータ構築のための実践、第3部、4部はテキストデータ構築やその利活用に関する事例を紹介します。
    特に実践編では、実際使用するソフトウェアについての紹介とチュートリアルを提供するなど、具体的に紹介し実践的に作られています。ぜひ本書をガイドに、自身のテキストデータを扱ってみて下さい。現時点で考え得る実現可能かつ有用性の高いテキストデータ構築の手法を提示しています。実践演習として「漱石書簡を用いたTEIによるテキスト構造化入門」も掲載。

    事例も豊富に紹介しています。古代から近代、日本や中国、中東、欧州までと、広範囲におよぶうえ、仏典の一大叢書である大正新脩大藏経に対するTEIガイドライン準拠のための構造化を組織的に推進しているSAT大蔵経データベース研究会の取り組みも紹介しました。

    これからの人文学研究のために、必携の書です。

    執筆は、石田友梨/大向一輝/小風綾乃/永﨑研宣/宮川 創/渡邉要一郞/井上さやか/井野雅文/王 一凡/岡田一祐/小川 潤/片倉峻平/金 甫榮/小風尚樹/佐久間祐惟/左藤仁宏/中村 覚/南 亮一/矢島正豊。

    【…ただいろいろなデータをテキストに書き込んでいくだけでは、そのデータをうまく読み取ることも、より広い観点から活用することも十分にはできない。それが深くなればなるほど困難さも増していく。そこで、何らかのルールに基づいてデータを構築していくことが有力な選択肢となる。欧米の先進国では、これに1980年代から取り組んできており、TEI(Text Encoding Initiative)ガイドラインという形でルールを共有し、それに基づいてすでに相当の蓄積をなしている。欧米に比べ、日本では文字の扱い等に困難さを抱えていたこともあり、そのような習慣が根付くことに時間がかかり、その一方で、欧米で作られたルール…
  • 著者について

    一般財団法人人文情報学研究所 (イッパンザイダンホウジンジンブンジョウホウガクケンキュウジョ)
    2010年、SAT大蔵経テキストデータベースの運用を支援しつつ、これを基礎とする仏教学のためのデジタル研究環境構築を目指し、人文情報学的知見を開発して人文知の宝庫である仏教の研究を推進し、さらに、これをとおして人文学全体を振興するとともに、広く人類精神文化の発展に寄与する目的をもって設立された研究所。仏教経典研究部門、仏教写本研究部門、人文情報学研究部門の三部門を擁する。これらの各部門における研究活動に加えて、2011年より月刊の無料メールマガジン『人文情報学月報』を発行し、日本デジタル・ヒューマニティーズ学会の事務局を引き受ける等、人文情報学に関わる情報共有と連携を重点事項の一つと位置づけて取り組みを続けている。ハンブルク大学、国文学研究資料館等と連携協定を結んでいる。
    東京都文京区本郷5-26-4-11F TEL:03-6801-8411 FAX:03-6801-8412
    https://www.dhii.jp/

    石田 友梨 (イシダ ユリ)
    岡山大学学術研究院社会文化科学学域助教(特任)。論文に「18世紀インドにおけるカリフ制社会論―イスラーム改革思想家シャー・ワリーウッラーの『究極のアッラーの明証』より―」(『アジア太平洋討究』25、2015年、49-68頁)、「インドにおけるイスラーム神秘主義の霊魂論―シャー・ワリーウッラー・ディフラウィーを例に―」(International Journal of the Asian Philosophical Association, Vol. 9, No.1, 2016, pp.111-131)、「イスラーム研究におけるデジタル・ヒューマニティーズの活用に向けて―シャー・ワリーウッラー『ハラマインの師たちの瞳孔』に基づく一七-一八世紀ハラマインの学者ネットワーク分析―」(『イスラーム地域研究ジャーナル』8、2016年、25-36頁)など。

    大向 一輝 (オオムカイ イッキ)
    1977年生まれ。東京大学大学院人文社会系研究科准教授。著書に『ウェブがわかる本』(岩波書店、2007年)、『ウェブらしさを考える本』(丸善出版、2012年、共著)、論文に「オープンサイエンスと研究データ共有」(『心理学評論』61-1、2018年)など。

    小風 綾乃 (コカゼ アヤノ)
    お茶の水女子大学院博士後期課程、日本学術振興会特別研究員(DC2)(近世フランス史)
    [著書・論文]「摂政期のフランス王権とパリ王立科学アカデミー ―1716年の会員制度改定を中心に―」(『人間文化創成科学論叢』21、2019年)、「18世紀パリ王立科学アカデミー集会の出席会員分析に向けたデータ構築と可視化」(『第123回人文科学とコンピュータ研究会発表会予稿』第2020-CH-123巻3号、2020年)など。

    永崎 研宣 (ナガサキ キヨノリ)
    1971年生まれ。一般財団法人人文情報学研究所主席研究員。筑波大学大学院博士課程哲学・思想研究科単位取得退学。博士(関西大学・文化交渉学)。東京外国語大学アジア・アフリカ言語文化研究所COE研究員、山口県立大学国際文化学部助教授等を経て一般財団法人人文情報学研究所の設立に参画。これまで各地の大学研究機関で文化資料のデジタル化と応用についての研究支援活動を行ってきた。学会関連活動としては、情報処理学会論文誌編集委員、日本印度学仏教学会常務委員情報担当、日本デジタル・ヒューマニティーズ学会議長、TEI Consortium理事等がある。著書に『文科系のための情報発信リテラシー』(東京電機大学出版局、2004年)、『日本の文化をデジタル世界に伝える』(樹村房、2019年)など。

    宮川 創 (ミヤガワ ソウ)
    1989年生まれ。人間文化研究機構国立国語研究所研究系テニュアトラック助教。ゲッティンゲン大学エジプト学コプト学専修博士課程修了。Dokter der Philosophie(Dr.phil.: 哲学博士)。ドイツ研究振興協会特別研究領域研究員、関西大学アジア・オープン・リサーチセンターPD、京都大学大学院文学研究科助教を経て現職。論文に、'Optical Character Recognition of Typeset Coptic Text with Neural Networks'(筆頭著者、Digital Scholarship in the Humanities 34, Suppl. 1、2019年)、「ローマ・ビザンツ期エジプトのデジタルヒストリー:コプト語著述家・アトリペのシェヌーテを中心に」(『西洋史学』270、2020年)、「コプト教父・アトリペのシェヌーテによる古代のコプト語訳聖書からの引用」(『東方キリスト教世界研究』5、2021年)など。

    渡邉 要一郎 (ワタナベ ヨウイチロウ)
    東京大学史料編纂所特任研究員(仏教学)
    [著書・論文]「Saddanītiにおける文法学の位置づけ」(『インド哲学仏教学研究』26、2018年、35-46頁)、渡邉要一郎・永﨑研宣・朴賢珍・王一凡・村瀬友洋・渡邉眞儀・大向一輝・下田正弘「大正新脩大蔵経の構造的記述に向けて」(『じんもんこん2020論文集』、61-66頁)など。

人文学のためのテキストデータ構築入門-TEIガイドラインに準拠した取り組みにむけて の商品スペック

商品仕様
出版社名:文学通信
著者名:石田友梨(編)/大向一輝(編)
発行年月日:2022/07
ISBN-10:490965884X
ISBN-13:9784909658845
判型:B5
発売社名:文学通信
対象:一般
発行形態:単行本
内容:歴史総記
言語:日本語
ページ数:424ページ
他のその他の書籍を探す

    その他 人文学のためのテキストデータ構築入門-TEIガイドラインに準拠した取り組みにむけて [単行本] に関するレビューとQ&A

    商品に関するご意見やご感想、購入者への質問をお待ちしています!