2020年12月22日 第2回人文情報ユニット研究会を開催

 2020年12月22日(火)、Zoomにて、今年度第2回の人文情報ユニット研究会を開催しました。今回は発表者が全員オンライン参加だったこともあり、オフラインとのハイブリッドで行った第1回とは異なり、完全にオンラインでの実施となりました。

 今回の研究会テーマは「歴史資料テキストデータ構築とTEI」です。「総合資料学の創成」事業および関連事業において作成されているkhirinでは、構造化データには Linked Data、画像には IIIF といったように目的に応じて必要な形式で資料情報を提供しており、テキストデータについてはTEI(Text Encoding Initiative)での公開が、データの再利用や国際的な連携のために適切だと考えています。

 まず、総合資料学プロジェクトの後藤真准教授から、上記の開催趣旨を含め、独自のXMLなどでの公開が乱立してきた中での、共通フォーマットとしてのTEIの重要性についての説明がありました。そして、日本におけるTEIの第一人者である人文情報学研究所の永崎研宣氏より、TEIとは何かという基礎的な紹介から、SAT大蔵経データベースにおける先進的なインタフェースに至るまで、実例を交えながらご紹介いただきました。続いて、お茶の水女子大学の小風綾乃氏からは古代史の史料である延喜式のTEI化について表構造の元データからTEIにスクリプトで変換したり、固有表現をマークアップしたりするプロセス、そしてその中での課題点、特に巻や式、奥書といった文書構造の表現についてご報告いただきました。さらに、研究ノートをTEIで書き、再利用性を高めつつTEIの習得を行うという実践についてもお話ししていただきました。渋沢栄一記念財団からは茂原暢、井上さやか、金甫榮の三氏を代表して茂原氏から『渋沢栄一伝記資料』のテキストデータの構築についてご紹介いただきました。目的に応じて独自のXMLやMarkdownでの構造化に取り組んできた経緯があり、それをTEI化することでデータに汎用性と永続性を持たせようとされています。TEI実践に関する情報共有を行うコミュニティの必要性の提言に関しては、永崎氏からTEI-C東アジア/日本語分科会の活動(https://github.com/TEI-EAJ)が紹介されました。最後の報告者である東京大学史料編纂所の中村覚氏からは、デジタル源氏物語におけるTEIの活用についてご紹介いただきました。IIIFで各所から公開されている画像、『校異源氏物語』や青空文庫の与謝野晶子訳『源氏物語』など、複数のリソースを対応付けて表示するインタフェースの実装について、くずし字認識や異なる本の対応個所の自動発見など、高度な自動化によって比較表示のための情報をTEIとして埋め込んで活用されています。

 総合討論では、一つ目のテーマとして、RDFとTEIの関係のつけ方について討論しました。中村氏から要素要素にIDをつけることが双方の構造化の基盤になるというご指摘をいただき、小風氏からはTEIでマークアップしたデータから人間関係を抽出するといった際にRDFでの記述に変換することで見通しがよくなるのではという期待を語っていただきました。永崎氏からはStandOffタグによりTEIと外部のリソースの対応付けがより柔軟になったことが紹介され、その一方で、外部のコンテンツやIDと内部のものは疎結合に保っておくことで、データ自体の一貫性を維持できるという指摘もされました。

 二つ目のテーマとしてはIIIFとTEIの関係のつけ方について討論しました。TEIでどのようにIIIFの画像を取り扱うかということに関してはまだ定まったガイドラインはなく、永崎氏や中村氏が実験的に実装しているという段階であるということでした。永崎氏からはIIIFとTEIで画像を扱う構造自体は一緒であるので、画像とテキストの対応付けをシンプルにやることが重要だという指摘がなされました。つまり、IIIFのImage APIの切り出し機能に頼るような対応付けをせずに、Presentation APIのアノテーションとして対応付けを行い、切り出しは別途JavaScriptなどで実装すると、対応関係の維持や活用に有効だということです。

 最後に三つ目のテーマとしてTEIの構造を書き換えるなど、TEIにおけるデータメンテナンスのために、どういう注意点があるかとことに関して討論しました。小風氏からはTEIへの変換に手作業が入るようなワークフローにしておくと、更新のたびに手作業がはいるため、正規表現などで工夫をして完全に自動化を行っておくことが、データ構造の更新の際にも有効だという経験を共有いただきました。永崎氏からは、本文こそ変わっていなければ、更新の自動化ができることが多そうだという意見が出され、そのためのツールが共同で開発されれば便利かもしれないという話も出ました。

 司会からのこれら三つのテーマの後、自由に討論が盛り上がりました。例えば、後藤氏からTEIのマークアップに入る前のテキストデータの渡し方についても良いやり方が共有されるといいという提案があり、TEIのStandOffによる記述はテキストデータとマークアップを比較的疎結合にしておけるので良いワークフローを構成しやすいといった議論がなされました。

 総合資料学の今後につながるだけではなく、日本におけるTEIの今後のためにも重要な議論がなされた研究会になりました。

【日時】2020年12月22日(火)13:00〜17:00

【場所】オンライン(Zoom)

開会挨拶  後藤 真(国立歴史民俗博物館)
報告1「SAT大蔵経データベースにおけるTEIの活用と今後」
  永崎 研宣(人文情報学研究所)
報告2「延喜式TEIプロジェクトの現況およびプロソポグラフィ研究へのTEI活用例」
  小風 綾乃(お茶の水女子大学)
報告3「『渋沢栄一伝記資料』のTEI適用へ向けて」
  茂原 暢・井上 さやか・金 甫榮(渋沢栄一記念財団)
報告4「「デジタル源氏物語」の構築におけるTEIの活用」
  中村覚(東京大学史料編纂所)
総合討論司会:亀田 尭宙(国立歴史民俗博物館)
議論のようす