研究課題/領域番号 |
19K20626
|
研究機関 | 東京大学 |
研究代表者 |
中村 覚 東京大学, 史料編纂所, 助教 (80802743)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
キーワード | TEI / くずし字OCR / 編集距離 / 源氏物語 / VSCode / Omeka |
研究実績の概要 |
2020年度より、人間と機械の両者によるテキストデータの作成支援に取り組んでいる。 人間によるテキストデータ作成支援に関する研究の成果として、OSSのソースコードエディタであるVSCodeの拡張機能として翻刻支援システムの開発と公開を行なった。具体的には、TEIによるルビ(ruby)や校異情報(app)、および割注などのマークアップを支援する機能をVSCodeの拡張機能として開発した。またXMLファイルの編集に合わせて、表示結果例をリアルタイムにプレビュー可能な機能も提供する。これらの機能を用いることにより、TEIを用いたテキストデータの作成を支援する。 機械によるテキストデータ作成支援に関する研究の成果として、「デジタル源氏物語(AI画像検索版)」というウェブサイトを構築・公開した。本ウェブサイトの特徴として、くずし字OCRと編集距離を利用して、テキストデータが類似する写本・版本の画像を自動的に推薦する機能を提供する。本ウェブサイトを通じて、一部認識誤りを含むOCRテキストデータの利用方法の一例を示すことができた。また、本ウェブサイトの構築に合わせて、CODH(人文学オープンデータ共同利用センター)が公開する「くずし字データセット」を用いて独自のくずし字OCRモデルを開発した。深層学習を用いた文字検出と文字認識、および読み順の自動推定を行う3つのステージから構成される。今後、本モデルの公開を行い、第三者が利用可能な環境を整備する。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究開始時においては、オープンソースのデジタルコンテンツ管理システムである「Omeka」のプラグイン開発のみを計画していた。しかし、2021年度からVSCodeのプラグイン開発に着手した。VSCodeはテキストエディタのデファクトスタンダードとして広く利用されており、さまざまなプラグイン(Visual Studio Live Share:リアルタイムの共同開発、など)が既に開発されている。また、TEIによるマークアップを支援するプラグイン(例:Scholary XMLやtei-publisher-vscodeなど)も複数開発されている。これらのプラグインと今回開発するプラグインを組み合わせて利用することにより、TEI/XMLを用いた翻刻テキストの作成を効率的に進めることが可能となる。特に、Omekaのプラグイン「Scripto」を用いた場合と比較して、書誌情報(teiHeader)や校異情報(app)など、より詳細な翻刻テキストデータの作成を支援することができる。一方、Scriptoを使用した場合に比べて、簡便さは失われる(TEI/XMLの知識が一部求められる)ため、目的や環境に応じて、OmekaとVSCodeを使い分けて使用することができる。このように、当初予定していたツール以外の開発にも着手することができ、研究課題が順調に進展している。
|
今後の研究の推進方策 |
今後は以下の課題に取り組む。 (1)VSCodeの拡張機能の改良、(2)Omeka Sのプラグイン「Scripto」を含む、翻刻環境の導入と使用方法に関するドキュメンテーション、(3)くずし字認識モデルの公開、(4)開発したツールの実適用
(1)について、開発したVSCodeの拡張機能は既に公開済みであり、第三者が利用できるようになっている。そのため、第三者の利用によるフィードバック等に基づき、機能改良を行う。(2)については、これまで開発したツール群を第三者が利用できるようにするための環境構築である。特に「Scripto」の使用方法に関するドキュメントを作成し、インターネット上で公開する。(3)については、今年度作成したくずし字認識モデルを第三者が利用できるようにするための環境構築である。2と同様、開発したモデルの使用方法に関するドキュメンテーションも含めて用意し、インターネット上で公開する。(4)については、1および2で述べたツールを実際の翻刻プロジェクトに適用し、有用性を評価することが目的である。これまでの『校異源氏物語』のテキストデータ作成への適用に加えて、校異情報のマークアップを含む、より詳細な翻刻テキストデータの作成プロジェクトへの適用を予定している。
|
次年度使用額が生じた理由 |
次年度使用額が生じた理由として、人件費と旅費に計画の変更が生じたことが挙げられる。人件費について、機械学習を利用した翻刻作業の一部機械化と、ボランティアベースの協力者の参画により、予定使用額を大きく下回った。前者について、具体的には人文学オープンデータ共同利用センター(CODH)が提供する「くずし字OCR」サービスおよび独自に開発したくずし字OCRモデルを利用することで、人手による作業が、テキストデータの作成から一部OCR結果の確認作業に切り替わった。さらに旅費については、コロナウイルスの影響による学会のオンライン開催等により、使用予定額との差額が生じた。 次年度は、これまでプロトタイピングにより開発してきた機能の公開に向け、APIサーバの導入等に経費を使用する。
|