2016 Fiscal Year Annual Research Report
日本考古学国際化のための考古学関係用語シソーラス構築と自動英語化の研究
Project/Area Number |
16H05881
|
Research Institution | Nara National Research Institute for Cultural Properties |
Principal Investigator |
高田 祐一 独立行政法人国立文化財機構奈良文化財研究所, 企画調整部, 研究員 (50708576)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | 考古学 / 日本史 / データベース / シソーラス / 発掘調査報告書 / 自然言語処理 / デジタルアーカイブ / 情報検索 |
Outline of Annual Research Achievements |
本研究は、考古学関係用語シソーラスおよび考古学関係用語の日英対訳データベースを構築し、全国の発掘報告書の全文データを格納している「全国遺跡報告総覧」システムを拡張開発することで日本考古学の国際化に資することを目的とする。 2016年度は、考古学関係用語の収集、基本的な考古学用語シソーラスおよび日英対訳を作成した。考古学関係用語は46181語を収集した。考古学は、文化財保護行政や文化財科学とも密接に連携しているため、文化財に関係する用語を収集した。用語は、遺物関係、遺構関係、その他の3つの種別に分類した。遺物関係は9311語、遺構関係は4751語、その他は32119語で合計46181語となった。なお「住居跡」と「住居址」のような類語は整理しておらず、用語のパターンの網羅をまず目的とした。この用語辞書をもとに、報告書類18,868件が保持するデータ(PDFページ数2,280,897,収録文字数1,515,825,312)を対象に出現回数を集計し、「報告書ワードマップ」として図に可視化した。 日英対訳辞書では、英語の考古学関係用語を日本語に自動変換し、類語付与したうえで検索する機能を2016年8月に公開した。日本の発掘報告書を閲覧するには、日本語の習得が必要になるが、海外の利用者の日本語習熟レベルは様々であり、円滑な情報アクセスに課題がある。本機能によって日本語の考古学用語を知っていない場合でも、英語で日本の発掘報告書を調べることが可能になり海外に向けた日本考古学の成果発信に一助となる。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
考古学関係用語の収集や日英対訳およびシソーラスの整備が計画より順調に推移した。整備できた基礎データは次の通りである。考古学関係用語:46181語、日英の和英対照の考古学用語:7335用語、シソーラス6360語。 これらの基礎データ整備が前倒しで完了したため、3年目の公開を予定していた英語自動変換機能を1年目に公開できた。海外からの利用が増加している。 報告書ワードマップ機能では、報告書の内容を可視化することで、日本考古学の成果の概略を把握し、何を重点的に記載しているか判明した。判明した成果をもとに今後の研究計画に反映する。
|
Strategy for Future Research Activity |
基礎的な作業は、計画より順調に推移している。ただし漏れがあるため、精度を高める作業が必須である。精度を高める一方、下記の応用的な開発に取り組み、成果を最大化していく。 考古学関係用語46181語のうち、頻出用語上位1000位の用語にて全体の出現回数の77.6%を占める。上位10位では17.7%を占める。出現回数上位100位の語だけを抽出し、出現回数を図化したところ、上位33位で出現回数の70%を占めた。いわゆるロングテール構造となっていることが判明した。特定の一部の用語が頻繁に使用されている。この頻繁に使用される用語を検索対象とした場合、大量の検索結果がヒットしてしまい、必要とする個別の報告書の選別が困難になる可能性がある。そのため大量に検索結果が表示された際、精度の高い絞込検索が必要となる。この課題を解決するための研究を推進する。
|