2021 Fiscal Year Research-status Report
自然言語処理による日本列島全体における考古遺跡の時空間動態の把握
Project/Area Number |
21K21323
|
Research Institution | Osaka Institute of Technology |
Principal Investigator |
坂平 文博 大阪工業大学, 情報科学部, 准教授 (70578129)
|
Project Period (FY) |
2021-08-30 – 2023-03-31
|
Keywords | 自然言語処理 / 考古遺跡 / 発掘調査報告書 |
Outline of Annual Research Achievements |
本研究はマクロ的な歴史現象に関する考古学研究のために、発掘調査報告書の文章に対して自然言語処理技術を適用し、発掘調査報告書間の類似度を算出することで、類似度の高い、つまり文化的に関連する遺跡同士を抽出する手法を開発する。本手法の適用例として縄文から弥生への文化変容について約1万間の日本列島全体における大局的な展開を検討する。本手法を開発することで考古学研究者は、遺物や遺構など複雑な要素で構成される文化の伝播を研究する際に、従来のように発掘調査報告書を1冊ずつ虱潰しに読んだうえで必要な情報かどうかを判断するという多大な労力から解放され、容易に長期間の広域における大局的な展開の把握が可能となることで、従来になかった再発見や再解釈につながることが期待できる。研究の第1年度(2021年度)としては、次の4点について研究を実施した。 (1)自然言語的に類似した記述を持つ発掘報告書間の妥当性検証のためのベンチマークとする遺跡の分類に関して、適した研究論文の調査を行った。 (2)上記(1)の結果に従い、当該研究論文における遺跡分類において言及されている遺跡の発掘調査報告書を収集して、必要に応じて一部OCR処理を行いテキスト化を実施した。 (3)発掘調査報告書は複数冊に分かれて刊行されているため、解析対象となる箇所の選定を検討した。 (4)テキスト化した発掘調査報告書を試解析に用いながら、テキストに含まれるノイズの除去の方法などの前処理の方法の検討や分散ベクトルを得るための各種手法の比較検討を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
新型コロナウィルスの流行及び半導体の製造及びサプライチェーンの障害により、当初予定していた年度内の国際会議への参加及び高速計算機の導入が困難となった。そのため、一部計画を変更して、最初に、自然言語的に類似した記述を持つ発掘報告書間の妥当性検証のためのベントマークとする遺跡の分類に関して、適した研究論文の調査を行った。そのうえで、当該研究論文で言及されている遺跡の発掘調査報告書に限定してテキストデータの収集を行い、それらを用いて試解析を行いながら、データの前処理方法や適用手法の検討を行った。
|
Strategy for Future Research Activity |
今後は、研究の第1年度(2021年度)に行った試解析の結果をもとに研究を推し進める。試解析の結果は方法論的にある程度を含むため、これら内容をまとめて下半期以降に国際会議で成果を発表する予定である。また上半期に高速計算機を導入し、より大規模な解析を実施する予定である。
|
Causes of Carryover |
新型コロナウィルスの流行及び半導体の製造及びサプライチェーンの障害により、当初予定していた年度内の国際会議への参加及び高速計算機の導入が困難となった。今後は、国際会議だけでなく国内会議にも参加し成果を発表するほか、上半期に高速計算機の導入を行い、より大規模な解析を実施する予定である。
|