本研究プロジェクトの目的は、世界史や日本史といった歴史的事象に関するテキストを理解・解釈することのできる計算機システムを実現することである。それを実現する方法として我々は、様々な歴史イベントを表現可能であり、自律的に時間発展する世界モデルを用いるというアプローチを提案している。前年度は、歴史的人物の地点間の移動を、隠れマルコフモデルによってモデル化し、EMアルゴリズムの一種であるBaum-Welchアルゴリズムにより人物の移動経路をある程度推定できることが明らかになった。しかし同時に、テキストから抽出された人物の存在地点に関する情報の誤りや、データ量が小さいことに起因する過学習の問題も明らかになった。 これらの問題に課題に対処するため、当該年度は、構文解析器と機械学習を利用することによる情報抽出の精度向上、およびベイズ推定の枠組みを利用することによる過学習の軽減に関する研究を行った。 上記のアプローチの有効性を検証するため、前年度に引き続き日本語Wikipediaのテキストを利用して実験を行った。具体的には、日本の戦国時代の人物に関して、テキスト記述から人物の存在地点に関する断片的な情報を抽出し、それらを制約条件として、他の時点における存在確率を推定することとした。また、誤検出防止のための機械学習モデルとして、BERTと呼ばれる言語モデルを人手によるアノテーションデータで転移学習したモデルを利用した。 実験の結果、機械学習と構文解析器の導入により、テキストから抽出される人物の位置情報の精度が向上することが明らかになった。
|