2018 年度実績報告書

世界モデルを用いたシミュレーションによる歴史テキスト理解

研究課題

研究課題/領域番号	16K00293
研究機関	東京大学
研究代表者	鶴岡慶雅東京大学, 大学院情報理工学系研究科, 教授 (50566362)
研究期間 (年度)	2016-04-01 – 2019-03-31
キーワード	自然言語理解
研究実績の概要	本研究プロジェクトの目的は、世界史や日本史といった歴史的事象に関するテキストを理解・解釈することのできる計算機システムを実現することである。それを実現する方法として我々は、様々な歴史イベントを表現可能であり、自律的に時間発展する世界モデルを用いるというアプローチを提案している。前年度は、歴史的人物の地点間の移動を、隠れマルコフモデルによってモデル化し、EMアルゴリズムの一種であるBaum-Welchアルゴリズムにより人物の移動経路をある程度推定できることが明らかになった。しかし同時に、テキストから抽出された人物の存在地点に関する情報の誤りや、データ量が小さいことに起因する過学習の問題も明らかになった。これらの問題に課題に対処するため、当該年度は、構文解析器と機械学習を利用することによる情報抽出の精度向上、およびベイズ推定の枠組みを利用することによる過学習の軽減に関する研究を行った。上記のアプローチの有効性を検証するため、前年度に引き続き日本語Wikipediaのテキストを利用して実験を行った。具体的には、日本の戦国時代の人物に関して、テキスト記述から人物の存在地点に関する断片的な情報を抽出し、それらを制約条件として、他の時点における存在確率を推定することとした。また、誤検出防止のための機械学習モデルとして、BERTと呼ばれる言語モデルを人手によるアノテーションデータで転移学習したモデルを利用した。実験の結果、機械学習と構文解析器の導入により、テキストから抽出される人物の位置情報の精度が向上することが明らかになった。

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] ベイジアン隠れマルコフモデルとWikipediaテキストを用いた歴史人物移動モデルの推定2019
- 著者名/発表者名
  古川好
- 学会等名
  言語処理学会第25回年次大会