2020 Fiscal Year Annual Research Report
A Study on Automatic Indexing Based on Textual Mentions to Geographical Location in Story Archiving
Project/Area Number |
18K11982
|
Research Institution | University of Tsukuba |
Principal Investigator |
乾 孝司 筑波大学, システム情報系, 准教授 (60397031)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 固有表現抽出 / 地名抽出 / Bi-LSTM-CRF / 地理的位置推定 / エンティティ・リンキング / 文書ジオロケーション |
Outline of Annual Research Achievements |
本研究課題は、文書コンテンツ内で言及されている地理的位置を索引付けし地理的位置による文書検索を実現するために、文書コンテンツ内で言及されている地理的位置を自動特定する技術を確立することが目標である。この目標の実現のためにこれまで、文書からの地名抽出技術、および地名の地理的位置の特定(地名の曖昧性解消)技術の、2つの要素技術の開発をおこなった。2020年度は、それらを踏まえ以下の研究項目(A)、(B)に取り組むと共に、両技術をあわせた総合評価をおこなった。 (A)本研究課題において地名抽出の結果は後段の処理に強い影響を与える。そこで、昨年度までの成果であるBi-LSTM-CRF モデルに対して、文書内の単語画像情報を言語情報と統合して利用する地名抽出の改良モデルを提案した。評価実験の結果、提案手法は標準的なBi-LSTM-CRF よりも高いF値(最大で89.67%)を達成でき、特に未知語事例に対して有効であることを確認した。 (B)地名の地理的位置特定(地名の曖昧性解消)課題において入力文書の文書長が短い場合、実務的には文書単位での地理的位置特定課題で代替可能となる。そこで、昨年度に予備的に検討したdeepgeo法に対して、地名表記に加え所在地をもつ施設名を手掛かりとする際、それらが学習データに存在しない場合であっても機能する深層学習モデルを提案した。評価実験の結果、提案手法は deepgeo法よりも高い地理的位置特定性能をもつことを確認した。 また、これまでの成果を統合し、文書内の地名の抽出から地理的位置特定(曖昧性解消)までの一連の処理の流れを完成させることで、文書索引付けに必要な地理的位置情報をある程度の性能で自動特定する技術を実現できた。以上から、当初研究目標で述べた項目について概ね達成できたと言える。
|