2020 年度実績報告書

体験談アーカイビングにおける地理的位置への言及に基づいた自動索引付けに関する研究

研究課題

研究課題/領域番号	18K11982
研究機関	筑波大学
研究代表者	乾孝司筑波大学, システム情報系, 准教授 (60397031)
研究期間 (年度)	2018-04-01 – 2021-03-31
キーワード	固有表現抽出 / 地名抽出 / Bi-LSTM-CRF / 地理的位置推定 / エンティティ・リンキング / 文書ジオロケーション
研究実績の概要	本研究課題は、文書コンテンツ内で言及されている地理的位置を索引付けし地理的位置による文書検索を実現するために、文書コンテンツ内で言及されている地理的位置を自動特定する技術を確立することが目標である。この目標の実現のためにこれまで、文書からの地名抽出技術、および地名の地理的位置の特定（地名の曖昧性解消）技術の、２つの要素技術の開発をおこなった。2020年度は、それらを踏まえ以下の研究項目（A）、（B）に取り組むと共に、両技術をあわせた総合評価をおこなった。（A）本研究課題において地名抽出の結果は後段の処理に強い影響を与える。そこで、昨年度までの成果であるBi-LSTM-CRF モデルに対して、文書内の単語画像情報を言語情報と統合して利用する地名抽出の改良モデルを提案した。評価実験の結果、提案手法は標準的なBi-LSTM-CRF よりも高いF値(最大で89.67%)を達成でき、特に未知語事例に対して有効であることを確認した。（B）地名の地理的位置特定（地名の曖昧性解消）課題において入力文書の文書長が短い場合、実務的には文書単位での地理的位置特定課題で代替可能となる。そこで、昨年度に予備的に検討したdeepgeo法に対して、地名表記に加え所在地をもつ施設名を手掛かりとする際、それらが学習データに存在しない場合であっても機能する深層学習モデルを提案した。評価実験の結果、提案手法は deepgeo法よりも高い地理的位置特定性能をもつことを確認した。また、これまでの成果を統合し、文書内の地名の抽出から地理的位置特定（曖昧性解消）までの一連の処理の流れを完成させることで、文書索引付けに必要な地理的位置情報をある程度の性能で自動特定する技術を実現できた。以上から、当初研究目標で述べた項目について概ね達成できたと言える。

研究成果
(2件)

すべて 2021 2020

すべて学会発表 (2件) (うち国際学会 1件)

[学会発表] ニューラル日本語固有表現認識における格フレームの有効性検証2021
- 著者名/発表者名
  陰山宗一, 駒田拓也, 乾孝司
- 学会等名
  言語処理学会第27回年次大会
[学会発表] An Element-wise Visual-enhanced BiLSTM-CRF Model for Location Name Recognition2020
- 著者名/発表者名
  Takuya Komada and Takashi Inui
- 学会等名
  The 3rd International Workshop on Spatial Language Understanding
- 国際学会