研究課題/領域番号 |
18K11982
|
研究機関 | 筑波大学 |
研究代表者 |
乾 孝司 筑波大学, システム情報系, 准教授 (60397031)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 固有表現抽出 / 地名抽出 / Bi-LSTM-CRF / 地理的地位特定 / エンティティ・リンキング |
研究実績の概要 |
本研究課題は、文書コンテンツ内で言及されている地理的位置を索引付けし地理的位置による文書検索を実現するために、文書コンテンツ内で言及されている地理的位置を自動特定する技術を確立することが目標である。この目標の実現のために、本研究では言語解析技術に立脚した2つの要素技術(1)地名抽出、(2)地理的位置の特定の開発をおこなう。 2019年度は、2018年度の研究成果で挙げられる問題点に対する2件の改良、および1件の予備的考察を実施した。具体的な改良としては、深層学習に基づく地名抽出技術と地理的位置特定における教師なしデータの利用技術の開発をおこなった。また、予備的考察として、深層学習に基づく文書単位での地理的位置特定について検討した。 深層学習に基づく地名抽出技術では、2018年度に開発した条件付確率場(CRF)に基づく地名抽出技術に対して、素性抽出にLSTMに基づく深層学習技術を適用することで、性能改善をおこなった。また、地理的位置特定における教師なしデータの利用技術では、文書中の都道府県レベルの言及地名情報に従って疑似教師データを構築し、教師データと混合する手法を提案し、最適な混合方法について比較検討をおこなった。 また、予備的考察としておこなった深層学習に基づく文書単位での地理的位置特定では、既存手法であるdeepgeo法の実装、追試をおこない、その問題点を精査した。その結果、明示的な手がかりを見逃す誤りが散見していることを確認し、その問題点の改良について検討した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2019年度は、概ね計画通り進行することができた。具体的には、(1)深層学習に基づく地名抽出技術、(2)地理的位置特定における教師なしデータの利用技術、(3)深層学習に基づく文書単位での地理的位置特定、の3項目の技術開発をおこなった。 (1)2018年度に条件付確率場(CRF)に基づく地名抽出技術を開発したが、 2019年度は、このモデルの素性抽出部分をLSTMを使用することで改善した 深層学習に基づく地名抽出技術の開発をおこなった。 固有表現抽出のための標準的な深層学習手法である Bi-LSTM-CRF の実装および評価実験を終え、昨年度モデルよりも抽出性能が向上する(F値で85.9→87.6)ことを確認した。さらに、このベースモデルの改良として、画像情報を新たな特徴量として利用可能なモデルの検討をおこなっている。 (2)地理的位置特定課題は課題の性質上疎データ問題に陥りやすいという問題がある。そこで、既存手法であるTRIPDL法に対して、教師データと教師なしデータを併用できるよう改良した。文書中の都道府県レベルの言及地名情報に従って疑似教師データを構築し、教師データと混合する手法を提案した。幾つかの混合方法を比較検討した結果、両データを常時混合させるではなくデータが不足する場合のみ混合させる方法が効果的であり、最良で76%の正解率を達成できることを確認した。 (3)地理的位置特定課題において文書が短い場合、その変形課題として、文書単位での地理的位置特定が有効である。そこで、深層学習に基づく文書単位での地理的位置特定手法の技術開発をおこなった。既存手法であるdeepgeo法に対して、住所表記を明示的な手がかりとして考慮できるように改良をおこない、性能が向上(正解率で66.3→67.7)することを確認した。
|
今後の研究の推進方策 |
これまでの状況を踏まえ、2020年度は次の項目に取り組む計画である。(1)深層学習に基づく地名抽出技術の精度改善(2)深層学習に基づく文書単位での地理的位置特定の精度改善 (1)本研究課題において、地名抽出課題は全体の処理へ強く影響を与えるため、できるだけ高い抽出精度が達成できることが望まれる。そこで、昨年度に引き続き、深層学習に基づく地名抽出技術の精度改善に取り組む。2019年度に実装を終えているBi-LSTM-CRF モデルに対して、画像情報を新たな特徴量として利用可能なモデルの検討をおこなう予定である。深層学習に基づくモデルは多メディア情報を混合しやすい利点があることを活かし、従来のテキスト情報に加えて新たに画像情報を特徴量として利用する方法論を確立する。 (2)2019年度に予備的に検討した深層学習に基づく文書単位での地理的位置特定に本格的に取り組む。2019年度におこなった実験結果のデータ分析から、教示可能な明示的手がかりの種類は住所表記以外にもあることが判定している。そこで、2020年度は、幅広く明示的手がかりを考慮できるモデルの開発に取り組む。特に、住所情報を属性としてもつ建物(ランドマーク)は有力な手がかりと成り得るため、ランドマーク自動抽出技術の検討および、ランドマーク抽出と地理的位置特定を統合する深層学習モデルを開発し、さらなる地理的位置特定の性能向上を目指す。 また、上記を含め、テキスト入力から地理的位置の特定までの処理に関する総合的な評価をおこなう。
|
次年度使用額が生じた理由 |
主に、予定していた出張が一部キャンセルとなったため余剰が生じた。余剰分については次年度の物品購入(主に計算サーバ購入費の一部)に充てる計画である。
|