2022 Fiscal Year Research-status Report
メタ情報に頼らない高被覆旅行記ジオロケーション技術の開発
Project/Area Number |
21K12137
|
Research Institution | University of Tsukuba |
Principal Investigator |
乾 孝司 筑波大学, システム情報系, 准教授 (60397031)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 文書ジオロケーション技術 / 地理的知識グラフ / 埋め込み表現学習 / ランドマーク抽出 / 地理的特定性 / エンティティリンキング |
Outline of Annual Research Achievements |
観光ビックデータを活用した包括的観光ニーズ調査の対象データとして観光旅行記SNSデータがあるが、これまでのところ、地理的位置情報の取得技術に関する技術的な整備の遅れにより、本調査への観光旅行記SNSデータの利活用は進んでいない。 この状況を打開するため、本研究課題では、自然言語解析技術に立脚した2つの要素技術(地理的近接性を保持した埋め込み表現学習および地理的特定性を有するランドマーク抽出)を新たに開発することを通して、観光旅行記SNSの投稿内容から高精度に地理的位置を特定する技術(文書ジオロケーション技術、DG技術)を確立することを目的とする。 2021年度は、地理的近接性を保持した埋め込み表現学習に関する手法の開発に着手し、良好な成果を得た。そこで、2022年度は主に、地理的特定性を有するランドマーク抽出に関する手法の開発に着手した。DG課題では地理的特定性を有するランドマークが重要な手がかりとなるが、現状において、単語の地理的特定性(ランドマーク性)の有無を判定する技術は整備されていない。そこで、本研究課題では、ある単語が文書内に現れた時にその単語が地理的位置を特定する程度をあらわす指標として地理的特定性指標を開発した。本指標は、地理的曖昧性および名称専有性の2つの要素から構成されている。地理的曖昧性はエンティティとそれをあらわす単語との対応関係に基づく指標であり、名称専有性はエンティティと単語との対応関係に関する人々の一般的な認知の度合いに基づく指標である。 日本語Wikipedia データを知識源として、2つの指標値を推定したところ、直接評価では、ある程度人間の直感に沿う妥当な指標値を推定できていることを確認した。また、間接評価では、推定した指標値をDG課題の特徴量として取り込んだ比較実験を通して、指標値がDG課題の性能向上に寄与することを確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2022年度は主に地理的特定性を有するランドマーク抽出に関する手法の開発に着手する計画であったが、以下の通り、概ね計画通り進行することができた。 エンティティリンキング課題の特殊形であるWikification 課題の標準的手法を参考にして地理的特定性の推定手法を開発した。具体的には、Wikipedia のエンティティ(ページ)と、Wikipedia ページ内にあらわれるエンティティをあらわす単語がもつアンカリンク情報に注目し、(1)ある特定のエンティティへリンクされるアンカ文字列の異なり数に基づいて地理的曖昧性を表現することとした。また、(2)ある特定のエンティティへリンクされるアンカ文字列の集合に対して、そこから当該のエンティティへリンクされるリンク割合に基づいて名称専有性を表現した。 日本語Wikipedia データを知識源とすることで、地理的位置属性を有する43,189件のエンティティに対して地理的特定性を求めた。推定値の評価として、直接評価では、ある程度人間の直感に沿う妥当な指標値を推定できていることを確認した。例えば、「いろは坂」という名称の道路は日本国内に2箇所しか存在せず、「いろは坂」の地理的曖昧性は低い値となっていたが、2箇所のうち日光市の「いろは坂」はもう1件と比べると認知度が非常に高いため、名称専有性は高い値となっていた。推定値の間接評価では、47都道府県に対するDG課題へ推定した指標値の情報を取り込んだ。その結果、地理的特定性を取り込んでいないベースライン手法では正解率が0.66であるのに対して、地理的特定性を取り込んだ手法では正解率が0.686まで向上することを確認した。また比較実験を通して、地理的特定性の構成要素である地理的曖昧性と名称専有性のそれぞれがDG課題に有効であること、および、両要素が地理的特定性の構成要素として必要であることを確認した。
|
Strategy for Future Research Activity |
これまでの開発状況を踏まえ、2023年度は次の項目に取り組む計画である。 (1)これまでに、自然言語解析技術に立脚した2つの要素技術(地理的近接性を保持した埋め込み表現学習および地理的特定性を有するランドマーク抽出)の開発に着手し、それぞれある程度良好な成果を得た。そこで、これらの開発成果を踏まえ、これらを統合した手法に基づいて、47都道府県に対するDG課題の性能調査を実施する。特に、データの確保が困難となりやすい地方部での性能調査を実施すると共に、地理的特定性に着目したランドマークの特性とDG課題の精度の関係性を中心的に調査する。 (2)これまでの分析から、47都道府県を対象としたDG課題では大都市部に誤分類する誤り傾向が観察されており、これが地方部における性能劣化の原因のひとつとなっている。そこで、地方部でのDG性能改善を目的とした手法の改善に着手する。具体的には、<1>都道府県分布を考慮した地理的特定性の取り込み手法を検討する。<2>複数の地理的知識の統合利用方法を検討する。 また、上記を含め、本研究課題の成果に基づいてDG課題の総合的な評価をおこなう。
|
Causes of Carryover |
GPU価格が高騰したため予定していた物品(ワークステーション)の購入を保留した。また一方で、論文誌掲載費、出張費が予定額を超過したが、物品購入保留分を上回ることがなかったため、次年度使用額が生じた。 今年度に引き続き、次年度もワークステーション価格が上がる可能性が高いため、これに次年度使用額を充てる計画である。
|
Research Products
(3 results)