2023 Fiscal Year Annual Research Report
メタ情報に頼らない高被覆旅行記ジオロケーション技術の開発
Project/Area Number |
21K12137
|
Research Institution | University of Tsukuba |
Principal Investigator |
乾 孝司 筑波大学, システム情報系, 准教授 (60397031)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 文書ジオロケーション技術 / 地理的知識グラフ / 埋め込み表現学習 / ランドマーク抽出 / エンティティリンキング / Data Augmentation |
Outline of Annual Research Achievements |
観光ビックデータを活用した包括的観光ニーズ調査の対象データとして観光旅行記SNSデータがあるが、これまでのところ、地理的位置情報の取得技術に関する技術的な整備の遅れにより、本調査への観光旅行記SNSデータの利活用は進んでいない。この状況を打開するため、本研究課題では、自然言語解析技術に立脚した2つの要素技術(地理的近接性を保持した埋め込み表現学習および地理的特定性を有するランドマーク抽出)を新たに開発することを通して、観光旅行記SNSの投稿内容から高精度に地理的位置を特定する技術(文書ジオロケーション技術、DG技術)を確立することを目的とする。 2022年度までに、当初達成目標として設定した上記2つの要素技術に関する開発に着手し、おおよそ良好な成果を得た。そこで、2023年度は、(1) ここまで開発した技術に基づいて、47都道府県レベルの文書ジオロケーション課題の性能評価を実施し、(2) その結果を踏まえ、性能向上に向けてDGモデルのさらなる改善に取り組んだ。また、(3) 本課題では埋め込み表現がもつ特徴が最終的な性能へ与える影響が無視できないため、日本語単語埋め込みの字種違いの表記ゆれの影響を追加調査した。 その結果、(1)では、学習データの確保が難しい都道府県では性能が低下する傾向が観察された。(2) では、所在可能性に基づいてランドマーク情報を都道府県情報に変換するデータ拡張手法、およびBERTモデルに基づいてエンティティ同定情報を取り込む手法が有効であること、どちらの手法もベースラインモデルでは性能の低い都道府県に対して有効に機能することを確認した。(3) では、類義語などの意味的関係をもつ単語間では字種表記の違いによる単語の意味の異なり方が似る傾向があることがわかった。 以上から、本研究課題は研究期間全体を通して当初研究目的で述べた項目について概ね達成できたと言える。
|
Research Products
(2 results)