2021 Fiscal Year Research-status Report
メタ情報に頼らない高被覆旅行記ジオロケーション技術の開発
Project/Area Number |
21K12137
|
Research Institution | University of Tsukuba |
Principal Investigator |
乾 孝司 筑波大学, システム情報系, 准教授 (60397031)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 文書ジオロケーション技術 / 地理的知識グラフ / 埋め込み表現学習 / ランドマーク抽出 |
Outline of Annual Research Achievements |
観光ビックデータを活用した包括的観光ニーズ調査の対象データとして観光旅行記SNSデータがあるが、これまでのところ、地理的位置情報の取得技術に関する技術的な整備の遅れにより、本調査への観光旅行記SNSデータの利活用は進んでいない。 この状況を打開するため、本研究課題では、自然言語解析技術に立脚した2つの要素技術(地理的近接性を保持した埋め込み表現学習および地理的特定性を有するランドマーク抽出)を新たに開発することを通して、観光旅行記SNSの投稿内容から高精度に地理的位置を特定する技術(文書ジオロケーション技術、DG技術)を確立することを目的とする。 2021年度は主に、地理的近接性を保持した埋め込み表現学習手法の開発を実施した。単語に対する一般的な埋め込み表現学習では、単語の周辺文脈情報に基づいて学習が進むため分布仮説に従った意味情報が単語ベクトルに反映されるが、この方法では本研究課題が注目する都市間の地理的近接性に関する情報を単語ベクトルに埋め込むことが出来ない。そこで本研究では、3つ組関係知識の埋め込み表現学習手法であるTransE法をベースにして、地理的近接性を保持した埋め込み表現学習手法を開発し、それに基づく地理的知識グラフ(GeoKG)を構築した。構築したGeoKGをDG課題に適用する評価実験を通して、構築したGeoKGのDG課題に対する有効性を確認した。 また同時に、地理的特定性を有するランドマーク抽出に関する予備調査を実施した。DG課題では地理的特定性を有するランドマークが重要な手がかりとなるが、現状において、単語の地理的特定性(ランドマーク性)の有無を判定する技術は整備されていない。そこで、単語のランドマーク性に関する定量的指標の開発準備として、住所属性を有する地理的エンティティを対象にして、Wikipedia を知識源とするランドマーク性指標を検討した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2021年度は主に、地理的近接性を保持した埋め込み表現学習手法の開発に着手する計画であったが、以下の通り、概ね計画通り進行することができた。 地理的近接性に関する情報を単語ベクトルに埋め込むために、日本国内の住所地名および、ある住所地名に所在している施設名をエンティティとし、また、これらのエンティティ間に包含関係、所在関係、近接関係、施設間近接関係の4タイプの地理的関係タイプを定義することで、約24万件のエンティティと約370万件のエンティティ間関係をもつGeoKGを構築した。次に、このGeoKGに対して、地理的距離情報を考慮できるTransE法を適用することで、地理的近接性を保持した地理的知識グラフの埋め込み表現を獲得した。さらに、この埋め込み表現の情報をDG課題に取り込むための2つのアテンション手法(事例単位アテンションとトークン単位アテンション)を開発した。DG課題を通した評価実験の結果、ベースライン法の推定結果がF値尺度で0.663であったのに対して、提案法では最良で0.686の結果を得ており、提案手法の有効性を確認した。 また、地理的特定性を有するランドマーク抽出に関する予備調査を実施した。次年度以降に実施予定である単語のランドマーク性に関する定量的指標の開発準備として、住所属性を有する地理的エンティティを対象にして、Wikipedia を知識源とするランドマーク性指標を検討した。具体的には、ある地理的エンティティが文書内で言及される際に他エンティティと言語表現が重複する度合いを示す地理的曖昧性、および、地理的曖昧性を持つエンティティが文書内で言及される際に当該のエンティティを指し示すために使用される度合いを示す名称専有性の2つの定量的指標を設定し、Wikipedia を知識源として、各エンティティへのアンカーリンク関係情報等から指標値を算出する手続きを検討した。
|
Strategy for Future Research Activity |
これまでの状況を踏まえ、2022年度は次の項目に取り組む計画である。 (1)地理的特定性を有するランドマーク抽出手法の開発に着手する。2021年度に実施した予備調査から、Wikipedia を知識源とすることで、エンティティに対するランドマーク性をある程度定量化できることが確認できた。そこで、2022年度はエンティティに対するランドマーク性の値に基づいて、メンション(エンティティの文書内での言及)に対するランドマーク性の指標を構築し、さらに、文書ジオロケーションに取り込むための方法を検討する。具体的には、地理上の区画として都道府県レベルを想定したDG課題を仮定し、エンティティに対するランドマーク性の値を都道府県毎に集計することでメンションに対する都道府県別のランドマーク性指標値を求める。この値は都道府県数にあたる47次元実数値ベクトルとなることから、このベクトルをゲート機構の導入等によって、深層学習ベースのDG手法に取り込む計画である。 (2)それと同時に、DG課題に適した地理的知識グラフ(GeoKG)の特徴に関する分析を進める計画である。2021年度の成果として、約24万件のエンティティと約370万件のエンティティ間関係をもつGeoKGを構築し、これがDG課題に有効であることを確認したが、DG課題に対するGeoKGの各要素の寄与度は明らかになっていない。そこで、ノードの中心性など、ネットワーク分析分野で開発されたネットワークの特徴をあらわす指標をGeoKGに適用することで、DG課題に寄与するGeoKGの要素が持つ特徴を調査する。
|
Causes of Carryover |
新型コロナウィルスの影響によりGPU価格が高騰したためワークステーションの購入費用が予定を超過した。その一方で、予定していた学会参加が相次いで取りやめとなったことにより研究が制限された影響が物品購入超過分を上回ったため、次年度使用額が生じた。 今年度に引き続き、次年度もワークステーション価格が上がる可能性が高いため、これに次年度使用額を充てる計画である。
|
Research Products
(1 results)