研究課題/領域番号 |
18K11982
|
研究機関 | 筑波大学 |
研究代表者 |
乾 孝司 筑波大学, システム情報系, 准教授 (60397031)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 自然言語処理 / 固有表現抽出 / 地名抽出 / 条件付確率場 / エンティティリンキング |
研究実績の概要 |
本研究課題は,文書コンテンツ内で言及されている地理的位置を索引付けし地理的位置による文書検索を実現するために,文書コンテンツ内で言及されている地理的位置を自動特定する技術を確立することが目標である.この目標の実現のために,本研究では言語解析技術に立脚した2つの要素技術(1)地名抽出,(2)地理的位置の特定の開発をおこなう. 2018年度は主に地名抽出技術の開発を実施した.我々はこれまでに,Wikipedia を Gazetteer辞書として活用した条件付確率場に基づく固有表現抽出手法を開発していた.しかし,この手法では,単語系列のうち,部分的な要素にしか辞書情報を反映できない問題があった.この問題を解決するために,カテゴリグラフカーネル(CGK)を利用した新しい辞書素性の構築手法を提案し,地名抽出評価用のデータセットを用いて提案手法の有効性を検証した結果,CGKを利用した提案手法はCGKを用いない既存手法よりも抽出性能が向上し,F値で0.859を達成した. また同時に,地理的位置の特定に関する予備実験を進めた.先行研究である POPULATION法では人口データを利用するが,特定対象となる地理的位置すべてにおける人口データは整備が困難という問題があった.この問題を解決するために,人口データの替わりとして関連文書群中での言及回数と局所文脈に基づく地理的位置特定手法を提案し,その有効性を確認した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2018年度は主に地名抽出技術を開発する計画であったが,以下の通り,概ね計画通り進行することができた. 我々はこれまでに,Wikipedia を Gazetteer辞書として活用した条件付確率場に基づく固有表現抽出手法を開発していた.しかし,この手法では,単語系列のうち,部分的な要素にしか辞書情報を反映できない問題があった.この問題を解決するために,カテゴリグラフカーネル(CGK)を利用した新しい辞書素性の構築手法を提案し,地名抽出に適用した.ここで,CGKとは,Wikipedia の各エントリに対してあらかじめ指定した基底カテゴリへの所属確率を推定するアルゴリズムであり,我々は地名関連エントリを基底カテゴリに指定することでCGKを用いた.さらに,標準のCGKでは地名以外の不要カテゴリの扱いが難しいため,新たに不要カテゴリの設定方法を提案した.地名抽出評価用のデータセットを用い提案手法の有効性を検証した結果,CGKを利用した提案手法はCGKを用いない既存手法よりも抽出性能が向上し,F値で0.859を達成した. また同時に,地理的位置の特定に関する予備実験を進めた.先行研究である POPULATION法では人口データを利用するが,大字(おおあざ)などの細粒度地域に関しては高被覆な人口データの整備が困難という問題があった.この問題を解決するために,人口データに替えて関連文書群中での言及回数に基づく地理的位置特定手法を提案した.これは,関連文書群において言及回数が多い地理的位置ほど特定対象となっている言及の地理的位置になりやすいという仮定に基づく.また,特定対象となっている言及の局所文脈は強い手がかりとなることが事前調査からわかっていることから局所文脈情報もあわせて利用する.評価実験の結果,提案手法はPOPULATION法よりも高い71.1%の正解率を達成した.
|
今後の研究の推進方策 |
これまでの状況を踏まえ,2019年度は次の項目に取り組む計画である. (1)主に,地理的位置の特定に関する技術開発に取り組む.2018年度の予備実験では教師データを使わない手法を中心に検討したが,2019年度は教師データを使う先行研究のアルゴリズムTRIPDLをベース手法に設定し,これを拡張する計画である.TRIPDLは教師となる地理的位置の言及に使われる単語の確率分布に基づく手法であり,教師データが豊富な米国地域で実績のある手法であるが,日本国内の地域に関しては教師データが乏しいため,この点を補う必要がある.2018年度に検討を進めた 関連文書群中での言及回数に基づく手法をTRIPDLと統合する手法を検討し,この問題の解決を目指す. (2)2018年度に引き続き,地名抽出技術の開発に取り組む.現在のところ,条件付確率場に基づく系列タギングをおこなっているが,近年は深層学習ベースの系列タギングの手法が盛んに研究されている.そこで,2018年度での知見を活かしつつ,深層学習に基づく系列タギングをおこなう手法を開発し,さらなる地名抽出性能の改善を目指す.
|
次年度使用額が生じた理由 |
予定していたデータ作成作業が円滑に進み,支出予定額を下回ったため余剰が生じた.余剰分については次年度の物品購入(主に計算サーバ購入費の一部)に充てる計画である.
|