2017 Fiscal Year Research-status Report
Wikipediaの多言語性を利用したwikificationの高精度・高機能化
Project/Area Number |
15K16096
|
Research Institution | Shizuoka University |
Principal Investigator |
綱川 隆司 静岡大学, 情報学部, 助教 (30611214)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | Wikification / エンティティリンキング / Wikipedia / 多言語 / 情報組織化 |
Outline of Annual Research Achievements |
テキスト中に現れる重要な固有表現等の語句に対して、それを説明するWikipedia記事を対応付けるタスクはwikificationと呼ばれる。これにより、テキストの閲覧者は文書中の語句に関する知識をワンクリックで参照して補完でき、理解度を高めることができる。これはWikipedia自身の利便性を高めるだけでなく、情報抽出等の自然言語処理の要素技術としても期待される。本研究は、従来のWikipediaのリンク言語間変換の手法を発展させてwikificationに応用し、全言語のWikipediaのリンクデータを用いてwikificationの性能向上を図る方法を開発するものである。 平成27~28年度は、wikificationの高精度化プログラムの作成と言語横断wikificationアルゴリズムの設計を実施し、英語版Wikipediaに含まれるリンクを日本語に変換した。変換したリンクを用いたwikificationの評価実験を行った結果、全体の精度の改善はわずかにとどまり、より詳細な決定ルールの絞り込みが必要であることが明らかとなった。また、wikificationに必要となるリンクを付与する語句の選定に関する研究を実施し、リンクを付与する語句の前後の語、および、周辺語の出現を考慮したリンクの出現割合を用いた方法を提案し、精度が向上することを示した。 平成29年度は日本語wikificationの高精度化に向け、リンク先決定に用いる周辺語句の抽象性に着目し、抽象的な周辺語句と抽象的でない周辺語句を分け、それぞれを用いて二段階にリンク先決定を行う手法を提案した。評価実験の結果、抽象的でない周辺語句のみを用いた場合で精度向上が確認できた。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
英語版Wikipediaに含まれるリンクの日本語への変換によるwikificationの評価実験を実施してその効果を明らかにしたが、さらなる改善のためには有効なリンク先決定ルールを絞り込む方法が必要になることが明らかになった。高精度化に対する提案手法について一定の成果が得られたものの、最終的な目標である全言語のWikipediaのリンクデータを用いたwikificationの性能向上の実証までには至っていない。このため、実施期間を延長して実施することとした。
|
Strategy for Future Research Activity |
これまで得られたwikificationの高精度化のためのリンクを付与する語句の選定方法およびリンク先決定方法の成果をもとに、全言語のWikipediaのリンクデータを用いてwikificationの性能向上の実証、および、wikificationの高機能化として、日本語版Wikipediaに説明のない語句を英語版Wikipediaに対応付ける言語横断wikificationの実現に取り組む。
|
Causes of Carryover |
理由: 最終的な目標である全言語のWikipediaのリンクデータを用いたwikificationの性能向上の実証およびその成果の公表を延長して行うこととしたため。 使用計画: 実施期間延長に伴い必要となる消耗品費、実験において人手による評価を実施する場合の人件費、論文投稿または学会参加による成果発表のための費用に使用する予定である。
|
Research Products
(3 results)