2015 Fiscal Year Research-status Report
Wikipediaの多言語性を利用したwikificationの高精度・高機能化
Project/Area Number |
15K16096
|
Research Institution | Shizuoka University |
Principal Investigator |
綱川 隆司 静岡大学, 情報学部, 助教 (30611214)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | Wikification / エンティティリンキング / Wikipedia / 多言語 / 情報組織化 |
Outline of Annual Research Achievements |
Wikificationとはテキスト中のキーワードから自動的にWikipedia記事にリンクを張ることを示し、この実現によりWikipedia自身の利便性を高めるだけでなく、情報抽出等の自然言語処理の要素技術としても期待される。本研究は、従来のWikipediaのリンク言語間変換の手法を発展させてwikificationに応用することで、全言語のWikipediaのリンクデータを用いてwikificationの性能向上を図る方法を開発する。 平成27年度は、wikificationの高精度化プログラムの作成と言語横断wikificationアルゴリズムの設計を実施した。本研究が着目するデータ(トレーニングデータ)は、既存のWikipedia記事に存在する複数のリンクの共起関係であり、wikificationの精度向上のための最も重要なデータの一つである。日本語のテキストへは日本語記事を用いるが、本研究では他言語版Wikipediaのリンクデータを日本語に変換することでデータ量を飛躍的に増大させ、wikification精度の向上を図る。このため、英語版Wikipediaに含まれる膨大なリンクデータから、入力したテキストデータに必要な箇所を抽出する方法、およびリンクデータの日本語への変換方法を設計して実装した。また、変換結果について、wikificationに適用した際の影響を検討するため、変換したリンクが実際に翻訳として適切かどうかの評価用データを作成した。変換例にはwikificationの精度向上に有望な結果が得られたものの、変換結果が不適切である等、ノイズとなり得る結果も得られたため、今後はデータの有用性の判別が課題となる。また、他の言語版記事へのリンクを付与する言語横断wikificationへの本手法の適用のためのアルゴリズムを検討した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
Wikificationの高精度化プログラムについては、当初の想定よりトレーニングデータ量が膨大になり、リンクを予め変換しておく方式から変更したこと等によりプログラムの実装が遅れたため、評価実験は平成28年度に実施する予定である。その他についてはおおむね予定通り進展している。
|
Strategy for Future Research Activity |
平成28年度は、引き続きwikificationの高精度化プログラムの評価実験を実施して効果を確認する。当初計画に沿って、高精度化プログラムの拡張として、トレーニングデータにある訳語に対して同義語等を訳語として加える方法を検討し、また、トレーニングデータの変換元言語を増やした評価実験を実施する。言語横断wikificationシステムの実装、テストデータの作成、評価実験を行う。
|
Causes of Carryover |
主要な物品であるサーバ(DELL PowerEdge R430)が当初の見積もりより20万円程度安く購入できたこと、また、テストデータ作成(22万円程度)を見送ったことによる。
|
Expenditure Plan for Carryover Budget |
当初計画の予算に加え、テストデータ作成、および、サーバの性能増強のための費用(グラフィックボード、HDD等)に使用する予定である。
|