テキスト中に現れる重要な固有表現等の語句に対して、それを説明するWikipedia記事を対応付けるタスクはwikificationと呼ばれる。これにより、テキストの閲覧者は文書中の語句に関する知識をワンクリックで参照して補完でき、理解度を高めることができる。これはWikipedia自身の利便性を高めるだけでなく、情報抽出等の自然言語処理の要素技術としても期待される。本研究は、従来のWikipediaのリンク言語間変換の手法を発展させてwikificationに応用し、全言語のWikipediaのリンクデータを用いてwikificationの性能向上を図る方法を開発するものである。 平成27~29年度は、wikificationの高精度化プログラムの作成と言語横断wikificationアルゴリズムの設計を実施し、英語版Wikipediaに含まれるリンクを日本語に変換する実験を実施した。また、リンクを付与する語句の選定方法について、その前後の語、および、周辺語の出現を考慮したリンクの出現割合を用いた方法を提案し、精度の向上を示した。さらに、リンク先決定に用いる周辺語句の抽象性に着目し、抽象的でない周辺語句のみを用いてリンク先決定を行うことで精度向上が確認できた。 平成30年度は、本研究課題の当初の目的である全言語のリンクデータの利用に向け新たに方法の検討を行った。近年は深層学習を用いた手法が最高精度を達成しており、wikificationの対象言語以外の言語のリンクデータの情報が有用であることも報告されてきている。当初の方向性自体は有効であると考えられるものの、最新の研究を行うには手法の大きな見直しが必要であることが判明し、研究期間内では実証までには至らなかった。今後引き続き手法の検討を進めるとともにより多くの種類の情報を取り入れることを検討していく。
|