• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2016 Fiscal Year Research-status Report

Wikipediaの多言語性を利用したwikificationの高精度・高機能化

Research Project

Project/Area Number 15K16096
Research InstitutionShizuoka University

Principal Investigator

綱川 隆司  静岡大学, 情報学部, 助教 (30611214)

Project Period (FY) 2015-04-01 – 2018-03-31
KeywordsWikification / エンティティリンキング / Wikipedia / 多言語 / 情報組織化
Outline of Annual Research Achievements

テキスト中に現れる重要な固有表現等の語句に対して、それを説明するWikipedia記事を対応付けるタスクはwikificationと呼ばれる。これにより、テキストの閲覧者は文書中の語句に関する知識をワンクリックで参照して補完でき、文書の理解の可能性を高めることができる。Wikificationの実現によりWikipedia自身の利便性を高めるだけでなく、情報抽出等の自然言語処理の要素技術としても期待される。本研究は、従来のWikipediaのリンク言語間変換の手法を発展させてwikificationに応用し、全言語のWikipediaのリンクデータを用いてwikificationの性能向上を図る方法を開発するものである。
平成27年度は、wikificationの高精度化プログラムの作成と言語横断wikificationアルゴリズムの設計を実施し、英語版Wikipediaに含まれるリンクを日本語に変換してその有用性を検討した。
平成28年度は、変換したリンクを用いたwikificationの評価実験を行った。変換したリンクの追加によってリンク先決定ルール数が大幅に増加し、全体の精度はわずかに上がった一方で、個々のリンク先決定結果では改善例と悪化例の数が拮抗しており、さらなる改善のためにはより詳細な決定ルールの絞り込みが必要であることが明らかとなった。
そこで、日本語wikificationの高精度化に向け、リンクを付与する語句と、リンク先決定に用いる周辺語句との関係を用いてリンク先を決定する方法を検討した。また、wikificationに必要となるリンクを付与する語句の選定に関する研究を実施した。リンクを付与する語句の前後の語、および、周辺語の出現を考慮したリンクの出現割合を用いた方法を提案し、精度が向上することを示した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

英語版Wikipediaに含まれるリンクの日本語への変換によるwikificationの評価実験を実施してその効果を明らかにしたが、さらなる改善のためには単に英語以外の言語を加えてリンク先決定のためのルール数を増やすだけでなく、有効なルールを絞り込む方法が必要になることが明らかになった。そこで、リンクを付与する語句と周辺語句間の関連性を利用することによる高精度化の方法について検討している。

Strategy for Future Research Activity

平成29年度は、引き続きwikificationの高精度化のための方法として、周辺語句との関連性を利用する方法、および、リンクを付与する語句の持つ属性を詳細化して利用する方法を検討し、評価実験を行う。また、wikificationの高機能化として、日本語版Wikipediaに説明のない語句を英語版Wikipediaに対応付ける言語横断wikificationを、リンクの言語間変換により実現できることを示す。これまでの成果を統合したwikificationシステムを構築し、応用可能性を探る。

Causes of Carryover

平成28年度は、27年度に見送ったテストデータ作成、および新たに必要となったデータの購入を行ったものの、外国旅費に計上した国際会議1件が国内開催であったことから費用が抑えられ、また今年度の英語論文投稿を見送ったための英文チェック費用がかからなかったことから、結果的に当初の計画と同程度の支出となり、平成27年度の次年度使用額と同程度の金額が今年度にも生じることとなった。

Expenditure Plan for Carryover Budget

当初計画の予算に加え、テストデータ作成または評価実験に必要なデータの購入、論文投稿費用、および、必要と考えられる場合にwikificationシステムの構築のための性能補強のための費用(グラフィックボード、HDD等)に使用する予定である。

  • Research Products

    (5 results)

All 2016 Other

All Presentation (4 results) (of which Int'l Joint Research: 1 results) Remarks (1 results)

  • [Presentation] 日本語Wikificationコーパスを用いたアンカー抽出性能評価に関する検討2016

    • Author(s)
      小谷 亮太, 綱川 隆司, 西田 昌史, 西村 雅史
    • Organizer
      情報処理学会第229回自然言語処理研究会
    • Place of Presentation
      NTT武蔵野研究開発センタ(東京都武蔵野市)
    • Year and Date
      2016-12-21
  • [Presentation] Enriching Wikipedia link data for wikification2016

    • Author(s)
      Takashi Tsunakawa, Ryota Kotani, Ryosuke Murakami, Masafumi Nishida, and Masafumi Nishimura
    • Organizer
      The 16th China-Japan Natural Language Processing Joint Research Promotion Conference (CJNLP2016)
    • Place of Presentation
      中国・東北大学(中国・瀋陽)
    • Year and Date
      2016-09-18
    • Int'l Joint Research
  • [Presentation] Wikificationにおける前接語・後接語を用いたアンカー抽出2016

    • Author(s)
      小谷 亮太, 綱川 隆司, 西田 昌史, 西村 雅史
    • Organizer
      第15回情報科学技術フォーラム
    • Place of Presentation
      富山大学 五福キャンパス(富山県富山市)
    • Year and Date
      2016-09-08
  • [Presentation] 英語Wikipediaリンクデータの利用による日本語wikification2016

    • Author(s)
      村上 凌悠, 綱川 隆司, 西田 昌史, 西村 雅史
    • Organizer
      第15回情報科学技術フォーラム
    • Place of Presentation
      富山大学 五福キャンパス(富山県富山市)
    • Year and Date
      2016-09-08
  • [Remarks] 静岡大学情報学部 西村&綱川/西田研究室(NIST-Lab) ホームページ

    • URL

      http://lab.inf.shizuoka.ac.jp/nisimura/

URL: 

Published: 2018-01-16  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi