• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2014 Fiscal Year Annual Research Report

Linked Open Dataを用いた固有名詞タグ付けと情報検索への応用

Research Project

Project/Area Number 25280035
Research InstitutionHokkaido University

Principal Investigator

吉岡 真治  北海道大学, 情報科学研究科, 准教授 (40290879)

Co-Investigator(Kenkyū-buntansha) 神門 典子  国立情報学研究所, 情報社会相関研究系, 教授 (80270445)
Project Period (FY) 2013-04-01 – 2016-03-31
Keywords情報検索 / 固有名抽出 / Linked Open Data
Outline of Annual Research Achievements

本年度は、昨年度から継続して行っているLinked Open Dataの中心となるWikipediaやDBPediaの情報の活用について、日本語Wikipediaのカテゴリ構造の分析を行った。Wikipediaのカテゴリ構造は、単純な概念の階層関係だけではなく、閲覧に役立つための分類としての構成的なカテゴリが存在する。代表的なカテゴリとしては、「日本の人物」のように、クラスを表すような概念「人物」とカテゴリに属する内容が共通して持つトピック「日本」の組み合わせのようなカテゴリが多く存在している。日本語のWikipediaの場合では、このようなカテゴリは、「(トピック)の(クラス)」という形式で表されることが多いことから、固有名詞のクラス分類としては、後半部分の名刺に注目することで多くのクラス情報を得ることができると考えられる。また、Wikipediaに存在する構造的な情報を抽出したDBPediaのRDFメタデータを活用し、Wikipediaのカテゴリを表すクエリを構築するツールWC3(WC-triple: Wikipedia Category Consistency Checker)を提案した。本ツールを用いることにより、ボランティアによるメンテナンスが行われているWikipedia内の構造化データの一貫性をチェックすることにより、Linked Open Dataの中心であるDBPediaのデータの一貫性の向上にも起用することが期待される。また、この枠組みを用いることにより、カテゴリに属する固有名詞の情報と、関連情報の区別を行うことも期待される。
また、これらの複数種類の固有名詞の情報を扱うためのマルチファセットを取り扱うためのトピックモデルについても基礎的な検討を行い、最終年度のシステム構築の際の基盤技術を固めることができた。また、このようなマルチファセットで表されるデータを表示するインターフェースについても構築を進めている。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

本年度までに、Linked Open Dataを用いたクラス付き(人名、地名、映画など)固有名辞書が構築され、これらの辞書を用いたテキストからの固有名抽出を実現するためのモジュールを用いることにより、様々な文書データからクラス付きの固有名の抽出を行うことが可能となった。また、Linked Open Dataの品質を元となるWikipediaの情報から改善するという取り組みは、今後のこの研究で用いるデータの品質を向上させるという観点からも重要な成果であると考えている。また、これらのクラス付きの情報を考慮したマルチファセットのトピックモデルを利用することにより、基盤となる情報検索システムの構成要素を揃えることができた。本枠組みでは、各ファセットについて、ファセットを代表するようなトピックを構成し、各ファセットのトピックの組み合わせとして、情報検索を行う。本枠組については、特許マップにおける、評価の観点と、その観点に関する構成要素の組み合わせといった問題についても取り扱うことができるため、高い拡張可能性を持っていると考えている。また、マルチファセット分析用のインターフェースの開発も並行して行っており、このシステムを組み合わせることにより、本研究で提案する固有名詞のクラスにより構成されるマルチファセットを利用した情報検索システムが構築可能となっている。これらの準備状況から、本年度の後半には、システムを用いたユーザー実験並びに、その評価を十分に行える状況だと判断している。

Strategy for Future Research Activity

本年度に開発したWikipediaのカテゴリ情報の一貫性をチェックするツールであるWC3については、インターネット上に公開し、広く、ユーザーを募る予定である。また、これまでに開発した情報検索システムのための構成要素をプロトタイプシステムの形でひとまとめにし、実際のユーザー実験を通じて、その有効性を検討する予定である。具体的なタスクとしては、新聞記事の検索、特許の検索といった従来型の情報検索に加え、映画や音楽といった固有名詞のファセットの意味がはっきりするものについても、検討したい。

Causes of Carryover

概ね、順調に経費支出を行った。3月にデータ作成のためのRAを依頼したが、その清算が年度を越えるために、見かけ上13万以上の残となっているが、実質的には、旅費などの端数の影響による2万円程度の残が残っている状況である。

Expenditure Plan for Carryover Budget

RAの人件費分を除くと、繰り越し額は、2万円程度であるため、基本的には、当初計画通りの学会発表、ユーザー実験やそれに関連したデータ整備などにお金を利用する予定である。

  • Research Products

    (5 results)

All 2014 Other

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (2 results) Remarks (1 results)

  • [Journal Article] Analysis of Japanese Wikipedia Category for Constructing Wikipedia Ontology and Semantic Similarity Measure.2014

    • Author(s)
      Masaharu Yoshioka
    • Journal Title

      Information Retrieval Technology 10th Asia Information Retrieval Symposium, AIRS 2014, Kuching, Malaysia, December 3-5, 2014 Proceedings

      Volume: LNCS8870 Pages: 588-598

    • DOI

      10.1007/978-3-319-12844-3_40

    • Peer Reviewed
  • [Journal Article] Evaluation of Music Search in Casual-Leisure Situations2014

    • Author(s)
      Xiao Hu and Noriko Kando
    • Journal Title

      Proceedings of the 5th Information Interaction in Context Symposium on-IIiX'14, Workshop on searching for fun 2014

      Volume: なし

    • Peer Reviewed
  • [Presentation] 複数国の新聞からの多観点比較による分析~GDELTデータを用いた分析~.2014

    • Author(s)
      吉岡 真治, 神門 典子
    • Organizer
      インタラクティブ情報アクセスと可視化マイニング研究会 第8回研究会研究発表予稿集
    • Place of Presentation
      慶応大学日吉キャンパス
    • Year and Date
      2014-11-21 – 2014-11-21
  • [Presentation] Wikipediaのカテゴリー階層関係の分類を用いた日本語Wikipediaオントロジーの分析2014

    • Author(s)
      吉岡 真治
    • Organizer
      .2014年度人工知能学会全国大会(第28回)
    • Place of Presentation
      愛媛看護会館・愛媛看護研修センター
    • Year and Date
      2014-05-12 – 2014-05-15
  • [Remarks] WC3(Wikipedia Category Consistency Checker)

    • URL

      http://wnews.ist.hokudai.ac.jp/wc3/

URL: 

Published: 2016-06-01  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi