研究課題/領域番号 |
25280035
|
研究機関 | 北海道大学 |
研究代表者 |
吉岡 真治 北海道大学, 情報科学研究科, 准教授 (40290879)
|
研究分担者 |
神門 典子 国立情報学研究所, 情報社会相関研究系, 教授 (80270445)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 情報検索 / 固有名抽出 / Linked Open Data |
研究実績の概要 |
本年度は、昨年度から継続して行っているLinked Open Dataの中心となるWikipediaやDBPediaの情報の活用について、日本語Wikipediaのカテゴリ構造の分析を行った。Wikipediaのカテゴリ構造は、単純な概念の階層関係だけではなく、閲覧に役立つための分類としての構成的なカテゴリが存在する。代表的なカテゴリとしては、「日本の人物」のように、クラスを表すような概念「人物」とカテゴリに属する内容が共通して持つトピック「日本」の組み合わせのようなカテゴリが多く存在している。日本語のWikipediaの場合では、このようなカテゴリは、「(トピック)の(クラス)」という形式で表されることが多いことから、固有名詞のクラス分類としては、後半部分の名刺に注目することで多くのクラス情報を得ることができると考えられる。また、Wikipediaに存在する構造的な情報を抽出したDBPediaのRDFメタデータを活用し、Wikipediaのカテゴリを表すクエリを構築するツールWC3(WC-triple: Wikipedia Category Consistency Checker)を提案した。本ツールを用いることにより、ボランティアによるメンテナンスが行われているWikipedia内の構造化データの一貫性をチェックすることにより、Linked Open Dataの中心であるDBPediaのデータの一貫性の向上にも起用することが期待される。また、この枠組みを用いることにより、カテゴリに属する固有名詞の情報と、関連情報の区別を行うことも期待される。 また、これらの複数種類の固有名詞の情報を扱うためのマルチファセットを取り扱うためのトピックモデルについても基礎的な検討を行い、最終年度のシステム構築の際の基盤技術を固めることができた。また、このようなマルチファセットで表されるデータを表示するインターフェースについても構築を進めている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度までに、Linked Open Dataを用いたクラス付き(人名、地名、映画など)固有名辞書が構築され、これらの辞書を用いたテキストからの固有名抽出を実現するためのモジュールを用いることにより、様々な文書データからクラス付きの固有名の抽出を行うことが可能となった。また、Linked Open Dataの品質を元となるWikipediaの情報から改善するという取り組みは、今後のこの研究で用いるデータの品質を向上させるという観点からも重要な成果であると考えている。また、これらのクラス付きの情報を考慮したマルチファセットのトピックモデルを利用することにより、基盤となる情報検索システムの構成要素を揃えることができた。本枠組みでは、各ファセットについて、ファセットを代表するようなトピックを構成し、各ファセットのトピックの組み合わせとして、情報検索を行う。本枠組については、特許マップにおける、評価の観点と、その観点に関する構成要素の組み合わせといった問題についても取り扱うことができるため、高い拡張可能性を持っていると考えている。また、マルチファセット分析用のインターフェースの開発も並行して行っており、このシステムを組み合わせることにより、本研究で提案する固有名詞のクラスにより構成されるマルチファセットを利用した情報検索システムが構築可能となっている。これらの準備状況から、本年度の後半には、システムを用いたユーザー実験並びに、その評価を十分に行える状況だと判断している。
|
今後の研究の推進方策 |
本年度に開発したWikipediaのカテゴリ情報の一貫性をチェックするツールであるWC3については、インターネット上に公開し、広く、ユーザーを募る予定である。また、これまでに開発した情報検索システムのための構成要素をプロトタイプシステムの形でひとまとめにし、実際のユーザー実験を通じて、その有効性を検討する予定である。具体的なタスクとしては、新聞記事の検索、特許の検索といった従来型の情報検索に加え、映画や音楽といった固有名詞のファセットの意味がはっきりするものについても、検討したい。
|
次年度使用額が生じた理由 |
概ね、順調に経費支出を行った。3月にデータ作成のためのRAを依頼したが、その清算が年度を越えるために、見かけ上13万以上の残となっているが、実質的には、旅費などの端数の影響による2万円程度の残が残っている状況である。
|
次年度使用額の使用計画 |
RAの人件費分を除くと、繰り越し額は、2万円程度であるため、基本的には、当初計画通りの学会発表、ユーザー実験やそれに関連したデータ整備などにお金を利用する予定である。
|