2013 Fiscal Year Annual Research Report
Linked Open Dataを用いた固有名詞タグ付けと情報検索への応用
Project/Area Number |
25280035
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Research Institution | Hokkaido University |
Principal Investigator |
吉岡 真治 北海道大学, 情報科学研究科, 准教授 (40290879)
|
Co-Investigator(Kenkyū-buntansha) |
神門 典子 国立情報学研究所, 情報社会相関研究系, 教授 (80270445)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 情報検索 / 固有名抽出 / Linked Open Data |
Research Abstract |
本年度は、固有名詞に関する情報の構築、地名を対象としたタグ付けの実験、検索モデルに関する調査を行った。具体的には、固有名詞に関する知識の構築を目的として、Wikipediaのカテゴリ階層の分析や、その分析をふまえた日本語Wikipediaオントロジーに関する調査を行った。この分析の結果、様々なWikipediaを利用したオントロジーでは、カテゴリの階層関係を概念間の階層関係としていて用いているが、Wikipediaのカテゴリに存在するカテゴリに属するページが増えてきたときに行う分割のためのカテゴリ(例えば、「人物」に対する「北海道の人物」のようなカテゴリ間の関係)が多く存在することが確認され、概念階層として使う場合には、これらの関係を適切に整理しながら使わなければいけないことが確認された。また、地名については、国土交通省が作成している位置参照情報ダウンロードサービスから地理座標や地名の包含関係の情報を持った日本語地名辞書を構築し、地名の曖昧性解消を含むタグ付けの枠組みを作成した。この地名の曖昧性解消では、曖昧性のある地名間の距離や、ランドマークに関する情報を利用することで、Blogなどのソーシャルメディアにおける曖昧性解消のタスクにおいて、既存のシステムであるYahoo! Open Local Platformの地名の曖昧性解消よりも良い曖昧性解消を行えることを確認した。また、ランキングの手法に関しては、様々な基準で作成したランキング結果の統合を目指したLearning to Rankに関する調査を行い、次年度以降のシステム構築の基礎とする計画である。また、異なる観点からの文書を可視化する方法を検討するために、特許文書を対象としたトピックモデルを考慮した二つの異なる視点による分析結果の仮死化手法についての検討も行った。さらに、また、マルチファセットの情報を表現するための枠組みについても調査を行い、その候補の選定を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
テキストに対して、固有名詞に関する情報を付加するモジュールの開発と、次年度以降のプロトタイプシステムを作成するための基本的な準備が整い、2年目以降の研究課題を問題なく実施可能な状態となっている。 具体的には、固有名詞に関する情報の構築については、日本語Wikipediaオントロジーの分析などを通して、Wikipediaの情報を利用するための基本的な目処が立ったと考えている。地名情報についても、日本の地名に関しては、かなり詳細なレベルの辞書が作成できたと考えており、新聞記事だけではなく、ソーシャルメディアなども対象としたアプリケーションへの応用も検討できると考えている。これまでに開発した情報検索システムでは、既存の固有名抽出システムが抽出可能な地名や人名のみを扱っていたが、今回、作成した情報を追加することによりこれらのタグの情報を追加して充実させることにより、より、広範囲の固有名詞について取り扱うことができる基本的な準備が整ったと考えている。この検索システムについて、検索式中に含まれる固有名詞に応じたようなランキングシステムの構築を行うことで、Learning to Rankのテクニックを利用したシステムが構築できる。また、これらのシステムの結果を表示するためのマルチファセットの表示の枠組みについても検討がすんでおり、2年目に簡単なユーザー実験を行うレベルのプロトタイプシステムの構築が可能である。
|
Strategy for Future Research Activity |
今後の研究であるが、固有名詞のタグ付けについては、一定のレベルに達したので、ユーザー実験を行うことができるようなプロトタイプシステムの構築を主な目標とすることを考えている。また、このプロトタイプシステムでは、最終的なランキングを一つだけ見せるのではなく、Learning to Rankが使った様々な基準によるランクを多感点インターフェースにより提示することで、ユーザーが様々なランキングの取捨選択についても、積極的に関わることができるようなシステムの構築を検討している。また、固有名詞に関する情報を扱うための課題については、よりいっそうのデータの充実とそれに伴う、タグ付けアルゴリズムの改善が求められる。タグ付けの対象が増えることにより、応用範囲が広がり、様々な実験が可能になると考えられる。こちらについても、平行して検討していきたいと考えている。
|
Expenditure Plans for the Next FY Research Funding |
全体の残額 残額が多いのは、基金分で購入した計算機MacPro(モニタ等を含め、総額約60万円)の発売が当初予定よりもずれ込み、3月の納品、4月の入金となったことが大きな要因である。この計算機については、3月に既に納品ずみであり、問題なく利用を開始している。また、当初、4月初めの国際会議に参加予定であったが、当初予定と異なる形で開催されることになったため、参加を見合わせ、国内会議への参加に切り替えたため、旅費の計画を多少変更することになったことも残額が出た理由である。 先にも述べたが、残額の多くは、前年度の予算で購入予定であった計算機の支払いに利用される。また、国際会議を見合わせた代りとして、5月に国内会議に参加予定であり、経費執行と会議の開催スケジュールの関係で、経費執行がずれ込んだものの、前年度分に対応する内容として執行予定である。
|
Research Products
(3 results)