2015 Fiscal Year Annual Research Report
Linked Open Dataを用いた固有名詞タグ付けと情報検索への応用
Project/Area Number |
25280035
|
Research Institution | Hokkaido University |
Principal Investigator |
吉岡 真治 北海道大学, 情報科学研究科, 准教授 (40290879)
|
Co-Investigator(Kenkyū-buntansha) |
神門 典子 国立情報学研究所, 大学共同利用機関等の部局等, 教授 (80270445)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 情報検索 / 固有名抽出 / Linked Open Data / 多観点分析 |
Outline of Annual Research Achievements |
本年度は、Linked Open Dataの中心と位置付けられているDBPediaのメタデータの品質向上を目標として開発したWC3について、日本語化を行うとともに、日本語DBPediaの開発チームとのディスカッションを行うとともに、システムの公開を行っている。また、このLinked Open Dataから得られた固有名詞のクラス情報を利用して、人名、地名などのタイプ付きの固有名詞を抽出するシステムを作成した。また、これらのタイプ情報をファセットとして利用した文書群に対する文書生成モデルとして、特定のファセットに関連する単語を主に生成するトピックという考え方を導入したFacet biasedトピックモデルを提案した。また、このFacet biasedトピックモデルを用いたニュース記事のカテゴリ分類システムを提案し、このような固有名詞に関する情報を用いることが、従来型の、トピックモデルを用いるよりも、有意に分類性能を向上させることを確認した。また、このFacet biasedトピックモデルは、特許文書における、分析の観点と対象物といった特許マップで用いるような異なる観点についての同時クラスタリングが行える事を具体的な事例で確認した。さらに、 世界中の新聞記事の報道の違い(興味・賛否など)を分析するNSContrastについて、ニュース記事のデータベースであるGDELTにより提供される1日15万記事以上の記事を対象として利用できるようにすることで、これまでのシステムでは、あまり分析のできなかった、アフリカやオセアニアといった地域のニュース記事についても分析を行えるように改良した。昨年度から行っているこの研究の成果については、人工知能学会の研究会優秀賞を受賞した。
|
Research Progress Status |
27年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
27年度が最終年度であるため、記入しない。
|
Causes of Carryover |
27年度が最終年度であるため、記入しない。
|
Expenditure Plan for Carryover Budget |
27年度が最終年度であるため、記入しない。
|