• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2006 Fiscal Year Annual Research Report

大規模日本語コーパスに基づく確率的オントロジーの構築

Research Project

Project/Area Number 18700138
Research InstitutionTokyo Institute of Technology

Principal Investigator

寺井 あすか  東京工業大学, 大学院社会理工学研究科・21世紀COE 研究員 (70422540)

Keywords知識発見とデータマイニング / 言語統計解析 / オントロジー
Research Abstract

本研究の目的は、大規模言語コーパスに基づく係り受け頻度データを用いて、確率的オントロジーを構築することである。本研究で構築する、確率的オントロジーとは、概念によって形成されるカテゴリーの階層構造と、概念のカテゴリーへの帰属確率(概念が与えられたときのカテゴリーの条件付確率)を付与したものである。
本年は、新聞10年分(1993年〜2002年)の形容詞-名詞の係り受け頻度データを用いて、形容詞・名詞に関する確率的オントロジーを構築した。まず、毎日新聞コーパス10年分(1993年〜2002年)から、形容詞-名詞に関する係り受け頻度データを、CaboCha(工藤、松本2002)を用いて抽出した。次に、抽出した係り受け頻度データに対し、潜在クラスが介在し、単語A(形容詞)と単語N(名詞)が共起するという仮定に基づく言語統計解析(Kameya、Sato 2005)を用いて潜在クラスの推定を行った。さらに、言語統計解析結果を用いて潜在クラスのセントロイドを計算し、それらのセントロイドに対して、ソフトクラスタリングモデルであるRoseモデル(1990)を用いることで、それらの潜在クラスの確率的階層構造を作成した。言語統計解析(Kameya、Sato 2005)によって推定される各潜在クラスに対する各名詞の帰属確率(P(潜在クラス|名詞))と、Roseモデル(1990)によって推定される各カテゴリーへの各潜在クラスの帰属確率(P(カテゴリー|潜在クラス))から、各カテゴリーに対する名詞の帰属確率(P(カテゴリー|名詞))を推定することで、各カテゴリーの意味を明らかにした。また、上位カテゴリーへの下位カテゴリーの帰属確率も、各潜在クラスの各カテゴリーへの帰属確率から求めた。
今後は、名詞と述語の係り受け頻度データを抽出し、より大規模な確率的オントロジーを構築する。さらに、心理学実験を行うことで構築した大規模な確率的オントロジーの心理的妥当性の検証を行う。

URL: 

Published: 2008-05-08   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi