本研究課題の目的である「一度しか出現しない単語に対する意味推定」を可能にするためには、その周辺に出現する高頻度単語の意味カテゴリを事前に確立した上で、文脈情報を用いて低頻度単語の意味カテゴリを推定するアルゴリズムを開発する必要がある。このような背景のもと、平成24年度は以下の研究を行った。 1.前年度は主語・述語・目的語の関係(SVO)に基づいて単語の意味予測を行った。今年度はこれとは異なる角度、すなわち主語または目的語に含まれる意味的主辞以外の単語を使った意味推定に関する研究を行った。テキストコーパスとして2011年にBioMed Centralで発表された約1万本の論文のフルテキスト情報を用い、約100万個のセンテンスから名詞句を抽出した後、形容詞+名詞の2ワードから成る名詞句に絞り込み、修飾・被修飾の関係についてクラスタリングを行うことで、意味的に類似した名詞のクラスタが得られることを確認した。さらに、修飾する(あるいは修飾を受ける)単語の種類数と頻度に基づいたスコアを用いることにより、形容詞の意味的決定能を自然に数量化できることを明らかにした。 2.前年度に開発したクラスタリングアルゴリズムを改良し、ノイズと外れ値を除去する前処理を加えた。これにより、単語の意味的クラスタリングをさらに高精度に行えることが分かった。
|