研究課題/領域番号 |
22500126
|
研究機関 | 金沢大学 |
研究代表者 |
佐藤 賢二 金沢大学, 電子情報学系, 教授 (10215783)
|
キーワード | 人工知能 / 自然言語処理 / 画像、文章、音声等認識 |
研究概要 |
本研究課題の目的である「一度しか出現しない単語に対する意味推定」を可能にするためには、その周辺に出現する高頻度単語の意味カテゴリを事前に確立した上で、文脈情報を用いて低頻度単語の意味カテゴリを推定するアルゴリズムを開発する必要がある。このような背景のもと、平成23年度は以下の研究を行った。 1.前年の予備実験結果を踏まえ、主語・述語・目的語の関係(SVO)に基づいて単語の意味予測を行った。対象としてはMedlineから抽出した生物医学文献アブストラクトを用い、主語または目的語となる名詞句の意味カテゴリ情報としてGenia Corpusを用いることにより、学習および予測のための特徴ベクトルを生成した。学習器としてサポートベクターマシンおよびナイーブベイズを用いて実験を行った結果、この問題に対しては前者の方が高い予測精度が得られること、9つの意味カテゴリから1つを予測する問題で約65%の精度が得られること、主語の予測よりも目的語の予測の方がやや高い精度が得られること、動詞の情報が重要であること、などが分かった。今回は動詞の意味カテゴリや単語の意味カテゴリ階層の情報を用いていないこと、名詞に関しては主語や目的語の名詞句の意味的主辞となる単語しか用いていないことなどを踏まえると、上記の予測精度は十分高いと考えられる。 2.大規模なテキストデータから自動的に意味カテゴリを構築するための基礎技術として、引力に基づく新しいクラスタリングアルゴリズムを開発した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
クラスタリングを用いた意味カテゴリの生成に始まり、意味カテゴリを用いた類似文の検索、単語の意味カテゴリの推測と、概ね予定した内容の研究を行い、結果が得られているため。
|
今後の研究の推進方策 |
最終年度である平成24年度は、意味カテゴリ予測のさらなる精度向上と、SVOに囚われない単語の意味予測について研究を行う。前者については、前年度に使用しなかった動詞の意味情報などを用いることにより、どのような場合にどの程度精度が向上するかを明らかにする。後者に関しては、複数の名詞や形容詞から成る名詞句について、意味的主辞の意味カテゴリを推定する問題と、意味カテゴリを全く使わずに、類似した意味を持つ単語を検索する問題の、片方もしくは両方について研究を行う。
|