自然言語テキスト中の要素間の関連性認識に必要となる基礎技術の精度向上を目指した研究として、形態素解析、固有表現認識の改良を行なった。 自然言語処理技術の最も基礎的な技術の1つである形態素解析に関しては、形態素解析を頑健なものとするため、連濁および反復形オノマトペを自動的に認識できるようにした。ここで連濁とは「掘りごたつ」における「ごたつ」のように複合語の後部要素初頭が濁音化する現象であり、反復形オノマトペとは「ほいほい」、「ニョロニョロ」などといった反復を含む擬態語、擬音語のことであり、いずれも辞書に登録されていない表現が多いため、形態素解析の誤りの原因の1つとなっていたが、複合語の後部要素が濁音化する可能性や、反復表現がオノマトペである可能性があることを考慮することにより、これらを自動的に認識できるようにした。 自然言語テキスト中の要素間の関連性認識の高精度化に必要な技術の1つである固有表現抽出に関しては、機械学習に基づく固有表現を行う際に、文脈の情報、具体的には、以前の文の解析結果や、係り先の文節の情報、格解析および格フレームの情報などを用いた固有表現解析システムを構築し、実験の結果、精度が向上することを確認した。 また、自然言語テキスト中の要素間の関連性認識技術の1つとして、2つの表現が同一の対象を参照する共参照解析に関する研究を行った。文字マッチを基本とした規則に加え、橋渡し指示解析の結果、および、コーパス中に出現する括弧表現から自動獲得した同義表現の情報を用いた共参照解析システムを構築し、大規模な実験の結果、橋渡し指示、および同義表現を用いることの有効性を確認した。
|