2000 Fiscal Year Annual Research Report
統計的手法とヒューリスティックスを融合した自然言語文の統語的曖昧さ解消法
Project/Area Number |
11780280
|
Research Institution | Kyushu University |
Principal Investigator |
冨浦 洋一 九州大学, 大学院・システム情報科学研究院, 助教授 (10217523)
|
Keywords | 自然言語処理 / 構文解析 / 統語的曖昧さの絞り込み / 共起性 / 多変量解析 / ヒューリスティックス |
Research Abstract |
どの単語がどの関係でどの単語に係り得るか(語の共起性)が十分に分かっているならば,この情報を利用して,自然言語文の統語的曖昧さを絞り込むことができる.しかし,共起可能な語の組は膨大で,数十万文に及ぶ大規模な構文解析済み言語コーパスを用いたとしても,共起可能な語の組を十分に収集することは困難である.今年度は,判別分析の手法を拡張し,構文解析済み言語コーパスから得られる語の共起データを学習データとして,語の共起性を推定する手法を開発し,小規模な推定実験を行なった.本手法は,語の上位-下位関係から得られるヒューリスティックスなど,語の共起性に関するヒューリスティックスを取り込むことができる枠組となっている. entityを単語,説明変量を『単語αと関係fで共起可能である』という性質を表し,説明変量の値が1(共起可能),0(共起不可能)の2値であるとする.言語コーパスから,単語ωが単語αと関係fで共起したという観測結果が得られない場合,共起不可能なのではなく,共起性未定であり,この意味で,言語コーパスから得られるデータは不完全データである.共起性未定部分を個々に0あるいは1とした解候補の内,語の共起性に関するヒューリスティックスを満足する解候補に対して,その解候補の妥当性を求め,それが最大のものを解とする.妥当性は,ある語と共起する語同士および共起しない語同士は類似しているという仮定に基づき,語の特徴ベクトルを各説明変量の値(つまり,どのような共起性があるか)として,判別分析で用いられる相関比を拡張したもので定量化した. ランダムに抽出した名詞約200,格助詞・動詞の組約200に対して,両者の共起性の推定実験を行ない,良好な結果を得ている.
|
Research Products
(1 results)