2011 Fiscal Year Annual Research Report
構文片言語単位の提案と統計的主観表現処理における有効性検証
Project/Area Number |
21500133
|
Research Institution | Nagaoka University of Technology |
Principal Investigator |
山本 和英 長岡技術科学大学, 工学部, 准教授 (40359708)
|
Keywords | 構文片 / 形態素 / 構文木 / 言語処理単位 / n-gram / 統計的言語処理 / 自然言語処理 / 評判分析 |
Research Abstract |
自然言語処理の研究における処理単位として、単語集合やn-gramが広く用いられている。しかし単語集合には語義曖昧性、n-gramでは言語的に意味をもたないデータの生成など、それぞれ問題を抱えている。このような問題を解決できる処理単位として構文片がある。構文片とは、意味のある要素を扱うことを目的とした処理単位である。構文片は修飾節と被修飾節の対から構成されているため、単語集合やn-gramなどに比べて意味の保持性が高い。 しかしこれまでに提案していた構文片には冗長性から起因する過疎性の問題と、実質的な内容を持たない構文片が生成されるという問題がある。そこで今年度ではこれら問題の解決のために2つの手法を考案した。1つめは、構文片の汎化である。それぞれ汎化の着目点が異なる3つは手法を考案した。2つめは、形式的内容語の結合である。形式的内容語(「こと」「ある」など)は、本論文で「意味を持たない」と判断した要素の原因となっていた。このため、形式的内容語を収集し、それらを結合するためのキーワードとして用いた。 提案手法の有効性を調査するため、評判分析・自動要約の2分野に対して改善した構文片を適用させた。まず評判分析では、入力された文を肯定・否定・その他に分類する基本的な文分類を対象とした。その結果、提案手法を用いることで、従来の構文片よりも全体的に精度が高くなることを確認した。しかし一方で、単語n-gramを使用した手法には精度が劣る結果となった。自動要約せは、tf*idfという統計的手法を重要度として用いた重要文抽出を対象とした。その結果、提案手法の一部の手法では単語n-gramや従来の構文片をよりも高い精度を得ることができた。
|