研究概要 |
与えられた文に対して並列句の範囲を同定する並列構造解析は,自然言語処理の基礎技術の一つであるにもかかわらず,既存解析手法の精度は高くない.本年度は,まず日本語並列構造解析の精度を向上するために,我々が以前に英語に対して提案した手法を日本語に適用できるように改良した.英語と日本語の違いは,英語並列句の手がかり表現(「and」や「or」など)が常に並列句を導くのに対し,日本語並列句の手がかり表現(「と」や「,」など)は並列句を導くとは限らないことである(例:"二条城と清水寺に行った"に現れる「と」は並列助詞であるが,"友達と清水寺に行った"の「と」は並列関係を示さない格助詞である).このことに対応するため,アラインメントグラフにバイパス経路を新たに追加し,手がかり表現が並列句を導くかどうかを判定できるようにした.この結果,日本語並列構造解析の精度向上に成功した.次に,英語並列構造解析についてであるが,我々が以前に提案した手法には入れ子となる並列構造の解析ができないという欠点があった.本年度はその対処として,並列構造の範囲と階層構造を同時に決定する方法を提案し,その優位性を実験で確認した.他方,我々の並列構造解析手法の精度を向上するためには,並列項目(conjunct)をなす単語列どうしの類似度を正確に測ることが重要である,このとき,単語の上位・下位関係を記述するシソーラスが役に立つと考えられるが,シソーラスを構築するには多大な人的コストが必要とされる.本年度は,大規模コーパスに出現する単語の分布情報を活用し,人間(シソーラスの編集者)が新しい単語をシソーラスに登録することを支援するための研究も行った.
|