2002 Fiscal Year Annual Research Report
従属句の分類と接続助詞の結合順位に基づく複文と重文の構文解析に関する研究
Project/Area Number |
14780294
|
Research Institution | Kyushu University |
Principal Investigator |
市丸 夏樹 九州大学, 大学院・システム情報科学研究院, 助手 (80274497)
|
Keywords | 日本語の構文解析 / 構文的な曖昧性の解消 / 接続助詞の分類 / 従属句・述語句 / 結合順位 |
Research Abstract |
1.コーパス中の構文木に基づく接続助詞の結合順位の最適化. (1)EDR日本語コーパス中の読点を含まない文の半数から抽出した構文木を,副詞や格要素を削除して述語句を含む枝だけを残すことによって簡略化した. (2)その構文木を,接続助詞を中心とする3文木に変換し,1文中に複数の接続助詞を含む文の構文木のみを抽出した. (3)述語句間の包含関係から2つの接続助詞間でどちらの結合順位が高いかが求まるため,それらの優先関係を支持する文の数をカウントした. (4)接続助詞を南氏の3分類に従って並べたものを初期状態として,仮にその結合順位を採用することにした場合に,その優先関係を支持する文の数とその逆を支持する文の数との差を評価値とし,その評価値を最大にする順列を山登り法によって求めた.その際,収束値付近の変化がなだらかで最大の範囲が比較的広かったため,最も安定していると思われる中心に位置する並びを求めた. 以上のようにして詳細な結合順位を得ることができ,新聞記事・雑誌記事等においても,やはり南氏の3分類に従う文が多いことを確認できた. 2.最適な結合順位を用いた構文解析実験 コーパスの残り半数を試験データとして構文解析を行ったところ,南氏の3分類では文法の曖昧性によって1文あたり約3つの構文木が生じるため1位解の正解率は約55%であったのに対し,求めた最適な結合順位に従った構文解析では1文あたりの構文木数は約1.1で約76%の正解率が得られた. また,従属句の末尾が接続助詞「て」,「で」,動詞の連用形である場合に構文木に階層を設けないようにし,その他の接続助詞の左右の結合性をコーパスから求めることによって完全に構文的曖昧性がない文法を試作したところ,約88%の正解率が得られた. 3.今後の課題 今後は読点や連体修飾句の取り扱いについて検討する.
|