研究概要 |
構文解析の解候補である複数の構文木の中から自然な解釈だと思われるような解を選び出すために,南氏の従属句の分類を細分化し,接続助詞を左右の句を繋ぐ結合演算子とみなした文法を構築した.昨年度までに接続助詞の結合順位を最適化していたため,今年度はその結合順位を組み込んだPCFGを作成し,1文の構文解析実験を行った. 1.テキストコーパス中の構文木を用いて接続助詞の結合順位を最適化するアルゴリズムを開発. 今年度はさらに高速化を図り,付属語一般約300語の結合順位を約3分で最適化できるようになった.従来の研究では南氏の3分類の場合,A類<A類+読点<B類<B類+読点<…という順序が用いられていたが,我々の調査によりA類<B類<…<A類+読点<B類+読点<…のように読点を後の方に並べ替えた方がよりコーパスに合致することが確認された. 2.接続助詞の結合順位を組み込んだPCFGの構築. 「ながら」「が」など複数の用法から複数の分類に属し得る接続助詞や,接続助詞「と」のように格助詞とまぎらわしい助詞の多義性については,周辺の手がかり語や係り受け関係にある動詞の格パターン等を用いて判別することによって対処した. 3.PCFGによる1文の構文解析. 従来のPCFG文法では1000文中に数文程度の割合で,まれに1文の構文解析時間が何時間もかかる場合があったが,この文法では従属句間の修飾被修飾関係がほぼ一意に決まるため,最悪の場合でも数分程度で終わるようになった.係り受けの正解率は75%と従来手法に及ばず,1文の解析精度はまだ十分ではないが,これは学習用例数が少ないためであると考えられる. この研究により求められた接続助詞の結合順位は,自然な語順による分生成や文生成時の読点付与や,発話時のポーズ位置の決定などに応用できるものと考えられる.
|