研究概要 |
1.係り受け解析の基本は,品詞レベルの情報を用いて,2文節間に係り受けが許されるか否かを判定する規則を作ることである.そのような規則を京都大学テキストコーパスから抽出することを試みた.学習データは1万文,評価データはこれとは別の1万文を使用した.文節を形態素列で表し,学習データ中に実際に現れる係り受け文節対を係り受けが許される文節対,現れないものを許されない文節対とした.さらに,自立語列,付属語列をそれぞれその機能に応じて一つの語にまとめる処理を行った.学習データから決定木を生成し,得られた規則を評価データにより評価した.学習データにおける出現回数が,n回以下のものは係り受けが許されないとした.n=2のとき結果が最良となり,正解率97.7%,適合率99.0%,再現率98.2%,F値98.6%が得られた. 2.与えられた文から,係り受け整合度と文節重要度の総和が最大となるような部分文節列を選択することにより,文の簡約を効率良く行うアルゴリズムを考案し,それを用いた文簡約実験を進めた.係り受け整合度は,係り文節の末尾の品詞,受け文節の自立語部分の品詞,2文節間の距離などに着目し,それらが学習データ中で係り受け文節対として現れる頻度を基に定めた.また,文節重要度は,人手により,文節の自立語部分の品詞に基づいて基本値を定め,それに付属語から決まる補正値を加えている.京都大学テキストコーパスを用いて実験を行ったところ,日本語として自然な簡約文が得られることが分かった.しかし,指定する簡約文の文節数のわずかな違いにより自然性が大きく変化する場合があり,何らかの対策が必要である.また,係り受け整合度や文節重要度の定め方に関して,さらなる検討が必要である.
|