研究概要 |
日本語の正書法では文節分かち書きをしない.したがって,日本語文を係り受け解析するためには,自動文節分割が必要である.従来のルールベース処理によって,かなり精度の高い分割が可能であるが,さらに精度を上げるためには非常にきめ細かいルールが必要であり,これを人手で作成するのは困難である.本研究では,分類木の手法を用いて,分割ルールを訓練データから自動的に学習する方法を考案した.その結果,約99%の高い分割精度が得られた. 多数の接続節を含む日本語長文を,そのまま係り受け解析することは非常に困難である.そのため,係り受け解析の前処理として長文を短文に分割することが試みられてきた.また,長文は人にとっても理解しがたい悪文であることが多いため,推敲支援の観点からも,短文分割の研究が行われている.本研究では,分類木を用いて,各接続節の末尾が正しい分割点か否かを判定するパターンの自動学習を行った.これにより,約83%の文を正しく分割することができた. 音声に含まれる情報の中で係り受け解析に有効と思われるものに,韻律情報がある.韻律情報は連続値をとるので,従来の記号処理による構文解析では,これを有効に利用することはできない.本研究では,「総ペナルティ最小化係り受け解析法」を用いて,どのような韻律情報がどの程度有効かを調べた.これまでの結果ではポ-ズが最も有効であり,文節内のパワーやピッチの傾き,文節境界におけるパワーの差,境界直後の音素継続長なども有効であることが明らかになった.
|