本研究では、音響処理によってべた書きの音節列に変換された会話文に対して、それに含まれる繰り返し型の言い直し表現を抽出する方法を提案した。この方法は、日本語音節列の持つ確率的情報を利用したもので、以下の2つの処理から構成される。すなわち、第1の処理は、言い直しの音節列が文節境界に挿入されることが多いことに着目し、言い直しを含む対話文を文節単位に分割するもので、従来のマルコフ連鎖モデルを用いた文節境界の推定法を言い直しを含む音節列に適すように改良した。第2の処理は、第1の方法で得られた文節境界を手がかりに、隣り合う2つの文節間で音節列の類似性を判定するマッチング処理であり、文節境界の使い方の異なる3つの方法を提案した。 また、提案した方法の精度を推定するため、第1の処理と第2の処理の精度から、それを組み合わせたときの精度を計算する方法を示した。これらの方法をATRの「旅行に関する対話文」データ(その内、言い直しは106箇所)に適用した実験結果から、以下のことが分かった。 (1) 第1の処理では、従来のマルコフ連鎖モデルを組み合わせて使用すれば、言い直しを含む音節列でも、言い直しを含まない場合と同程度の精度(再現率約90%、適合率88%)で文節境界が推定できる。 (2)これにより、会話文に現れた繰り返し型の言い直し表現は、適合率84〜95%、再現率53〜82%の精4度で抽出することができる。 本方式によって得られた結果にさらに文法情報などを適用して、言い直し表現の抽出精度を上げようとする場合は、再現率の高い方法が望まれる。その場合は、第1の処理で得られたすべての文節境界を起点に、それ以降数文節相当の音節列を調べる方法が適しており、その場合、再現率=80.2%(適合率=84.2%)の精度が得られる。 なお、今後の課題としては、文節境界が未抽出の言い直し表現の抽出方法、付け加え型や繰り返しを伴う置き換え型の言い直し表現へ適用するための拡張方法、単語境界位置に出現する言い直し表現の抽出方法などの検討が挙げられる。
|