会話文では、言い直しなどの冗長な表現が含まれ、解析を困難にしている。本論文では、言い直し表現は繰り返し型が多く、また、文節境界に挿入されやすいことに着目して、べた書きで音節表記された会話文を対象に、これを抽出する方法を提案した。提案した方法は、言い直しを含んだべた書き音節列をマルコフモデルを用いて文節単位に分割する処理と、それによって得られた文節境界を手がかりに文節間の音節列の類似性を評価して言い直し音節列を抽出する処理の2つの処理から構成される。 具体的には、第1処理では、言い直しの表現を含む文節境界の推定に適した文節境界推定法を提案し、第2処理では、文節境界の使い方の異なる3つのマッチングの方法を提案した。また、これらの2つの方法を組み合わせたときの言い直し表現の抽出制度を計算によって推定すると共に、その結果を総合的な実験結果と比較して提案した方法の効果を評価した。 ATRの「旅行に関する対話文」のコーパスを用いて実験評価した結果によれば、言い直し表現の抽出精度は第2の処置の方法に強く存在し、再現率を重視する場合は、再現率 75.5%(その時、適合率 81.6%)、また、適合率を重視する場合は、適合率 94.9%(その時、再現率 52.8%)の精度が得られることが分かった。
|