1999 Fiscal Year Annual Research Report
総ペナルティ最小化係り受け解析法による音声言語処理
Project/Area Number |
09680356
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
尾関 和彦 電気通信大学, 電気通信学部, 教授 (50214135)
|
Co-Investigator(Kenkyū-buntansha) |
張 玉潔 電気通信大学, 電気通信学部, 助手
高木 一幸 電気通信大学, 電気通信学部, 助手 (70272755)
|
Keywords | 係り受け解析 / 係り受け規則 / 韻律情報 / 文要約 / 字幕生成 |
Research Abstract |
(1)形態素と係り受け構造のラベルが付けられた京都大学テキストコーパスを用いて、2文節間に係り受け関係が成立するか否かを判定する決定木を生成した。その結果、学習データ500文を使用した場合、再現率98.8%、適合率73.4%の判定精度が得られ、従来入手で作成されていた係り受け規則を自動作成できる見通しが得られた。 (2)従来の我々の研究により、ポーズ情報が係り受け解析に有効であることが明らかになっている。それについてさらに詳細な検討を行った。従来は、ポーズ長が正規分布することを仮定していたが、実際の分布は正規分布からかなり掛け離れている。そこで、ポーズ長の分布を近似する関数の改良を行った。また、ポーズ以外の有効な韻律パラメータを探索し、パワーや話速に関連したある種の韻律情報が有効であることを見出した。これらの情報を用いて、総ペナルティ最小化法により係り受け解析実験を行った結果、ATR503文データペースに対して、完全に正しく係り受け解析される文の割合(文正解率)を、韻律情報を用いない決定論文解析法に比べて49.5%から60.0%へと約10ポイント向上させることができた。 (3)文要約問題を、原文から各文節の重要度と文節間係り受け整合度の総和を最大にする部分文節列を選択する問題として定式化し、総ペナルティ最小化係り受け解析法の考え方を応用してこれを解くアルゴリズムを導いた。このアルゴリズムは入力文節に同期して動作するため、放送のオンライン字幕生成などに有効である。計算効率は良く、現実に現れる長さの文に対して計算量的な問題はない。このアルゴリズムにより得られる要約文が文法的に正しく、自然であり、また原文の重要な情報を保っていることをいくつかの計算例により確認した。
|