2006 Fiscal Year Annual Research Report
大規模音声言語コーパスを用いた独話データの構造化とその応用に関する研究
Project/Area Number |
06J06433
|
Research Institution | Nagoya University |
Principal Investigator |
大野 誠寛 名古屋大学, 大学院情報科学研究科, 特別研究員(DC2) (20402472)
|
Keywords | 自然言語処理 / 音声言語処理 / コーパス / 構文解析 / 係り受け解析 / 言語分析 / 独話音声 / 音声コンテンツ |
Research Abstract |
本研究では、講演や解説、ニュースなどの独話データに対する効率的なアクセスや効果的な再利用、また、独話のリアルタイムで効率的な理解を支援するための独話処理技術を開発することを目的としている。そのために、以下の3つの達成目標を定めている。 ●50万形態素規模の独話コーパスに構造情報を付与する。実講演データに対して70%以上の部分を構造化でき、かつ、10分間の独話データを十数秒で解析可能な解析器を開発する。 ●解析精度を同程度に維持しつつ、話し手の話速(アナウンサーならば、400単語/分)に追従できる程度の解析の漸進性、及び、解析速度を備えた独話構造解析を実現する。 ●独話構造解析により得られる節内部の係り受け構造と節間の構造を活用し、独話全体の構造を考慮したさまざまな言語単位での情報の圧縮が行える要約機構を開発する。 これらの目標を達成するため、初年度は,構造が付与された独話コーパスを構築、分析し、独話構造解析器の開発を実施し、下記に示す成果を得ることができた。 (1)独話データへの構造情報の付与: 節間の関係を示す構造を定義した上でマニュアルを作成し、NHKの解説番組「あすを読む」を書き起こした50万形態素規模のデータに対し、節間の構造と節内部の係り受け構造を付与した。このコーパスでは、複数の文節に係ることを容認しているところに特徴がある。 (2)独話の構造の言語学的分析: 構築したコーパスを用いて、独話の構造に関する特徴を分析した。特に、節と節の間の係り受け関係の特徴、節境界をまたぐ係り受けの出現傾向、及び、複数の受け文節をもつ係り受け文節に特有の特徴、などについて分析を与えた。 (3)独話の係り受け解析器の開発: 上述の分析結果に基づき、節境界に基づく統計的な独話構造解析手法を開発した。統計データには、(1)で構築したデータを用いた。また、節単位ごとの解析を行い、構造解析の同時性の向上、かつ、高速化を計った。
|