研究課題
本研究では、講演等の同時通訳における要素技術として利用することを想定し、音声入力に追従して処理可能(実時間性)、入力途中の段階でそれまでの部分に対する構文構造を生成可能(漸進性)、ならびに、日本語文法に逸脱する文であっても解析可能(頑健性)、を備えた独話音声の構文解析手法を開発している。初年度は、構文木データを構築、独話文の構文的特性の調査、解析単位の検討、評価法の設定、の研究項目を実施し、以下に示す成果を得ることができた。(1)構文木コーパスの構築:以下の研究の基礎資料として、独話音声コーパスに構文木データを与えた。コーパスとして、名古屋大学統合音響情報研究拠点で構築されたCIAIR同時通訳データのうち、日本語講演音声の文字化データを使用した。構文木の形式は係り受け文法に準拠して定め、既存の言語処理プログラムをツールして利用することにより安定したデータ付与を行った。(2)コーパスを用いた構文的特徴の調査:構築した構文木付きコーパスを使用して、係り受け距離や係り受け種類等の分布を調査し、係り受け構造上の特性を明らかにした。分析は、書き言葉データ(京大コーパスを使用)、音声対話データ(CIAIR対話コーパスを使用)からデータを取り出し、それらの間での比較により実施した。(3)解析単位の形式化:上述の(2)の調査結果に基づいて、独話文の言語解析単位を、係り受け構造としてまとまりを構成していることを手がかりに定義した。実時間性を考慮すると言語学的には文節以上かつ文以下の範囲が目安となるが必ずしも言語学上の単位の範疇に制限することなく定めた。ここで定めた解析単位に対して、計算論的な認識可能性を検討した。(4)独話解析の評価法の検討:解析の実時間性、漸進性、頑健性を基準として、解析精度や処理時間、構造生成タイミング等の指標をもとに独話解析システムの総合評価法を検討した。評価項目の一部は、(2)の研究で実施した独話データの構造的分析の結果を基準として設定した。
すべて 2006 2005 2004
すべて 雑誌論文 (6件) 図書 (1件) 産業財産権 (1件)
言語処理学会第12回年次大会
ページ: 1003-1006
ページ: 272-275
Proceedings of 9th European Conference on Speech Communication and Technology (Interspeech'2005-Eurospeech)
ページ: 3449-3452
Proceedings of International Conference on Speech Database and Assessments (Oriental COCOSDA-2005)
ページ: 148-152
人工知能学会全国大会 (CDROM)
Proceedings of Workshop on DSP for in-Vehicle and Mobile Systems (CDROM)
ページ: A1-A4