• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2005 年度 実績報告書

大規模音声言語コーパスを用いた独話文の統計的係り受け解析技術の開発

研究課題

研究課題/領域番号 17700148
研究機関名古屋大学

研究代表者

松原 茂樹  名古屋大学, 情報連携基盤センター, 助教授 (20303589)

キーワード音声言語 / コーパス / 自然言語 / データベース / 構文解析 / 独話 / 係り受け解析 / 言語資源
研究概要

本研究では、講演等の同時通訳における要素技術として利用することを想定し、音声入力に追従して処理可能(実時間性)、入力途中の段階でそれまでの部分に対する構文構造を生成可能(漸進性)、ならびに、日本語文法に逸脱する文であっても解析可能(頑健性)、を備えた独話音声の構文解析手法を開発している。初年度は、構文木データを構築、独話文の構文的特性の調査、解析単位の検討、評価法の設定、の研究項目を実施し、以下に示す成果を得ることができた。
(1)構文木コーパスの構築:以下の研究の基礎資料として、独話音声コーパスに構文木データを与えた。コーパスとして、名古屋大学統合音響情報研究拠点で構築されたCIAIR同時通訳データのうち、日本語講演音声の文字化データを使用した。構文木の形式は係り受け文法に準拠して定め、既存の言語処理プログラムをツールして利用することにより安定したデータ付与を行った。
(2)コーパスを用いた構文的特徴の調査:構築した構文木付きコーパスを使用して、係り受け距離や係り受け種類等の分布を調査し、係り受け構造上の特性を明らかにした。分析は、書き言葉データ(京大コーパスを使用)、音声対話データ(CIAIR対話コーパスを使用)からデータを取り出し、それらの間での比較により実施した。
(3)解析単位の形式化:上述の(2)の調査結果に基づいて、独話文の言語解析単位を、係り受け構造としてまとまりを構成していることを手がかりに定義した。実時間性を考慮すると言語学的には文節以上かつ文以下の範囲が目安となるが必ずしも言語学上の単位の範疇に制限することなく定めた。ここで定めた解析単位に対して、計算論的な認識可能性を検討した。
(4)独話解析の評価法の検討:解析の実時間性、漸進性、頑健性を基準として、解析精度や処理時間、構造生成タイミング等の指標をもとに独話解析システムの総合評価法を検討した。評価項目の一部は、(2)の研究で実施した独話データの構造的分析の結果を基準として設定した。

  • 研究成果

    (8件)

すべて 2006 2005 2004

すべて 雑誌論文 (6件) 図書 (1件) 産業財産権 (1件)

  • [雑誌論文] 漸進的係り受け解析に基づく独話音声のリアルタイム字幕生成2006

    • 著者名/発表者名
      大野 誠寛
    • 雑誌名

      言語処理学会第12回年次大会

      ページ: 1003-1006

  • [雑誌論文] 日本語対話文における同時通訳単位-声対話コーパスを用いた分析-2006

    • 著者名/発表者名
      丁 哲
    • 雑誌名

      言語処理学会第12回年次大会

      ページ: 272-275

  • [雑誌論文] Incremental Dependency Parsing of Japanese Spoken Monologue Based on Clause Boundaries2005

    • 著者名/発表者名
      Tomohiro Ohno
    • 雑誌名

      Proceedings of 9th European Conference on Speech Communication and Technology (Interspeech'2005-Eurospeech)

      ページ: 3449-3452

  • [雑誌論文] Interpreting Unit Segmentation of Conversational Speech in Simultaneous Interpretation Corpus2005

    • 著者名/発表者名
      Zhe Ding
    • 雑誌名

      Proceedings of International Conference on Speech Database and Assessments (Oriental COCOSDA-2005)

      ページ: 148-152

  • [雑誌論文] 話し言葉解析に基づく話者知識の自動獲得2005

    • 著者名/発表者名
      小野 貴博
    • 雑誌名

      人工知能学会全国大会 (CDROM)

  • [雑誌論文] Towards Robust Spoken Dialogue System Using Large-Scale In-Car Speech Corpus2005

    • 著者名/発表者名
      Yukiko Yamaguchi
    • 雑誌名

      Proceedings of Workshop on DSP for in-Vehicle and Mobile Systems (CDROM)

      ページ: A1-A4

  • [図書] Construction and Analysis of a Multi-Layered In-car Spoken Dialogue Corpus2005

    • 著者名/発表者名
      Nobuo Kawaguchi
    • 総ページ数
      17
    • 出版者
      Springer
  • [産業財産権] 自動要約装置及びコンピュータープログラム2004

    • 発明者名
      大野 誠寛, 松原 茂樹, 柏岡 秀紀, 加藤 直人
    • 権利者名
      中部TLO
    • 産業財産権番号
      特願2006-056145
    • 出願年月日
      2004-07-26

URL: 

公開日: 2007-04-02   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi