2013 Fiscal Year Research-status Report
Project/Area Number |
24500640
|
Research Institution | Yokohama National University |
Principal Investigator |
田村 直良 横浜国立大学, 環境情報研究院, 教授 (20179906)
|
Co-Investigator(Kenkyū-buntansha) |
後藤 敏行 横浜国立大学, 環境情報研究院, 教授 (30234991)
|
Keywords | 朗読 / 音声合成 / 視覚しょう害 / 自然言語処理 / 福祉情報処理 |
Research Abstract |
課題に関わるシステムについての研究状況は、【現在までの達成度】で述べている。今年度の研究実績としては、研究成果であげた論文「視覚障がい者の娯楽使用を想定した物語朗読システムの開発」がある。この論文では、物語朗読システムについて説明し、同システムでは、合成音声による物語の各文の読み上げに加え、会話文の話し手によって声を変えたり、物語世界内で起きた物音を効果音で表現したりすることによって、バラエティに富んだ朗読音声を生成できることを述べている。また、発話者ごとに音響的なパラメータを設定し、異なる人物として発話させるために、会話文の話し手の推定機能を実現し、及び推定結果の評価について述べている。ルールベースの話者推定システムは、精度70%で、物語中の発話文について発話者を推定する。 生成された音声を聞いて物語を理解するには、話者同定は重要な要素である。しかし話者推定の精度は70%程度に留まり、この精度ではむしろ聞き手に混乱をもたらす。最終年度の達成すべき事項として、話者推定の判定精度として95%以上となるべきであろう。そのためには照応解析、省略解析を取り入れる必要がある。物語中で、同一の登場人物が様々な表現で参照され、また、ときには省略されることも多いからである。 他に最終年度に達成すべき要素として、効果音やBGMを挿入するために、シーンの状況を取得できるようにすること、および視覚障がい者の利用に関する検討があげられる。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
現時点で、(1)音声合成部は完成したが、(2)言語処理部はプロトタイプ程度の完成度に留まる。その他、(3)ユーザインタフェース、言語処理部の解析結果を後編集する(4)修正支援ツール、およびBGMや効果音を選択するための(5)音素材データベース・システムが完成しており、所期構想の全範囲はカバーされている。さらにこれらのうち、(1)、(4)、(5)は、期待される機能が十分実現されている。 (2)については、以下の項目に限って検討したい。a)話者の同定:正解率70%程度である。高品質の朗読文として、正解率95%程度を目指している。物語中で同一人物は様々な表現で搭乗しているが、照応解析を取り入れ、実現を目指す。b)文間ポーズ長推定。プロの朗読者を模倣する機械学習の枠組みが困難であることがわかってきた。それにとらわれず、シーンの境界を基準に文間ポーズ長を決める方針を実現し、検討する。c)シーンの境界の判定。既存研究もあり、当システムに導入し、検討を進める。d)シーンごとの状況(BGM、環境音などの選択)。状況を分類するために機械学習のモデルを導入する。e)効果音の選択、挿入。何かをたたく音のように、効果音ごとに音の発声の形態は異なる。これらをどのように体系化して知識として蓄積するのか、高度な問題であり、今後の課題となるだろう。 (3)については、健常者が使用するシステムとして、入力テキストファイルを指定して結果を得ると言った程度の使用形態を想定するのであれば、開発は容易に完了するが、視覚障がい者の利用を前提とした時、利用者にどの程度の操作を要求するかの検討が重要である。また、生成された音声を配布する際の(音声合成器の)ライセンスの問題も未着手である。未着手である理由としては、被験者(=視覚障がい者)が見つけづらいことと、学術的な位置づけから優先順位が低いことがあげられる。
|
Strategy for Future Research Activity |
最終年度の26年度の方針、課題として、(1) 生成される朗読音声の質を高めることと、 (2)完成したプロトタイプ・システムを基に運用面での検討を進めることがあげられる。 (1)に関して、プロトタイプ・システムにより生成されたドラマ音声を精査したところ、発話文の話者の同定の精度が、生成された朗読音声の品質向上に必須の要素であることが分かった。誤った話者同定により別人格での発声となり、物語理解に本質的に影響する。照応の問題や省略された主格の推定など、自然言語処理の典型的な課題として検討されているこれらの問題に取り組む。それ以外の品質向上の要素として、背景音楽、効果音の挿入が想定されている。両者とも、効果を確認しつつ開発を進める。方針としては、開発した背景音楽、効果音のデータベースを用い、キーワード等による状況の判断に基づき、場面ごとに音楽を選定するという方式で実現を進める。なお、音声の質を高めるための感情を込めた発話合成については、商用の音声合成システムFinespeechの感情オプションの利用で対処することを考えている。 (2)に関しては、視覚障がい者の利用を前提としたユーザインタフェースの設計と、公開される場合の合成される音声の著作権について検討する。後者については、システム内に組み込まれている商用の音声合成ソフトで合成される音声を不特定の利用者に提供すると問題となる。インターネット上の物語テキスト資源を容易にアクセス出来るようなユーザインタフェース設計や、素早い応答性を重視したシステム構成の再検討も重要である
|
Expenditure Plans for the Next FY Research Funding |
残額は予定額の1%程度であり、ほぼ予定通りである。 残額は予定額の1%程度であり、当初の計画通りで問題は生じないものと思われる。
|