2012 Fiscal Year Research-status Report
Project/Area Number |
24500640
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | Yokohama National University |
Principal Investigator |
田村 直良 横浜国立大学, 環境情報研究院, 教授 (20179906)
|
Co-Investigator(Kenkyū-buntansha) |
後藤 敏行 横浜国立大学, 環境情報研究院, 教授 (30234991)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 福祉情報工学 / 自然言語処理 / 文脈解析 / ラジオドラマ生成 / 音声合成 |
Research Abstract |
開発目的のシステムの構成要素について、研究状況を概説する。文脈解析サーバでは、発話文についての人物同定と、文間ポーズ長の自動判定が実現された。別途人手で付与された発話者についての正解情報と照合して、解析精度について議論している段階である。またこの正解データを用いると、判定を機械学習によるものへと発展させることも可能である。 音声合成サーバについては、朗読XMLに含まれる感情の表出や韻律の変化の指定については未対応であるが、話者の個別化に対応した音声合成パラメータの変化は実現している。話者の変更は、プロフィールと呼ばれる一連のパラメータ値の組み合わせを複数用意して、プロフィールの選択により実現している。これらにより、基本的な発話文や音素材を重み付きで飽和加算する音声合成サーバの基本部分が完成している。 以上の両サーバを組み合わせることによって、目的のシステムのプロトタイプが完成したことになる。プロトタイプ・システムを基にして、目的システムの性能を向上させることは言うまでもないが、プロトタイプ・システムを稼働させることにより、変換される作品や合成音声についての著作権の問題、作品データベースとの連携の方式の検討など、運用、公開上の重要事項の検討を進めることが出来る。 また、学会発表4で自然言語処理部を補助/代替する入力支援システムが有効であろうとのコメントを受け、同支援システムを構築し、有効性/効率性を確認した(学会発表3)。支援システムでは、背景音楽用の音声素材や効果音用の音声素材を視聴しながら効率的に選択できる音素材データベースを含んでおり、GUIをベースとした十分な編集機能が実現されている。さらに、学会発表1、2、論文1では、文章の文脈解析の手法が検討されており、物語文を解析して各種の情報を抽出するさいの基礎となる事項について検討されている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
プロトタイプ・システムがほぼ完成したということにより、おおむね計画通りに進んでいるといえる。当課題の本質的な部分は、このプロトタイプにより実現されており、これを基にして、次年度以降の計画を予定通り進めることが出来る。すなわちプロトタイプでは、物語文章(500文程度)を入力として、登場人物ごとに音声を割り当てた朗読音声(WAV形式)のファイルを生成できる。 当初の計画のうち達成できなかった事項として、以下がある。文脈解析サーバ関連では、(1)事象発生時間の関係解析:対策としては、記述順に事象が発生しているとして単純化する事であるが、物語文の朗読を想定している限り、この仮定が問題となることはほとんどないのではないかと思われる。(2)文間のポーズ長:分類器による「長」、「短」の判定精度の向上や、値での推定について現時点では我々の過去の研究での精度が得られていない。声優の朗読による読み上げをポーズ長判定の基準としているが、これが適切な基準であるかの見直しも含め再検討が必要と思われる。 音声合成サーバ関連では、(3)感情の表出:文脈解析サーバで未対応であったために、音声合成サーバでも未対応であった。人手による入力も可能となるようにシステムを拡張したので、実現を進めることにする。(4)韻律の変化:使用する音声合成エンジンの仕様が影響するため、研究としての位置づけで開発を進める。
|
Strategy for Future Research Activity |
25年度以降の方針、課題として、(1)前年度に終わらなかった部分を完成させること、(2)完成したプロトタイプ・システムを基に運用面での検討を進めること、(3)生成される朗読音声の質を高めることがあげられる。特に(2)を、25年度の最重点項目と位置づけ、システムの一般公開を目標とする。 (1)に関しては、前項「現在までの達成度」で述べた方向で進める。なお、音声の質を高めるための感情を込めた発話合成については、商用の音声合成システムFinespeechの感情オプションの利用で対処することを考えている。 (2)に関しては、視覚障がい者の利用を前提としたユーザ・インタフェースの設計と、公開される場合の合成される音声の著作権について検討する。後者については、システム内に組み込まれている商用の音声合成ソフトで合成される音声を不特定の利用者に提供することに問題がある(ソフトウェアの利用規約上の問題)。朗読音声データ(WAV形式)を提供するような利用方法の他に、インターネットでのオンライン利用を前提にして、利用の都度に音声合成しストリーム配信するような方式を検討している。その場合は、インターネット上の物語テキスト資源を容易にアクセス出来るようなユーザ・インタフェース設計や、素早い応答性を重視したシステム構成の再検討が必要となる。 (3)に関しては、(a)背景音楽、(b)効果音の挿入が想定され、効果を確認しつつ開発を進める。方針としては、背景音楽、効果音のデータベースを開発し、(a)では、キーワード等による状況の判断に基づき、場面ごとに音楽を選定するという方式で実現を進める。(b)では、音の発生を伴う動作、出来事を記述している文を抽出し、それに応じた効果音を挿入する。
|
Expenditure Plans for the Next FY Research Funding |
該当なし
|
Research Products
(5 results)