研究課題/領域番号 |
09480064
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
知能情報学
|
研究機関 | 豊橋技術科学大学 |
研究代表者 |
中川 聖一 豊橋技術科学大学, 工学部, 教授 (20115893)
|
研究分担者 |
甲斐 充彦 静岡大学, 工学部, 講師 (60283496)
峯松 信明 豊橋技術科学大学, 工学部, 助手 (90273333)
増山 繁 豊橋技術科学大学, 工学部, 教授 (60173762)
安藤 彰男 社団法人日本放送協会, 放送技術研究所, 副部長
|
研究期間 (年度) |
1997 – 1999
|
研究課題ステータス |
完了 (1999年度)
|
配分額 *注記 |
13,100千円 (直接経費: 13,100千円)
1999年度: 4,800千円 (直接経費: 4,800千円)
1998年度: 3,100千円 (直接経費: 3,100千円)
1997年度: 5,200千円 (直接経費: 5,200千円)
|
キーワード | 音声認識 / 音響モデル / 字幕化 / ディクテーション / 言語モデル / 要約化 / ニュース音声 / 大語彙連続音声認識 / ニュース文 / 要約 |
研究概要 |
本研究では、ニュース音声の認識と字幕化に関して(1)音響モデル、(2)言語モデル、(3)要約化の研究を行なった。要約化に関しては、ニュース音声の認識結果を用いた場合と書き起こしテキストを用いた場合について研究を行なった。 (1)音響モデルは前後の音素の影響を考慮したトライフォン単位のHMMが世界的標準となっており、日本語に於いてもその有効性が確かめられている。そこで、音節単位とトライフォン単位の詳細な比較実験を行ない、連続音声認識ではやや音節単位が良く、日本語に対しては音節単位が有効であることがわかった。また、朗読音声と比べて自然発話の方が音声認識が困難なことを定量的に明らかにした。 (2)言語モデルの評価尺度としてパープレキシティをが用いられてきたが、この尺度の欠点を指摘し、新たにSMR-パープレキシティを提案し、シミュレーション実験により、その妥当性を明らかにした。また、未知語を含む文のパープレキシティの新しい算出法を提案した。次に、新聞テキストではあるが、タスク(記事面)別の適応化や最寄りの記事による適応化の有効性、固有名詞の登録、定型表現の利用の有効性を明らかにした。 (3)ニュース文の要約技術の特徴として逐次オンライン処理の必要性がある。そこで、一文毎に要約を行なう方法を種々検討した。それらは、修飾語の削除、例示などを含む文節(冗長部)の削除、重複部の削除、などである。これらには形態素解析と簡易な構文解析方による係り受け解析を用いた。また、言い換えによる表現の短縮化技術も開発した。
|