研究課題/領域番号 |
03452167
|
研究機関 | 豊橋技術科学大学 |
研究代表者 |
中川 聖一 豊橋技術科学大学, 工学部, 教授 (20115893)
|
研究分担者 |
山本 幹雄 豊橋技術科学大学, 工学部, 助手 (40210562)
奥山 徹 豊橋技術科学大学, 工学部, 講師 (30177191)
|
キーワード | 音声対話 / 自然言語処理 / 自然言語解析 / 文脈処理 / 対話システム / 間投詞 / 言い淀み / 言い直し |
研究概要 |
これまでに研究されてきた音声対話システムは、その対象を主に整った形の話し言葉を中心としている。しかし、話し言葉には文法を逸脱した表現が付き物であり、さまざまな逸脱した文に対する分析・理解が必要とされている。 昨年度は、助詞落ちと倒置の表現に対して、通常の文のように解析できる手法を提案した。本年度は、話し言葉の文法の逸脱の一つとして間投詞を対象として、その出現位置の特徴を分析し、その結果に基づいて音声認識システムを構築し、評価した。 今回、節という概念を導入し、最大で4個所(前後を別に考えれば6個所)の観測位置のみでも90%弱の間投詞が観測できた。この結果から、間投詞の出現位置には偏りがあり、文の意味的な区切りとなるような所に現れやすいことがわかった。 間投詞を含んだ文を音声認識部で取り扱うために、文脈自由文法によって記述されているタスクの構文知識の中に、間投詞の語彙を追加し、間投詞の挿入を認めるよう書き換え規則を修正した。 認識実験のためのタスクは観光案内に関するもので、富士山周辺以外の観光地名等を含めて、総語彙数は約500単語である。構文知識を記述する文脈自由文法は、間投詞の語彙を含まないオリジナルのものは、非終端記号184、ワードクラス数(文法的に等価な非終端記号の集合)193、書換規則数440からなっている。この他にワードクラスから終端記号への書換規則が556ある。間投詞を含んだ文の認識のための文法には、新たに「えと」、「えーと」、「あの」、「あのー」、「え」、「えー」、「あ」、「あー」、「ま」、「まー」、の計10個の間投詞を語彙として追加登録し、文頭などに入ることができるように書き換え規則を修正した。この方法は、単語パープレキシティの増加と計算量の増加が問題となるが、文認識の性能としては、間投詞を含まない文の認識結果とあまり変らず、良好な結果が得られた。
|