研究課題/領域番号 |
16K16134
|
研究機関 | 香川高等専門学校 |
研究代表者 |
篠山 学 香川高等専門学校, 情報工学科, 講師 (60508232)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 言い間違い / 音位転換 / 字幕情報 / 対話アプリ / 対話API |
研究実績の概要 |
当該年度は,言い間違いを含むコーパスを収集する計画であった.予定していたサイト(通り聞き間違いを収集した)から言い間違いを収集中である.言い間違いを(1)慣用句の間違い,(2)意味の間違い,(3)音位転換の3つに分類した.この中で音位転換による言い間違いについて検出と訂正手法を提案した.最初に,発話を形態素解析し,ひらがなのみの文字列に変換した.次に未知語に判定された語が言い間違いであると定義する(言い間違いの検出).この未知語とWikipediaに出現した名詞との類似度を判定する.類似度の判定にはSimstringを用いる.最後に,類似度の高かった語の中で未知語と同じ文字列長をもつものに対し,レーベンシュタイン距離を用いて距離が最小の語を訂正結果とする(言い間違いの訂正).評価実験を行ったところ,F値が0.7となり音位転換のみであることを考えると低い結果となった.Wikipediaに日常では用いないような語が存在していたことから精度が下がったと考えられる. 言い間違いを認識した後の応答に関しての考察は遅れている.しかし,実際の聞き間違いや言い間違いのデータベースを構築するためにTVの対談番組から字幕情報を取り出して対談コーパスを作成している.現在,50回以上の字幕情報をテキスト化した. 対話APIと音声合成を用いた対話実験のためのアプリを構築し,被験者20名に対話実験を行った.その結果,既存の対話システムの発話は脈絡がないことが多いため被験者はまったく聞き取れない対話が多かった. 研究成果としては,電気関係学会四国支部連合大会で1件と人工知能学会研究会で1件の合計2件の成果発表を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
言い間違いの検出と訂正は計画通りに行えた.しかし,提案した検出手法では精度が良くなかった.また,すべての言い間違いの種類に対応していないので,残りの言い間違いに対しても検出手法を提案する.対話APIで代用するためアプリを構築したが,そもそも既存の対話システムの精度が良くなかった.評価は人間同士で対話してもらう評価方法を検討している.
|
今後の研究の推進方策 |
言い間違いを検出した後の応答に関しての考察を行う.そのために,名大対話コーパスや構築した対談コーパス中の聞き間違いや言い間違い箇所を分析する.分析をもとに応答をパタン化する. 最後に,実証実験として実際に言い間違った発話を入力し,適切な応答が出力されるか確認する.適切かどうかは人手により判定する. また,これまでの研究において言い間違いの検出精度が低かったため,ほかの手法を試すとともに,検出できる言い間違いの種類を増やす. 日々行っている,サイトから言い間違いをデータベースに起こす作業と対談番組から字幕情報の抽出作業は継続する.
|
次年度使用額が生じた理由 |
初年度の対話ロボット用に要求した額がそのまま残っている.依然として再販売が開始されていない.現在,TVの対談番組を収録して字幕情報から対談コーパスを作成中である.対談番組の動画データと字幕コーパス,作成中の聞き間違いと言い間違いコーパスを残すためのファイルサーバを購入予定である.
|