Project/Area Number |
21J15592
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 国内 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Akita University |
Principal Investigator |
中村 悦郎 秋田大学, 理工学研究科, 特別研究員(DC2)
|
Project Period (FY) |
2021-04-28 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2021)
|
Budget Amount *help |
¥1,500,000 (Direct Cost: ¥1,500,000)
Fiscal Year 2021: ¥800,000 (Direct Cost: ¥800,000)
|
Keywords | 口唇 / 発話区間抽出 / 発話者判別 / 読唇 / 議事録 / Long-short term memory / MFCC / 全方位カメラ |
Outline of Research at the Start |
音声認識技術に基づいた議事録自動作成システムを使用することは,会議における議事録作成業務の効率化に寄与すると考える.特に,自動取得された議事録に対して発言者を自動で割り振る機能,および音声認識結果の誤りを補正する機能は,議事録作成業務の効率化に寄与すると考える. 本研究では,利便性の高い議事録自動作成システムの構築を目的とする.全方位カメラを用いて取得した口唇の動きおよび音声情報を用いて「発話者判別手法」および「音声認識結果の補正手法」に関する検討を行う.
|
Outline of Annual Research Achievements |
今年度,発話者判別機能を搭載した議事録自動作成システムの構築を目的とし,各要素技術の実用性を考慮して検討を加えた.具体的には,①発話区間抽出手法,②発話者判別手法,ならびに③発話内容推定手法における各種課題に対して検討を加えた.①の検討では,6名の被験者が2名1組で1分間会話をしている様子を全方位カメラおよびマイクを用いて撮影し,これらのデータを対象として発話区間抽出手法の実用性に関する評価を行った.このとき,発話区間抽出に使用する閾値の算出式に対して新たな係数を加えて検討した.この結果,評価指標であるF-measureの平均値が0.07向上すること,音読時と会話時において口唇の動きに異なる傾向があることを示唆する結果を得た.②の検討では,Long-short term memory(以降,LSTMと略記する)を用いた発話者判別手法において,使用する特徴量の選定を行った.検討には,被験者14名が11文を発話した動画データを使用した.この結果,選定した音声の特徴量および口唇の縦幅と横幅の長さに基づいた特徴量を発話者判別のために使用することは,発話者判別成功率の向上に寄与することを明らかにした.また,発話者判別成功率は最大で93.0%,平均で87.2%の値が得られ,提案した発話者判別手法の有用性を明らかにした.③の検討において,発声に伴う顔の部位の動きとLSTMを用いて,発声した音節を推定する手法について検討を加えた.検討には,被験者14名が11文を発話した動画データ,および被験者15名が50文を発話した動画データを使用した.検討の結果,相関係数を用いて選定された口唇の動きの特徴量は,音節の判別に有用であること,かつ口唇の動きに加えて顎の動きを使用することは,音節推定精度の向上に寄与することを明らかにした.
|
Research Progress Status |
翌年度、交付申請を辞退するため、記入しない。
|
Strategy for Future Research Activity |
翌年度、交付申請を辞退するため、記入しない。
|