教育学部4年生学生2名による模擬授業(フリースクールでの授業のリハーサル)の音声を収録した。ヘッドセット型マイクロホンとラベリア型マイクロホンの両方を装着し、収録音声の品質。話者の装着感、および生徒役で参加した学生から見た装着の違和感などの違いを検討した。収録した模擬授業は生徒役の発言が比較的少なく、静かな環境のもとで教師役が話すものだったため、現在のところラベリア型マイクロホンが、音質面でも装着感の面でも優位である。 収録した音声を1秒から12秒程度の部分に切り分け、オープンソース汎用大語彙連続音声認識エンジンであるJuliusによる音素認識を試みたが、学習を行わない簡便な方法で行ったことなどから、結果は思わしくなかった。そこで聴取により書き起こしテキストを作成し、音素列既知の条件の下でJulius (Julian)に音素の強制割付を行わせ、音素境界を推定させた。求めた推定音素境界からモーラ持続長を求め、これより発話速度変化を半自動的に記述した。1モーラごとの持続長変化は細かく変化すること、また、個々のモーラ境界は推定により求められたものなので必ずしも正確ではないことから、10モーラ程度の長さで移動平均を求め、発話速度の変化傾向を表現した。 発話速度が大きく変化していると聴取される複数のサンプルについて、本研究の発話速度変化傾向表現は、おおむね良好な結果を得た。 課題としては、本研究ではポーズを特に区別せずに扱ったため、長めのポーズを頻繁に挿入する方法での「ゆっくり感」の演出と、実際に発話部分の速度が低下しているものを区別できない。さらに、音素境界の推定を大幅に誤る例も散見された。主な原因としては、切り出し単位内の長いポーズや、生徒役の発声の重畳、雑音などを処理しきれず、特定部分に割付が集中することなどが考えられる。
|