研究課題/領域番号 |
18H04107
|
研究機関 | 東京大学 |
研究代表者 |
峯松 信明 東京大学, 大学院工学系研究科(工学部), 教授 (90273333)
|
研究分担者 |
牧野 武彦 中央大学, 経済学部, 教授 (00269482)
山内 豊 創価大学, 教育学部, 教授 (30306245)
齋藤 大輔 東京大学, 大学院工学系研究科(工学部), 准教授 (40615150)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | 外国語教育 / シャドーイング / 瞬時的了解性 / 定量的評価 / ポステリオグラム / 発音評価 / 音声認識 |
研究実績の概要 |
外国語学習者の音声は本人にとっては聞き取りやすいが,聴取者にとっては必ずしも聞き取りやすいとは限らない。聴取者にとっての聞き取りやすさ,瞬時的了解性を客観的に計測する方法として,聴取者(多くは母語話者)にシャドーさせ,そのシャドー音声の崩れを計測することで,瞬時的了解性のアノテーションとする方法を提案している。昨年度は,母語話者に(学習者の読み上げ音声を)シャドーさせ,その直後に,学習者が参照したテキストを参照しながらシャドーさせる方式を提案した(両音声を比較することで瞬時的了解性が計算できる)。本年度は本手法をベースにシャドワーを母語話者のみならず,非母語話者の英語上級者(例えば会議通訳者)にも参加させ,聞き手の言語背景によって瞬時的了解性がどう変化するのか調査した。また,シャドー音声を手動で書き起こすことで,(手動書き起こしに基づく)瞬時的了解性が定量化できるが,これが,提案手法(シャドー音声の崩れの定量化)とどの程度相関があるのか,についても調査した。その結果,提案手法は,シャドー音声を音声認識器で書き起こすよりも,より精度高く,かつ頑健に,手動書き起こしに基づく瞬時的了解性を予測できることがわかった。例えば日本人英語を非母語話者の英語上達者にシャドーさせると,彼らの英語には母語訛りが存在するため,音声認識(自動書き起こし)の精度が落ちる。提案手法は,彼らのシャドー音声と,スクリプトシャドー音声の比較に基づくため,このような母語訛りの影響を受けない。世界諸英語を念頭において,世界中の英語学習者をシャドーする側,される側に配置することを考えた場合,シャドワーの母語訛りに対する非依存性は必須の技術である。また,日本人英語をシャドーさせる場合,シャドワーの日本語学習歴が大きく影響することも示された。これらの研究成果は音声学会の優秀発表賞を受賞した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度の成果の一部を上記に示したが,それ以外の理論的考察も大きな成果であると考えている。外国語学習者の音声の「分かり易さ」を形容する用語して,intelligibility, comprehensibility, interpretability, fluency など,様々な用語が乱立しているが,我々が検討する「シャドー音声の円滑さ」が,従来の試みと何が等しく,何が異なるのか,について議論を重ね,瞬時的明瞭度(了解度),あるいは,聴解の円滑さ,という名称で呼ぶことが相応しいという結論に至ったことも大きい。また,聴取者に課すタスクであるシャドーイングは,脳科学の分野で言われる「音声聴取におけるミラーニューロンの活動」と関連付けて議論できること,ミラーリングの音声化がシャドーイングであること,などの理論的裏付けを進めることができたことも大きい。すなわち,実験的には,1) 聴取者(シャドワー)の言語背景を多様にした場合でも応用可能であること,2) シャドー音声を音声認識で自動書き起こしするよりも精度高く,より頑健に処理できること,3) 単語単位のみならず,音素,音節単位でも評価が可能であることを示せた。それに加え,理論的には,1) シャドーの出来・不出来は瞬時的了解度として解釈するのが相応しいこと,2) シャドーイングはミラーニューロンの音声化(意識化)として解釈できること,などの考察をすることができた。なお,次年度の研究(virtual shadower の構築)に向けて,少数のシャドワーを対象として,日本人英語800発声のシャドー音声,スクリプト・シャドー音声の収録を開始した。
|
今後の研究の推進方策 |
現在,特定の母語話者・英語上級者を対象として,日本人英語800発声に対するシャドー音声,スクリプト・シャドー音声を収録している。これらのシャドー音声対から,提示した日本人英語音声のどこで,どの程度,瞬時的了解度が下がったのか,という時系列アノテーションが得られる。このアノテーションを,学習者音声のみから予測する Virtual Shadower (VS)の構築を検討する。VS は英語上達者の瞬時的聴解の様子をモデル化していることに相当する。学習者が母語話者英語を聞いてシャドー(およびスクリプト・シャドー)した音声があれば,学習者の瞬時的聴解の様子のモデル化することになる。「上級者が初級者の英語音声を聞いた時の聴解モデル」は,初級者にとっては(自身にとっては常に聞き取りやすい)自身の英語を他者はどう聞いているのかが分かり,「初級者が上級者の英語音声を聞いた時の聴解モデル」は,初級者はどのような音声特徴・言語特徴を有する音声区間において聴解が崩れるのかを予測することができる。例えば,リスニング教材の難易度をデータに基づいてソーティングするなど,教材の精緻化を検討できる。これらについて検討する。
|