本研究ではまずデータ収集の標準的な手順を定めることから始めた。被験者から一定の長さの発話を得ることは予想外にむずかしい。最初のひとこと、ふたことから先に進まない例が多い。(1)音声を引き出すためにはところどころ、あいづちを打ち、(2)被験者の反応を引き出しやすい話題、タスクを与えることを基本に、「これまで自分がいちばん楽しかった経験についてできるだけくわしく英語で話してください」といった課題を与えた。 データの書式化にはCHILDESで使われているCHATとよばれる表記法を使った。その理由はなによりも標準化されて、広く利用されており、利用技術の蓄積がある点である。CHATフォーマットはヘッダーをはずせば、そのままプレーンなテキストファイルになるので、他のコーパス解析ソフトウェアでの利用も可能である。 このコーパスの最大の特徴は音声を記録したという点だけでなく、音声をそのまま聞くことができ、また、音声を検索できるという点である。これを行うのに、音声をコンピュータファイルとして記録し、それをテキストからリンクさせて音声を再生するCHILDESの機能を利用した。 母語と異なり、外国語コーパスでは音声が正しく発音されない場合が多い。このような学習者の音声上の特徴を体系的に探るには、特定の音を一括して検索できるしくみがあると便利である。このために作成したのが音素表記コーパスである。学習者が発話する音声は誤りも含めて何が現れるか予想がつかない。そこで、逆に「正しく発音したならば、このように発音されるはずだ」という音声を音素表記した。これならば最小限の記号で転写をすることができる。音素表記にはカーネギー・メロン大学が公開しているThe CMU Pronouncing Dictionaryの表記を利用した。
|