2006 Fiscal Year Annual Research Report
「非母語話者による日本語話し言葉コーパス」の構築と分析・研究
Project/Area Number |
17202011
|
Research Institution | Osaka University |
Principal Investigator |
土岐 哲 大阪大学, 文学研究科, 教授 (10138662)
|
Co-Investigator(Kenkyū-buntansha) |
前川 喜久雄 独立行政法人国立国語研究所, 研究開発部門, 第2領域長 (20173693)
鹿島 央 名古屋大学, 留学生センター, 教授 (60204377)
中西 久実子 京都外国語大学, 外国語学部, 助教授 (30296769)
山下 洋一 立命館大学, 情報理工学部, 教授 (80174689)
江崎 哲也 山梨大学, 留学生センター, 講師 (40420343)
|
Keywords | 言語学 / 音声学 / 非母語話者 / 話し言葉コーパス / 日本語教育 |
Research Abstract |
今年度は主に音声収集、音声の書き起こし、種々のアノテーション付与に充てられた。 1.音声収集 国内外の学会講演及び模擬講演において、非母語話者が日本語で発表した音声を収集した。データは約130話者、時間にして約2200分のボリュームとなった。 2.パソコンへの取り込み作業 DATで収録した音声は、パソコンに取り込んだ(サンプリング周波数48KHz、量子化16ビット)。その後、その音声をダウンサンプリング(サンプリング周波数16KHz)し、一般的に扱いやすく、なおかつ音声学的な分析に耐えうる質にした。また、その音声を聞きながら講演音声以外の音を記述する「非言語音の記述」、200ms以上のポーズを一つの転記基本単位と認定する「ポーズに基づく転記基本単位への分割」を行った。(80話者、1200分のデータ) 3.転記テキストの作成 転記基本単位に分割された音声を基本形(漢字かな混じり)と発音形(カタカナ)に書き起こす「収録音声の転記テキスト作成」については、80話者、時間にして約1200分終了している。これは文字起こしだけでなく、種々のタグ(フィラー、言いよどみ等)も付与されている。その転記テキストにエラーがないかもチェックした。2次チェックを120話者(約2000分)に対して行い、3次チェックもその半数に対して行った。 4.形態論情報の付与 転記テキストを基に、形態素解析を行い、手作業でそれを修正した。形態論情報の付与は35話者(約550分)のデータに対して行った。 5.分節音ラベルの付与 音声を分節音に分割する「分節音ラベルの付与」についても、150分の音声データに対して行った。 6.韻律ラベルの付与 アクセント、イントネーション等、韻律情報を付与する「韻律ラベルの付与」は5話者分が行われた。
|