研究課題/領域番号 |
17202011
|
研究種目 |
基盤研究(A)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
日本語教育
|
研究機関 | 大阪大学 |
研究代表者 |
土岐 哲 大阪大学, 文学研究科, 教授 (10138662)
|
研究分担者 |
前川 喜久雄 独立行政法人国立国語研究所, 研究開発部門, 第2領域長 (20173693)
鹿島 央 名古屋大学, 留学生センター, 教授 (60204377)
中西 久美子 (中西 久実子) 京都外国語大学, 外国語学部, 助教授 (30296769)
山下 洋一 立命館大学, 情報理工学部, 教授 (80174689)
江崎 哲也 山梨大学, 留学生センター, 講師 (40420343)
|
研究期間 (年度) |
2005 – 2006
|
研究課題ステータス |
完了 (2006年度)
|
配分額 *注記 |
47,840千円 (直接経費: 36,800千円、間接経費: 11,040千円)
2006年度: 22,880千円 (直接経費: 17,600千円、間接経費: 5,280千円)
2005年度: 24,960千円 (直接経費: 19,200千円、間接経費: 5,760千円)
|
キーワード | 言語学 / 音声学 / 非母語話者 / 話し言葉コーパス / 日本語教育 / 話し言葉 / コーパス / モノローグ / 自発発話 / 日本語話し言葉コーパス |
研究概要 |
「非母語話者による日本語話し言葉コーパス」を構築した。当初、話者100、時間にして約37時間、形態素では約40万を目標としていたが、それをはるかに上回るデータを収集することができた。本コーパスの構築は以下の手順に従って行われた。 1.音声収集 国内外の学会講演及び模擬講演において、非母語話者が日本語で発表した音声を収集した。データは約200話者、時間にして約3200分のボリュームとなった。 2.パソコンへの取り込み作業 DATで収録した音声は、パソコンに取り込んだ。その後、その音声をダウサンプリングし、一般的に扱いやすく、なおかつ音声学的な分析に耐えうる質にした。また、講演音声以外の音を記述する「非言語音の記述」、200ms以上のポーズを一つの転記基本単位と認定する「ポーズに基づく転記基本単位への分割」を行った。(120話者、2000分のデータ) 3.転記テキストの作成 転記基本単位に分割された音声を基本形(漢字かな混じり)と発音形(カタカナ)に書き起こす「収録音声の転記テキスト作成」については、120話者、時間にして約2000分終了した。これは文字起こしだけでなく、種々のタグ(フィラー、言いよどみ等)も付与されている。その転記テキストにエラーがないかもチェックした。 4.形態論情報の付与 転記テキストを基に、形態素解析を行い、手作業でそれを修正した。形態論情報の付与は35話者(約550分)のデータに対して行った。 5.分節音ラベルの付与 音声を分節音に分割する「分節音ラベルの付与」についても、35話者(約550分)の音声データに対して行った。 6.韻律ラベルの付与 アクセント、イントネーション等、韻律情報を付与する「韻律ラベルの付与」は5話者分が行われた。
|