• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

「非母語話者による日本語話し言葉コーパス」の構築と分析・研究

研究課題

研究課題/領域番号 17202011
研究種目

基盤研究(A)

配分区分補助金
応募区分一般
研究分野 日本語教育
研究機関大阪大学

研究代表者

土岐 哲  大阪大学, 文学研究科, 教授 (10138662)

研究分担者 前川 喜久雄  独立行政法人国立国語研究所, 研究開発部門, 第2領域長 (20173693)
鹿島 央  名古屋大学, 留学生センター, 教授 (60204377)
中西 久美子 (中西 久実子)  京都外国語大学, 外国語学部, 助教授 (30296769)
山下 洋一  立命館大学, 情報理工学部, 教授 (80174689)
江崎 哲也  山梨大学, 留学生センター, 講師 (40420343)
研究期間 (年度) 2005 – 2006
研究課題ステータス 完了 (2006年度)
配分額 *注記
47,840千円 (直接経費: 36,800千円、間接経費: 11,040千円)
2006年度: 22,880千円 (直接経費: 17,600千円、間接経費: 5,280千円)
2005年度: 24,960千円 (直接経費: 19,200千円、間接経費: 5,760千円)
キーワード言語学 / 音声学 / 非母語話者 / 話し言葉コーパス / 日本語教育 / 話し言葉 / コーパス / モノローグ / 自発発話 / 日本語話し言葉コーパス
研究概要

「非母語話者による日本語話し言葉コーパス」を構築した。当初、話者100、時間にして約37時間、形態素では約40万を目標としていたが、それをはるかに上回るデータを収集することができた。本コーパスの構築は以下の手順に従って行われた。
1.音声収集
国内外の学会講演及び模擬講演において、非母語話者が日本語で発表した音声を収集した。データは約200話者、時間にして約3200分のボリュームとなった。
2.パソコンへの取り込み作業
DATで収録した音声は、パソコンに取り込んだ。その後、その音声をダウサンプリングし、一般的に扱いやすく、なおかつ音声学的な分析に耐えうる質にした。また、講演音声以外の音を記述する「非言語音の記述」、200ms以上のポーズを一つの転記基本単位と認定する「ポーズに基づく転記基本単位への分割」を行った。(120話者、2000分のデータ)
3.転記テキストの作成
転記基本単位に分割された音声を基本形(漢字かな混じり)と発音形(カタカナ)に書き起こす「収録音声の転記テキスト作成」については、120話者、時間にして約2000分終了した。これは文字起こしだけでなく、種々のタグ(フィラー、言いよどみ等)も付与されている。その転記テキストにエラーがないかもチェックした。
4.形態論情報の付与
転記テキストを基に、形態素解析を行い、手作業でそれを修正した。形態論情報の付与は35話者(約550分)のデータに対して行った。
5.分節音ラベルの付与
音声を分節音に分割する「分節音ラベルの付与」についても、35話者(約550分)の音声データに対して行った。
6.韻律ラベルの付与
アクセント、イントネーション等、韻律情報を付与する「韻律ラベルの付与」は5話者分が行われた。

報告書

(3件)
  • 2006 実績報告書   研究成果報告書概要
  • 2005 実績報告書

URL: 

公開日: 2005-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi