• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2006 年度 研究成果報告書概要

「非母語話者による日本語話し言葉コーパス」の構築と分析・研究

研究課題

研究課題/領域番号 17202011
研究種目

基盤研究(A)

配分区分補助金
応募区分一般
研究分野 日本語教育
研究機関大阪大学

研究代表者

土岐 哲  大阪大学, 文学研究科, 教授 (10138662)

研究分担者 前川 喜久雄  独立行政法人国立国語研究所, 研究開発部門, 第2領域長 (20173693)
鹿島 央  名古屋大学, 留学生センター, 教授 (60204377)
中西 久美子  京都外国語大学, 外国語学部, 助教授 (30296769)
山下 洋一  立命館大学, 情報理工学部, 教授 (80174689)
江崎 哲也  山梨大学, 留学生センター, 講師 (40420343)
研究期間 (年度) 2005 – 2006
キーワード言語学 / 音声学 / 非母語話者 / 話し言葉コーパス / 日本語教育
研究概要

「非母語話者による日本語話し言葉コーパス」を構築した。当初、話者100、時間にして約37時間、形態素では約40万を目標としていたが、それをはるかに上回るデータを収集することができた。本コーパスの構築は以下の手順に従って行われた。
1.音声収集
国内外の学会講演及び模擬講演において、非母語話者が日本語で発表した音声を収集した。データは約200話者、時間にして約3200分のボリュームとなった。
2.パソコンへの取り込み作業
DATで収録した音声は、パソコンに取り込んだ。その後、その音声をダウサンプリングし、一般的に扱いやすく、なおかつ音声学的な分析に耐えうる質にした。また、講演音声以外の音を記述する「非言語音の記述」、200ms以上のポーズを一つの転記基本単位と認定する「ポーズに基づく転記基本単位への分割」を行った。(120話者、2000分のデータ)
3.転記テキストの作成
転記基本単位に分割された音声を基本形(漢字かな混じり)と発音形(カタカナ)に書き起こす「収録音声の転記テキスト作成」については、120話者、時間にして約2000分終了した。これは文字起こしだけでなく、種々のタグ(フィラー、言いよどみ等)も付与されている。その転記テキストにエラーがないかもチェックした。
4.形態論情報の付与
転記テキストを基に、形態素解析を行い、手作業でそれを修正した。形態論情報の付与は35話者(約550分)のデータに対して行った。
5.分節音ラベルの付与
音声を分節音に分割する「分節音ラベルの付与」についても、35話者(約550分)の音声データに対して行った。
6.韻律ラベルの付与
アクセント、イントネーション等、韻律情報を付与する「韻律ラベルの付与」は5話者分が行われた。

URL: 

公開日: 2008-05-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi