• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2006 Fiscal Year Annual Research Report

「非母語話者による日本語話し言葉コーパス」の構築と分析・研究

Research Project

Project/Area Number 17202011
Research InstitutionOsaka University

Principal Investigator

土岐 哲  大阪大学, 文学研究科, 教授 (10138662)

Co-Investigator(Kenkyū-buntansha) 前川 喜久雄  独立行政法人国立国語研究所, 研究開発部門, 第2領域長 (20173693)
鹿島 央  名古屋大学, 留学生センター, 教授 (60204377)
中西 久実子  京都外国語大学, 外国語学部, 助教授 (30296769)
山下 洋一  立命館大学, 情報理工学部, 教授 (80174689)
江崎 哲也  山梨大学, 留学生センター, 講師 (40420343)
Keywords言語学 / 音声学 / 非母語話者 / 話し言葉コーパス / 日本語教育
Research Abstract

今年度は主に音声収集、音声の書き起こし、種々のアノテーション付与に充てられた。
1.音声収集
国内外の学会講演及び模擬講演において、非母語話者が日本語で発表した音声を収集した。データは約130話者、時間にして約2200分のボリュームとなった。
2.パソコンへの取り込み作業
DATで収録した音声は、パソコンに取り込んだ(サンプリング周波数48KHz、量子化16ビット)。その後、その音声をダウンサンプリング(サンプリング周波数16KHz)し、一般的に扱いやすく、なおかつ音声学的な分析に耐えうる質にした。また、その音声を聞きながら講演音声以外の音を記述する「非言語音の記述」、200ms以上のポーズを一つの転記基本単位と認定する「ポーズに基づく転記基本単位への分割」を行った。(80話者、1200分のデータ)
3.転記テキストの作成
転記基本単位に分割された音声を基本形(漢字かな混じり)と発音形(カタカナ)に書き起こす「収録音声の転記テキスト作成」については、80話者、時間にして約1200分終了している。これは文字起こしだけでなく、種々のタグ(フィラー、言いよどみ等)も付与されている。その転記テキストにエラーがないかもチェックした。2次チェックを120話者(約2000分)に対して行い、3次チェックもその半数に対して行った。
4.形態論情報の付与
転記テキストを基に、形態素解析を行い、手作業でそれを修正した。形態論情報の付与は35話者(約550分)のデータに対して行った。
5.分節音ラベルの付与
音声を分節音に分割する「分節音ラベルの付与」についても、150分の音声データに対して行った。
6.韻律ラベルの付与
アクセント、イントネーション等、韻律情報を付与する「韻律ラベルの付与」は5話者分が行われた。

URL: 

Published: 2008-05-08   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi