• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2005 Fiscal Year Annual Research Report

「非母語話者による日本語話し言葉コーパス」の構築と分析・研究

Research Project

Project/Area Number 17202011
Research InstitutionOsaka University

Principal Investigator

土岐 哲  大阪大学, 文学研究科, 教授 (10138662)

Co-Investigator(Kenkyū-buntansha) 前川 喜久雄  独立行政法人国立国語研究所, 研究開発部門, 第2領域長 (20173693)
鹿島 央  名古屋大学, 留学生センター, 教授 (60204377)
中西 久美子  京都外国語大学, 外国語学部, 講師 (30296769)
山下 洋一  立命館大学, 情報理工学部, 教授 (80174689)
Keywords非母語話者 / 話し言葉 / コーパス / モノローグ / 自発発話 / 日本語話し言葉コーパス / 日本語教育 / 音声学
Research Abstract

今年度は主に音声収集とアノテーション付与のためのマニュアル策定、アノテーションを付与する人材の育成、音声の書き起こしに充てられた。
1.音声収集
国内外の学会において非母語話者が日本語で発表した音声、約70名分、時間にして約1000分のデータを収集した。
2.マニュアル策定
本コーパスには種々のアノテーションが付与されるが、非母語話者の音声にどのようなアノテーションを付与するか、従来の研究では検討されることは少なかった。そのため、本コーパス構築にあたり、特に「書き起こし」、「分節音ラベリング」、「韻律ラベリング」の作業マニュアルを策定する必要があったため、多くの時間を費やした。
3.作業者の育成
上述のように、本コーパス構築には種々のアノテーションが付与されるため、多くの作業者が必要となるが、その作業者を育成することも本課題の一部である。これについても特に「書き起こし」、「分節音ラベリング」、「韻律ラベリング」の各研修を通して育成してきた。
4.作業の進捗状況
収録した音声は、パソコンに取り込み作業が進められている。DATで収録した音声をPCに取り込みダウサンプリングする「音声のファイル化」、その音声を聞きながら講演音声以外の音を記述する「非言語音の記述」、200ms以上のポーズを一つの転記基本単位と認定する「ポーズに基づく転記基本単位への分割」、音声を基本形(漢字かな混じり)と発音形(カタカナ)に書き起こす「収録音声の書き起こしテキスト作成」については約40話者分終了している。
また、短単位、長単位の認定と形態論情報を付与する「形態論情報の付与」、音声を分節音に分割する「分節音ラベルの付与」については約20話者分、アクセント、イントネーション等、韻律情報を付与する「韻律ラベルの付与」は5話者分が既に終了している。

URL: 

Published: 2007-04-02   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi