研究課題/領域番号 |
17202011
|
研究機関 | 大阪大学 |
研究代表者 |
土岐 哲 大阪大学, 文学研究科, 教授 (10138662)
|
研究分担者 |
前川 喜久雄 独立行政法人国立国語研究所, 研究開発部門, 第2領域長 (20173693)
鹿島 央 名古屋大学, 留学生センター, 教授 (60204377)
中西 久美子 京都外国語大学, 外国語学部, 講師 (30296769)
山下 洋一 立命館大学, 情報理工学部, 教授 (80174689)
|
キーワード | 非母語話者 / 話し言葉 / コーパス / モノローグ / 自発発話 / 日本語話し言葉コーパス / 日本語教育 / 音声学 |
研究概要 |
今年度は主に音声収集とアノテーション付与のためのマニュアル策定、アノテーションを付与する人材の育成、音声の書き起こしに充てられた。 1.音声収集 国内外の学会において非母語話者が日本語で発表した音声、約70名分、時間にして約1000分のデータを収集した。 2.マニュアル策定 本コーパスには種々のアノテーションが付与されるが、非母語話者の音声にどのようなアノテーションを付与するか、従来の研究では検討されることは少なかった。そのため、本コーパス構築にあたり、特に「書き起こし」、「分節音ラベリング」、「韻律ラベリング」の作業マニュアルを策定する必要があったため、多くの時間を費やした。 3.作業者の育成 上述のように、本コーパス構築には種々のアノテーションが付与されるため、多くの作業者が必要となるが、その作業者を育成することも本課題の一部である。これについても特に「書き起こし」、「分節音ラベリング」、「韻律ラベリング」の各研修を通して育成してきた。 4.作業の進捗状況 収録した音声は、パソコンに取り込み作業が進められている。DATで収録した音声をPCに取り込みダウサンプリングする「音声のファイル化」、その音声を聞きながら講演音声以外の音を記述する「非言語音の記述」、200ms以上のポーズを一つの転記基本単位と認定する「ポーズに基づく転記基本単位への分割」、音声を基本形(漢字かな混じり)と発音形(カタカナ)に書き起こす「収録音声の書き起こしテキスト作成」については約40話者分終了している。 また、短単位、長単位の認定と形態論情報を付与する「形態論情報の付与」、音声を分節音に分割する「分節音ラベルの付与」については約20話者分、アクセント、イントネーション等、韻律情報を付与する「韻律ラベルの付与」は5話者分が既に終了している。
|