平成17年度に引き続き、学術場面における超級話し言葉コーパスの構築のために、データ収集、データ保存方法、スクリプト記述方法に関する基礎研究を行うとともに、平成18年度はデータの構築を行った。具体的な内容は以下の通り。 1.コーパスの設計に関して: (1)話し言葉・書き言葉のデータ化と記述方法に関する先行研究調査 (2)他機関主催の研究会・シンポジウムへの参加 2.データ収集・データ保存に関して (3)音声・画像データに関する保存方法の検討 (4)データ収集方法に関する研究発表 3.スクリプト記述方法に関して (5)独話(スピーチ)データのスクリプト記述・分析方法の決定 (6)三人会話(協同学習)データのスクリプト記述・分析方法の決定 3.スクリプト構築作業 (7)独話(スピーチ)のデータの構築 (8)三人会話(協同学習)のデータの構築 平成18年度は、平成17年度に収集した独話(スピーチ)と三人会話(協同学習場面)の録音・録画データのスクリプト記述方法を決定し、スクリプト構築作業を行った。 平成17年度は、音声とトランスクリプトをリンクして同時表示することができるツールを用いて独話(スピーチ)のトランスクリプト作成作業を行ったが、平成18年度は、文字化基準を精緻化し、作業者によるデータのゆれの改善に取り組んだ。その結果、3分程度の独話(スピーチ)20本を分析可能なデータに加工することができた。 三人会話では、60分程度の母語場面の協同学習(60分)を対象とし、各発話者の発話を個別に音声とリンクする形態でスクリプト化した。さらに、三人の会話を併記し時間順に配列する形態でのスクリプト表示方法について、神奈川大学工学部松澤和光教授の助力を得て開発に取り組み、ほぼ完成することができた。 データ管理方法はほぼ確立した。データの公開方法については引き続き平成19年度に検討する予定である。
|