研究概要 |
本年度は、データベース作成の準備段階として非母国語話者(留学生を含む)の会話データの収録を行った。具体的には,東京都内の民間日本語学校,国際基督教大学,およびアメリカ合衆国のプリンストン大学において計3回のデータ収録実験を実施し,約70名分の会話データを得た。このうち、画像データは高画質8ミリビデオテープに,音声データは光磁気ディスクにそれぞれ収録した。収録時間は被験者1人につき20-30分程度である。現在までに,音声データからテキストデータへの書き起こし作業の一部(約10名分)が完成し,圧縮した音声データとともにインターネットのWWWサーバ(http://corpus.fit.ac.jp/jdocs/jindex.htm)およびFTPサーバ上で順次公開している。特に,音声データの公開方法に関しては,インターネット上でのオン・デマンド型音声サーバ技術をいち早く導入し,実験的にインタビュー内容の一部を転写テキストと一体化した形で提供している。ディジタル変換された画像データ(動画、JPEG圧縮ファイル)は被験者1人当り200〜300MBに達するので,現時点ではインターネット上では公開せず,追記型光ディスク(CD-R)に保存している。 今後の計画としては、研究班をコーパス作成班とコーパス分析班に分けて、適宜協力しながら研究計画を遂行する。作成班は、年度内に収集した音声データと転写テキストデータについて、任意の文字列から当該個所の音声データを検索するプログラムの開発を試みる。一方、分析班は言語学と日本語教育の立場から、被験者の発話内容を比較検討し、段落形成、連接名詞、代名詞類、繋ぎ語等の各トピックについて会話分析を試みる。データの蓄積が一定レベルに達した後、当初の研究目的であった「言い誤り」の類型に関する分析を開始する。
|