研究課題/領域番号 |
26770180
|
研究機関 | 京都教育大学 |
研究代表者 |
中俣 尚己 京都教育大学, 教育学部, 講師 (00598518)
|
研究期間 (年度) |
2014-04-01 – 2018-03-31
|
キーワード | コーパス / 学習者コーパス / 話し言葉コーパス / 接触場面 / 話題別の語彙 / 形態素解析 / 副詞 / コミュニケーション・ブレイクダウン |
研究実績の概要 |
【概要】2012年5月から7月にかけて、 日本・東京の実践女子大学と中国・長沙市の湖南大学との間で行われた日本語でのSkype会話交流活動の内容を録音、文字化した『日中Skype会話コーパス』を作成、公開した。 【コーパスについて】コーパスはテキスト形式であり、記号でアノテーションが行われているが、正規表現を用いることで容易に除去できるようになっている。コーパスにはのべ9ペア、38の会話が収録されている。 総会話時間は46:48:35で、1会話あたり平均1:13:55とまとまった長さのSkypeでの会話が収録されている。 1つのペアにつき1~7会話が収録されており、各回のトピックは事前に緩やかに決められているが、 トピックからそれることもあった。mecabとUniDicを用いた形態素解析の結果、日本人、中国人ともに115,000語、合計23万語含まれていた。 【公開までのプロセス】文字化は(株)東京反訳に依頼した。この時点でタイムスタンプ、発話の重なり、不明瞭な個所、笑い声、沈黙についてのアノテーションを行った。その後、学生アルバイトを雇い、文字化の確認、個人情報の消去、発音の誤りについて正しい発音の付記を行った。並行してウェブサイトでの公開準備を進め、コーパスを配布するシステムを構築した。現状、氏名・所属・メールアドレスをフォームに記入し、利用規約に同意した者にZip圧縮されたファイルのURLを表示し、別途パスワードをメールで送るシステムになっている。 【現時点での分析】まだあまり分析は行えていないが、日本人と中国人に分けて形態素解析を行った結果、副詞の使用に大きな差異がみられることがわかった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度の計画においては、「コーパスの作成と公開」であり、これは3月31日のコーパス一般公開をもって完全に達成することができた。今後はコーパスを使った分析と、コーパスそのものの普及を課題とする。
|
今後の研究の推進方策 |
本年度の課題は「コーパスの普及」と「話題別の語彙の分析」の2つである。 コーパスを形態素解析した結果、名詞や動詞においては、日本人と中国人の間にほとんど差がない(日本人が使う語は中国人も使う)のに対し、副詞に関しては大きな差異がみられることが判明した。これは、接触場面という環境において、名詞や動詞についてはインテイクが行われるのに対し、副詞に関してはそれが行われないためであると推察され、教育における副詞の重要性を示している。コーパスの普及と問題提起をかねて、コーパスに関する学会で発表を行う。 また、話題については、当初の予定とはずれている箇所もあったものの、「料理」「ポップカルチャー」といったメジャーな話題に関しては一定量の会話を収録することができた。当該話題とそれ以外の話題にコーパスを分割し、ワードリストと対数尤度比を用いた特徴語リストを作成し、日本語に関する学会で発表する。また、既存の語彙表や、筆者が提唱する「生産性指数」との対照も行い、「生産性が中程度の語が習得しにくい」という仮説の検証を行う。日本語以外にも応用できそうな結果が得られれば、日本語学・日本語教育以外の国際学会で発表する。 また、生産性指数と難易度についての理論的な論文を海外のジャーナルに投稿する。
|
次年度使用額が生じた理由 |
文字化チェックの謝金ならびに、コーパス配布サイトの構築にかかる予算を多く見積もっていたため。文字化の経験から、1時間分の会話の文字化のチェックにかかる時間を10時間と目算していたが、実際にはすでに文字が打たれている状況であるので、初心者でも5~6時間ほどで実施することができ、アルバイトにかかる謝金は当初の半分ほどで実施できた。 また、ウェブサイトも研究代表者が細かく支持を出すことで、当初の想定よりも価格を抑えることができた。
|
次年度使用額の使用計画 |
データの分析やタグ付けにアルバイトを雇い、複数の人手を解することでより精度を上げた分析を行う。当初の計画で計上した金額はそもそも十分なものではなかった。また、ウェブサイトにコーパスを公開しただけでは、研究者への周知は十分とはいえないことがわかった。今後は当初計画よりも積極的に学会でアピールしていきたく、その旅費にもあてる。
|