• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2014 Fiscal Year Research-status Report

縦断型接触場面コーパスの構築とそれを用いた日本語教育のための談話研究

Research Project

Project/Area Number 26770180
Research InstitutionKyoto University of Education

Principal Investigator

中俣 尚己  京都教育大学, 教育学部, 講師 (00598518)

Project Period (FY) 2014-04-01 – 2018-03-31
Keywordsコーパス / 学習者コーパス / 話し言葉コーパス / 接触場面 / 話題別の語彙 / 形態素解析 / 副詞 / コミュニケーション・ブレイクダウン
Outline of Annual Research Achievements

【概要】2012年5月から7月にかけて、 日本・東京の実践女子大学と中国・長沙市の湖南大学との間で行われた日本語でのSkype会話交流活動の内容を録音、文字化した『日中Skype会話コーパス』を作成、公開した。
【コーパスについて】コーパスはテキスト形式であり、記号でアノテーションが行われているが、正規表現を用いることで容易に除去できるようになっている。コーパスにはのべ9ペア、38の会話が収録されている。 総会話時間は46:48:35で、1会話あたり平均1:13:55とまとまった長さのSkypeでの会話が収録されている。 1つのペアにつき1~7会話が収録されており、各回のトピックは事前に緩やかに決められているが、 トピックからそれることもあった。mecabとUniDicを用いた形態素解析の結果、日本人、中国人ともに115,000語、合計23万語含まれていた。
【公開までのプロセス】文字化は(株)東京反訳に依頼した。この時点でタイムスタンプ、発話の重なり、不明瞭な個所、笑い声、沈黙についてのアノテーションを行った。その後、学生アルバイトを雇い、文字化の確認、個人情報の消去、発音の誤りについて正しい発音の付記を行った。並行してウェブサイトでの公開準備を進め、コーパスを配布するシステムを構築した。現状、氏名・所属・メールアドレスをフォームに記入し、利用規約に同意した者にZip圧縮されたファイルのURLを表示し、別途パスワードをメールで送るシステムになっている。
【現時点での分析】まだあまり分析は行えていないが、日本人と中国人に分けて形態素解析を行った結果、副詞の使用に大きな差異がみられることがわかった。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

本年度の計画においては、「コーパスの作成と公開」であり、これは3月31日のコーパス一般公開をもって完全に達成することができた。今後はコーパスを使った分析と、コーパスそのものの普及を課題とする。

Strategy for Future Research Activity

本年度の課題は「コーパスの普及」と「話題別の語彙の分析」の2つである。
コーパスを形態素解析した結果、名詞や動詞においては、日本人と中国人の間にほとんど差がない(日本人が使う語は中国人も使う)のに対し、副詞に関しては大きな差異がみられることが判明した。これは、接触場面という環境において、名詞や動詞についてはインテイクが行われるのに対し、副詞に関してはそれが行われないためであると推察され、教育における副詞の重要性を示している。コーパスの普及と問題提起をかねて、コーパスに関する学会で発表を行う。
また、話題については、当初の予定とはずれている箇所もあったものの、「料理」「ポップカルチャー」といったメジャーな話題に関しては一定量の会話を収録することができた。当該話題とそれ以外の話題にコーパスを分割し、ワードリストと対数尤度比を用いた特徴語リストを作成し、日本語に関する学会で発表する。また、既存の語彙表や、筆者が提唱する「生産性指数」との対照も行い、「生産性が中程度の語が習得しにくい」という仮説の検証を行う。日本語以外にも応用できそうな結果が得られれば、日本語学・日本語教育以外の国際学会で発表する。
また、生産性指数と難易度についての理論的な論文を海外のジャーナルに投稿する。

Causes of Carryover

文字化チェックの謝金ならびに、コーパス配布サイトの構築にかかる予算を多く見積もっていたため。文字化の経験から、1時間分の会話の文字化のチェックにかかる時間を10時間と目算していたが、実際にはすでに文字が打たれている状況であるので、初心者でも5~6時間ほどで実施することができ、アルバイトにかかる謝金は当初の半分ほどで実施できた。
また、ウェブサイトも研究代表者が細かく支持を出すことで、当初の想定よりも価格を抑えることができた。

Expenditure Plan for Carryover Budget

データの分析やタグ付けにアルバイトを雇い、複数の人手を解することでより精度を上げた分析を行う。当初の計画で計上した金額はそもそも十分なものではなかった。また、ウェブサイトにコーパスを公開しただけでは、研究者への周知は十分とはいえないことがわかった。今後は当初計画よりも積極的に学会でアピールしていきたく、その旅費にもあてる。

  • Research Products

    (2 results)

All 2014 Other

All Presentation (1 results) Remarks (1 results)

  • [Presentation] Skype-assisted Conversation Activity to Foster Japanese Language Teacher2014

    • Author(s)
      Naoki Nakamata
    • Organizer
      The 9th East Asia International Symposium on Teacher Education
    • Place of Presentation
      Hotel Riviera, Daejeon
    • Year and Date
      2014-11-04 – 2014-11-05
  • [Remarks] 『日中Skype会話コーパス』

    • URL

      http://nakamata.info/database.html

URL: 

Published: 2016-06-01  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi