• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2013 年度 実施状況報告書

大規模コーパスに基づく現代語表記のゆれの実態解明

研究課題

研究課題/領域番号 25370532
研究種目

基盤研究(C)

研究機関立命館大学

研究代表者

小椋 秀樹  立命館大学, 文学部, 准教授 (00321547)

研究期間 (年度) 2013-04-01 – 2016-03-31
キーワード文字 / コーパス
研究概要

『現代日本語書き言葉均衡コーパス』(以下,BCCWJとする。)に収録されたレジスターのうち,2001年~2005年に発行された新聞・雑誌・書籍,2008年4月26日~2009年4月25日に投稿されたブログを対象とし,調査・分析の基本資料となる「表記一覧表」の作成を行った。収録した表記の延べ数は,148,631である。
平成25年度は,「表記一覧表」の作成と並行して,語表記のゆれに関する予備的分析を進めた。和語・漢語・外来語・混種語の全語種を対象とした予備的分析は,既に小椋秀樹(2012)「コーパスに基づく現代語表記のゆれの調査 ― BCCWJコアデータを資料として―」(『第1 回コーパス日本語学ワークショップ予稿集』, pp.321-328.)で行っていることから,語表記のゆれがしばしば問題となる外来語に限定し,BCCWJのコアデータを資料として,レジスター別のゆれの傾向,語表記のゆれの類型について調査・分析を行った(小椋2013b)。この調査では,外来語表記のゆれにはレジスターによる差異があること,外来語表記のゆれの類型についても,やはりレジスターによる差異があることを明らかにした。語表記のゆれの類型については,長音に関する表記のゆれ(語末長音を長音符号で書くか省くか,語中長音を長音符号で書くか省くか)が全てのレジスターに見られることを明らかにした。
さらに,BCCWJの非コアデータも資料に加えて,外来語語末長音を対象とした語表記のゆれに関する調査・分析も行った(小椋2013a)。この調査では,外来語語末長音の表記のゆれにはレジスターによる差異が見られること,外来語語末長音の表記のゆれには,英語の語末による差異があること,語末が-dy,-tyの語のゆれの割合が高いことなどを明らかにした。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

語表記のゆれを調査・分析するための基本資料となる「表記一覧表」の作成を予定どおり行った。
また,語種を限定したものではあるが,外来語表記のゆれに関するレジスター差,類型に関する予備的調査・分析を行った。BCCWJ・コアデータという約130万語規模のデータを基に,どのような語表記ゆれの類型があるか検討したことで,分類作業上の問題点等について把握することができた。
外来語語末長音の表記ゆれに関しては,非コアデータも含めた調査を実施した。
以上のことから,本研究は,おおむね順調に進展していると判断した。

今後の研究の推進方策

1.各レジスターの「表記一覧表」を基に,「表記一覧表」に掲げた各語のエントロピーを算出し(この情報は「表記一覧表」に記述する。),それを基に,レジスターごとに語表記にゆれの多い語群,少ない語群やゆれのない語群を把握する。さらに,レジスターごとに語種・品詞・語構成・頻度の面からも分析を行う。具体的には,語種別・品詞別・語構成別・頻度別に,エントロピーの比較を行い,どの語種(品詞,語構成,頻度)の語に語表記のゆれが多く見られるのか(あるいは,語表記のゆれが少ないのか)を明らかにする。
2.レジスター別の語表記のゆれに関する調査結果(語表記のゆれの多い語群や少ない語群,ゆれのない語群の一覧。語種別・品詞別・語構成別・頻度別に語表記のゆれが多く見られるのか(あるいは見られないのか)を調査した結果等。)を比較し,語表記のゆれがレジスターによってどのように異なるのか,あるいはどういう点について共通性があるのかといったことを明らかにする。
3.具体的に,どのような語表記のゆれがみられるのかについて,語ごとに類型分けを行う。この情報は,「表記一覧表」に記述する。
4.レジスター別の語表記のゆれに関する調査結果,及びそこから明らかになった語表記のゆれの媒体差について,日本語学会等で発表する。

次年度の研究費の使用計画

「表記一覧表」作成作業のためにアルバイターを雇用することを計画していた。しかしながら,日本語学の知識を持ち,かつ作業に必要な能力を有する学部学生(若しくは大学院生)で,「表記一覧表」作成作業の完成までの一定期間,勤務可能な者を確保することができなかった。そのため,人件費・謝金を支出できなかったことが,次年度使用額の生じた主な理由である。
平成26年度は,各語についてエントロピーの算出を行うとともに,どのような表記のゆれが生じているか分類を行う。表記のゆれを分類する枠組みについては,平成25年度の予備的分析で,確定することができた。この枠組みに従って,平成26年度に,各語についてどのような表記のゆれであるか,分類作業を進める。次年度使用額は,この作業の謝金(アルバイター)に使用する。
平成25年度は,日本語学に関する能力とコンピューターに関する能力の両方を持つことを採用条件としたため,アルバイターの確保ができなかった。平成26年度は,コンピューターによる作業自体は比較的単純なものとなること,また分類の枠組みについても既に確定できていることから,アルバイターに求める要件も一定程度引き下げることができる。ただし,データ量が多いことから,アルバイターを複数名雇用することで,作業を平成26年度内に確実に完了できるようにする。

  • 研究成果

    (2件)

すべて 2013 その他

すべて 学会発表 (1件) 図書 (1件)

  • [学会発表] 外来語語末長音の表記のゆれについて

    • 著者名/発表者名
      小椋秀樹
    • 学会等名
      第4回コーパス日本語学ワークショップ
    • 発表場所
      国立国語研究所(東京都立川市)
  • [図書] 現代日本語の動態研究2013

    • 著者名/発表者名
      相澤正夫(編),金愛蘭・新野直哉・松田謙次郎・金澤裕之・尾崎喜光・石井正彦・小椋秀樹・田中牧郎・田中ゆかり・前田忠彦・塩田雄大
    • 総ページ数
      262(151-171)
    • 出版者
      おうふう

URL: 

公開日: 2015-05-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi