• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2012 年度 実施状況報告書

類推ネットワーク・モデルを用いた日本語文法の変化に関する認知言語学的研究

研究課題

研究課題/領域番号 24720211
研究種目

若手研究(B)

研究機関法政大学

研究代表者

尾谷 昌則  法政大学, 文学部, 准教授 (10382657)

研究期間 (年度) 2012-04-01 – 2016-03-31
キーワード日本語学 / 若者言葉 / 文法の変化 / 言語変化
研究概要

今年は初年度ということで、小説テキスト・データベース構築作業の準備を行った。
まず、言語データとして取込むための文庫本を購入。請求予算額より少なかったため新品購入を断念、ブックオフにて中古本3500冊を購入。在庫リストを取り寄せ、その中から発行年度ごとに100冊を選定する作業に膨大な時間を要したが、概ね満足いくものが揃えられた。通常の文庫とは別に、ライトノベルと呼ばれる若者向け小説も10年分、計500冊ほど購入した。若者ことばの変遷を辿る上で重要な資料になることは間違いない。
次に、業務用スキャナを購入し、OCR処理に最適なスキャン設定を検証するために試行錯誤を重ねた。ある程度の精度を達成するためには、業務用スキャナでも1時間あたり15冊が限界と判明。書籍の断裁作業、不要ページの除去、スキャン後の廃棄作業なども同時平行で行うため、予想以上に時間をとられてしまい、年度末までに800冊をスキャンするのが精一杯であった。
また、本データベースはテキストの認識精度が生命線であるため、OCR処理の精度向上についても慎重に検討を重ねた。市販OCRソフトを比較し、学習機能を利用して認識精度の向上に努めた。その結果、特殊文字・記号・促音を除けば、約99%以上の精度でテキストデータ化できるようになった。長音記号や促音の認識が向上しないのは極めて残念ではあるが、研究対象とする基本的な文法事項にはさほど影響しないため、まずは上々の結果と言えよう。
当初の研究計画からみれば、文庫本のスキャン作業が大幅に遅れているが、テキストデータ化までの予備作業がうまくいっているため、あとは時間と人手の問題である。

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

4年計画のうち、初年度は文庫のスキャンとOCR化を目標にしていた。しかし、中古書籍の選定に手間どり、スキャン作業にも予想以上の時間を要したため、入力は4分の1しか終了していない。ライトノベルを中心に、ここ20年のデータだけに絞るということで軌道修正したが、それでもまだ半分程度である。

今後の研究の推進方策

過去40年分の文庫をテキストデータ化するのは困難であるため、計画を変更し、ここ20年分のみ取込むことにする。分析対象の表現はどれもここ10~20年ほどで急速にその使用頻度が高くなったものばかりであるため、語源などの特定には至らないかもしれないが、さしあたって使用実態を調査するには支障がないと思われる。
データベースが完成しないことには、検索による定量的な分析が行えないが、次年度以降に分析する予定であった表現(「~ないです」など)についての文献調査を先取りすることで、帳尻を合わせたい。

次年度の研究費の使用計画

データ入力補助の人件費として使用する予定であるが、業務用OCRソフト(市価30万円)の存在も明らかになったので、そちらの購入も検討したい。

  • 研究成果

    (3件)

すべて 2013 2012

すべて 学会発表 (2件) (うち招待講演 1件) 図書 (1件)

  • [学会発表] 若者ことばに見られる語用論的特徴2012

    • 著者名/発表者名
      尾谷昌則・呉泰均・黒田一平・吉田充良
    • 学会等名
      第15回 日本語用論学会
    • 発表場所
      大阪学院大学(大阪府)
    • 年月日
      20121201-20121202
  • [学会発表] ますます丁寧化する日本語 ―デス・マスを中心に―2012

    • 著者名/発表者名
      尾谷昌則
    • 学会等名
      法政大学国文学会
    • 発表場所
      法政大学(東京都)
    • 年月日
      20120714-20120714
    • 招待講演
  • [図書] 言語の創発と身体性2013

    • 著者名/発表者名
      児玉一宏・小山哲治(編著)
    • 総ページ数
      669
    • 出版者
      ひつじ書房

URL: 

公開日: 2014-07-24  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi