• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2007 Fiscal Year Annual Research Report

日本語コーパスを応用した文章の難易測定の研究

Research Project

Project/Area Number 19011003
Research InstitutionNagaoka University of Technology

Principal Investigator

柴崎 秀子  Nagaoka University of Technology, 工学部, 教授 (00376815)

Co-Investigator(Kenkyū-buntansha) 玉岡 賀津雄  広島大学, 留学生センター, 教授 (70227263)
山本 和英  長岡技術科学大学, 工学部, 准教授 (40359708)
加納 満  長岡技術科学大学, 工学部, 准教授 (80251859)
李 在鎬  情報通信研究機構, 研究員 (20450695)
原 信一郎  長岡技術科学大学, 工学部, 准教授 (20242464)
Keywords日本語コーパス / 文章の難易 / リーダビリティー / 文字種 / 語種 / 文章理解
Research Abstract

本研究は大量の日本語コーパスを使って,日本語の文章の読み易さ・読み難さ(リーダビリティー)を数値で表す尺度(スケール)を構築することを目的とする。初年度である平成19年度は,日本語の様々な読み物を電子ファイル化し,様々な分析に使えるコーパスを作ることを目的とし,近い将来,国立国語研究所が日本語の均衡コーパスを完成した後には,そのコーパスも利用する予定である。平成19年度は10数名の研究補助者を雇い入れ,(1)小学1年から高校3年までの国語教科書51冊,(2)日本語能力試験1&2級読解問題(2002年から2006年の5年分),(3)ベストセラーのケータイ小説2作品,(4)出版部数の多い雑誌(文芸春秋,ESSE,MORE,WエTHを各3か月分)をページごとにスキャンし,コンピュータ画面で使えるよう電子ファイルにした。(1)から(4)までのテキストのほか,すでにCD-Romとなっている「新潮文庫の100冊」「毎日新聞データ集2006年度版」を使い,それぞれのテキストにおける(1)1文の平均文字数,(2)1文の平均単語数,(3)文章の文字種の割合(漢字,平仮名,カタカナ,ローマ字),(4)文章の語種の割合(漢語,和語,外来語,混種語)を形態素解析ツールChaSenと電子辞書Katarigusaで分析し,さらに(5)文の係り受けの数と関係を係り受け解析ツールCaboChaによる解析を終了した。これらの分析結果を元に,URLとして,学年配当漢字分類ツール,漢字-平仮名変換ツール,係り受け修正ツールを作成できた。さらに日本語の読み易さを学年で示す公式として,現段階で以下の公式が濃く地区された。この式は将来改良の余地があるが,平成19年度の成果が結実したものである。以上の結果を5件の学会・研究会等で口頭発表し,公式をと特許として出願した。
学年=-0.07*総平仮名数/総文字数+0.004*総IU数/総文数+0.047*総漢語数/内容語の総数+7.341

  • Research Products

    (6 results)

All 2008 2007

All Presentation (5 results) Patent(Industrial Property Rights) (1 results)

  • [Presentation] 平成19年度研究進捗状況報告:リーダビリティー班:日本語コーパスを応用した文章の難易測定の研究2008

    • Author(s)
      柴崎秀子・玉岡賀津雄・山本和英・原信一郎・加納満・李在鎬
    • Organizer
      日本語コーパス公開ワークショップ
    • Place of Presentation
      国立国語研究所
    • Year and Date
      2008-03-16
  • [Presentation] 文章中の漢字と漢語の分析による日本語リーダビリティー公式構築のための基礎研究2008

    • Author(s)
      柴崎秀子・沢井康孝
    • Organizer
      パリ漢語学会国際大会
    • Place of Presentation
      パリ第7大学
    • Year and Date
      2008-03-14
  • [Presentation] 国語教科書コーパスを応用した日本語リーダビリティー構築のための基礎研究2007

    • Author(s)
      柴崎秀子・沢井康孝
    • Organizer
      電子情報通信学会
    • Place of Presentation
      キャンパスイノベーションセンター
    • Year and Date
      2007-10-05
  • [Presentation] 「日本語コーパスを応用した文章の難易測定の研究2007

    • Author(s)
      柴崎秀子・玉岡賀津雄・山本和英・原信一郎・加納満
    • Organizer
      特定領域研究「日本語コーパス」平成19年全体会議
    • Place of Presentation
      北陸先端科学技術大学院大学
    • Year and Date
      2007-09-05
  • [Presentation] Developing a Readability Scale for Japanese Texts Using a Linear Multiple Regression Analysis Predicting School Grades 1-62007

    • Author(s)
      柴崎秀子
    • Organizer
      アジア読書学会国際大会
    • Place of Presentation
      国際オリンピック記念青少年センター(東京)
    • Year and Date
      2007-08-04
  • [Patent(Industrial Property Rights)] 文章の読み易さ評価システム及び文章の読み易さ評価方法2007

    • Inventor(s)
      柴崎秀子 原信一郎
    • Industrial Property Rights Holder
      長岡技術科学大学
    • Industrial Property Number
      特許, 特願2007-169544号
    • Filing Date
      2007-06-27

URL: 

Published: 2010-02-04   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi