2007 Fiscal Year Annual Research Report

日本語コーパスを応用した文章の難易測定の研究

Research Project

Project/Area Number	19011003
Research Institution	Nagaoka University of Technology
Principal Investigator	柴崎秀子 Nagaoka University of Technology, 工学部, 教授 (00376815)
Co-Investigator(Kenkyū-buntansha)	玉岡賀津雄広島大学, 留学生センター, 教授 (70227263) 山本和英長岡技術科学大学, 工学部, 准教授 (40359708) 加納満長岡技術科学大学, 工学部, 准教授 (80251859) 李在鎬情報通信研究機構, 研究員 (20450695) 原信一郎長岡技術科学大学, 工学部, 准教授 (20242464)
Keywords	日本語コーパス / 文章の難易 / リーダビリティー / 文字種 / 語種 / 文章理解
Research Abstract	本研究は大量の日本語コーパスを使って,日本語の文章の読み易さ・読み難さ(リーダビリティー)を数値で表す尺度(スケール)を構築することを目的とする。初年度である平成19年度は,日本語の様々な読み物を電子ファイル化し,様々な分析に使えるコーパスを作ることを目的とし,近い将来,国立国語研究所が日本語の均衡コーパスを完成した後には,そのコーパスも利用する予定である。平成19年度は10数名の研究補助者を雇い入れ,(1)小学1年から高校3年までの国語教科書51冊,(2)日本語能力試験1&2級読解問題(2002年から2006年の5年分),(3)ベストセラーのケータイ小説2作品,(4)出版部数の多い雑誌(文芸春秋,ESSE,MORE,WエTHを各3か月分)をページごとにスキャンし,コンピュータ画面で使えるよう電子ファイルにした。(1)から(4)までのテキストのほか,すでにCD-Romとなっている「新潮文庫の100冊」「毎日新聞データ集2006年度版」を使い,それぞれのテキストにおける(1)1文の平均文字数,(2)1文の平均単語数,(3)文章の文字種の割合(漢字,平仮名,カタカナ,ローマ字),(4)文章の語種の割合(漢語,和語,外来語,混種語)を形態素解析ツールChaSenと電子辞書Katarigusaで分析し,さらに(5)文の係り受けの数と関係を係り受け解析ツールCaboChaによる解析を終了した。これらの分析結果を元に,URLとして,学年配当漢字分類ツール,漢字-平仮名変換ツール,係り受け修正ツールを作成できた。さらに日本語の読み易さを学年で示す公式として,現段階で以下の公式が濃く地区された。この式は将来改良の余地があるが,平成19年度の成果が結実したものである。以上の結果を5件の学会・研究会等で口頭発表し,公式をと特許として出願した。学年=-0.07総平仮名数/総文字数+0.004総IU数/総文数+0.047*総漢語数/内容語の総数+7.341

Research Products
(6 results)

All 2008 2007

All Presentation (5 results) Patent(Industrial Property Rights) (1 results)

[Presentation] 平成19年度研究進捗状況報告:リーダビリティー班:日本語コーパスを応用した文章の難易測定の研究2008
- Author(s)
  柴崎秀子・玉岡賀津雄・山本和英・原信一郎・加納満・李在鎬
- Organizer
  日本語コーパス公開ワークショップ
- Place of Presentation
  国立国語研究所
- Year and Date
  2008-03-16
[Presentation] 文章中の漢字と漢語の分析による日本語リーダビリティー公式構築のための基礎研究2008
- Author(s)
  柴崎秀子・沢井康孝
- Organizer
  パリ漢語学会国際大会
- Place of Presentation
  パリ第7大学
- Year and Date
  2008-03-14
[Presentation] 国語教科書コーパスを応用した日本語リーダビリティー構築のための基礎研究2007
- Author(s)
  柴崎秀子・沢井康孝
- Organizer
  電子情報通信学会
- Place of Presentation
  キャンパスイノベーションセンター
- Year and Date
  2007-10-05
[Presentation] 「日本語コーパスを応用した文章の難易測定の研究2007
- Author(s)
  柴崎秀子・玉岡賀津雄・山本和英・原信一郎・加納満
- Organizer
  特定領域研究「日本語コーパス」平成19年全体会議
- Place of Presentation
  北陸先端科学技術大学院大学
- Year and Date
  2007-09-05
[Presentation] Developing a Readability Scale for Japanese Texts Using a Linear Multiple Regression Analysis Predicting School Grades 1-62007
- Author(s)
  柴崎秀子
- Organizer
  アジア読書学会国際大会
- Place of Presentation
  国際オリンピック記念青少年センター(東京)
- Year and Date
  2007-08-04
[Patent(Industrial Property Rights)] 文章の読み易さ評価システム及び文章の読み易さ評価方法2007
- Inventor(s)
  柴崎秀子原信一郎
- Industrial Property Rights Holder
  長岡技術科学大学
- Industrial Property Number
  特許, 特願2007-169544号
- Filing Date
  2007-06-27

2007 Fiscal Year Annual Research Report

日本語コーパスを応用した文章の難易測定の研究

Principal Investigator

柴崎 秀子 Nagaoka University of Technology, 工学部, 教授 (00376815)

Research Products

[Presentation] 平成19年度研究進捗状況報告:リーダビリティー班:日本語コーパスを応用した文章の難易測定の研究2008

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 文章中の漢字と漢語の分析による日本語リーダビリティー公式構築のための基礎研究2008

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 国語教科書コーパスを応用した日本語リーダビリティー構築のための基礎研究2007

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 「日本語コーパスを応用した文章の難易測定の研究2007

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Developing a Readability Scale for Japanese Texts Using a Linear Multiple Regression Analysis Predicting School Grades 1-62007

Author(s)

Organizer

Place of Presentation

Year and Date

[Patent(Industrial Property Rights)] 文章の読み易さ評価システム及び文章の読み易さ評価方法2007

Inventor(s)

Industrial Property Rights Holder

Industrial Property Number

Filing Date

柴崎秀子 Nagaoka University of Technology, 工学部, 教授 (00376815)