2009 年度実績報告書

文書の自動難易度判定に関する研究

研究課題

研究課題/領域番号	20650018
研究機関	東京大学
研究代表者	石井久美子 (田中久美子) 東京大学, 大学院・情報理工学系研究科, 准教授 (10323528)
キーワード	自然言語処理 / 語学教育 / 情報分類 / 機械学習 / 情報抽出
研究概要	文書の難易度判定問題は、1940年代からアメリカで研究が行われてきたが、言語汎用の手法は構築されていない。昨今では、機械学習による方法が提案されているが、分類問題としてのモデル化に問題があるばかりか、学習に必要な正解データをさまざまな言語で確保することは難しい。これを受け、本研究の目的は以下の二つである。 A.言語に依存しない、文書の統計的難易度判定方法を構築する。 B.ある文書をユーザがシステムに与えると、その文書と難易度的に類似する文書を主要新聞記事サイトから獲得し、ユーザに提示するweb上のシステムを作る。この目的に向け、本提案では以下の二つの独自アイデアを用いる。・文書の難易度を絶対的数値として判定するのではなく、文書同士の比較に基づいた相対的序列として判定する。・難易度判定に、対象となる文書以外の莫大なコーパスから得たグローバルな統計を用い、難易度の判定を行う。本研究は、申請者の大学院学生2名(平成20年度修士卒業寺田博視、平成21年度卒業手塚智史)と共に行ってきた。二年目は以下の2点に取り組んだ。 1.アイデアを手法として確立させる。その上で、既存の手法とアイデアの基本性能を比較する。 2.ある英文書が入力されるとそれと難易度上近い英文書を獲得するシステムのプロトタイプを構築する。本提案の根幹を成すアイデアは、二文書の難易度を比較する比較器を機械学習を用いて構築し、この比較器を用いて文書集合をソートするものとして確立させた。このアイデアは言語汎用のもので、どのような言語にも適用可能であるし、機械学習のために必要な正解データは、相対的に難しい文書集合と、相対的に易しい文書集合の二種類だけで済むという利点がある。検証は、英文だけでなく、多言語を前提として日本語でも行われ、英語のプロトタイプシステムだけではなく、日本語版のプロトタイプシステムも作成された。アイデアの根本部分については、その有効性が十分検証され、言語処理分野の世界的な最高峰の英文論文誌Computational Linguisticsの論文として、採録となり、分野内においてこれ以上の学術的な成果はないと考える。以上、本研究は順調に成果が挙がっており、残す三年目は、プロトタイプを完成させ、論文の出版を待つばかりの状態である。

研究成果
(2件)

すべて 2010 2009

すべて雑誌論文 (2件) (うち査読あり 2件)

[雑誌論文] Sorting by readability2010
- 著者名/発表者名
  Kumiko Tanaka-Ishii Satoshi Tezuka, Hiroshi Terada
- 雑誌名
  
  Computational Linguistics, 2010 http://www.mitpressjournals.org/doi/abs/10.1162/coli.09.036-R2-08-050 1
  
  ページ: Internet
- 査読あり
[雑誌論文] Word familiarity and frequency2009
- 著者名/発表者名
  Kumiko Tanaka-Ishii, Hiroshi Terada
- 雑誌名
  
  Studia Linguistica 1(印刷中(掲載確定))
- 査読あり