2009 Fiscal Year Annual Research Report

文書の自動難易度判定に関する研究

Research Project

Project/Area Number	20650018
Research Institution	The University of Tokyo
Principal Investigator	石井久美子 (田中久美子) The University of Tokyo, 大学院・情報理工学系研究科, 准教授 (10323528)
Keywords	自然言語処理 / 語学教育 / 情報分類 / 機械学習 / 情報抽出
Research Abstract	文書の難易度判定問題は、1940年代からアメリカで研究が行われてきたが、言語汎用の手法は構築されていない。昨今では、機械学習による方法が提案されているが、分類問題としてのモデル化に問題があるばかりか、学習に必要な正解データをさまざまな言語で確保することは難しい。これを受け、本研究の目的は以下の二つである。 A.言語に依存しない、文書の統計的難易度判定方法を構築する。 B.ある文書をユーザがシステムに与えると、その文書と難易度的に類似する文書を主要新聞記事サイトから獲得し、ユーザに提示するweb上のシステムを作る。この目的に向け、本提案では以下の二つの独自アイデアを用いる。・文書の難易度を絶対的数値として判定するのではなく、文書同士の比較に基づいた相対的序列として判定する。・難易度判定に、対象となる文書以外の莫大なコーパスから得たグローバルな統計を用い、難易度の判定を行う。本研究は、申請者の大学院学生2名(平成20年度修士卒業寺田博視、平成21年度卒業手塚智史)と共に行ってきた。二年目は以下の2点に取り組んだ。 1.アイデアを手法として確立させる。その上で、既存の手法とアイデアの基本性能を比較する。 2.ある英文書が入力されるとそれと難易度上近い英文書を獲得するシステムのプロトタイプを構築する。本提案の根幹を成すアイデアは、二文書の難易度を比較する比較器を機械学習を用いて構築し、この比較器を用いて文書集合をソートするものとして確立させた。このアイデアは言語汎用のもので、どのような言語にも適用可能であるし、機械学習のために必要な正解データは、相対的に難しい文書集合と、相対的に易しい文書集合の二種類だけで済むという利点がある。検証は、英文だけでなく、多言語を前提として日本語でも行われ、英語のプロトタイプシステムだけではなく、日本語版のプロトタイプシステムも作成された。アイデアの根本部分については、その有効性が十分検証され、言語処理分野の世界的な最高峰の英文論文誌Computational Linguisticsの論文として、採録となり、分野内においてこれ以上の学術的な成果はないと考える。以上、本研究は順調に成果が挙がっており、残す三年目は、プロトタイプを完成させ、論文の出版を待つばかりの状態である。

Research Products
(2 results)

All Journal Article (2 results) (of which Peer Reviewed: 2 results)

[Journal Article] Sorting by readability2010
- Author(s)
  Kumiko Tanaka-Ishii Satoshi Tezuka, Hiroshi Terada
- Journal Title
  
  Computational Linguistics, 2010 http://www.mitpressjournals.org/doi/abs/10.1162/coli.09.036-R2-08-050 1
  
  Pages: Internet
- Peer Reviewed
[Journal Article] Word familiarity and frequency2009
- Author(s)
  Kumiko Tanaka-Ishii, Hiroshi Terada
- Journal Title
  
  Studia Linguistica 1(印刷中(掲載確定))
- Peer Reviewed