• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

文書の自動難易度判定に関する研究

Research Project

Project/Area Number 20650018
Research Category

Grant-in-Aid for Challenging Exploratory Research

Allocation TypeSingle-year Grants
Research Field Intelligent informatics
Research InstitutionThe University of Tokyo

Principal Investigator

石井 久美子 (田中 久美子)  東京大学, 大学院・情報理工学系研究科, 准教授 (10323528)

Project Period (FY) 2008 – 2010
Project Status Completed (Fiscal Year 2010)
Budget Amount *help
¥3,300,000 (Direct Cost: ¥3,300,000)
Fiscal Year 2010: ¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2009: ¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2008: ¥1,300,000 (Direct Cost: ¥1,300,000)
Keywords自然言語処理 / 語学学習 / 情報分類 / 機械学習 / 情報抽出 / 語学教育
Research Abstract

本研究では、機械学習に基づく文書難易度判定の新しい手法を提案し、ある文書をユーザが与えると、その文書と難易度的に類似する文書を主要新聞記事サイトから獲得し、ユーザに提示するweb上のシステムを作ることを目的とした。既存研究としては、分類、あるいは回帰によるモデル化が行われてきたが、これでは、学習に必要な正解データを多言語で十分に確保することは難しい。本研究では、文書集合が与えられたときに、その集合に順序構造を導入することで難易度判定を行うことを提案した。
検証は英日両方で行い、実際のシステムは英語、日本語で稼働させ、さらに中国語やスペイン語での構築を試みた。アイデアの根本部分については、有効性が十分検証され、言語処理分野の世界的な最高峰の英文論文誌Computational Linguisticsの論文として、採録となり、分野においてこれ以上の学術的な成果はないと考える。
最終年度は、アイデアに関わる付随問題の検討に費やされた。まず、提案手法をより広い視野としての機械学習手法、語学学習の中で位置付け、この点を上記論文に加筆し、論文は6月に出版された。また、素性に相対頻度以外の統計量を追加し、アイデアの検証を行った。その背景には、本研究のための基礎研究があり、それらはいずれも雑誌論文として最終年度に出版するに至ったものである。第一は、莫大量のデータで計測された単語頻度が単語の難易度とどの程度相関するかを検証した。第二に、文書の複雑さを表す指標について研究を行った。これら二種類の指標と、文法的特性に関する指標などを追加して根幹アイデアを再検証し、実際に精度が向上することが示された。
プロトタイプシステムは、実用に向けての再実装を行ったが、公開するには至っていない。というのも、検索対象として想定していたのは新聞で日々クロールされ集められるが、その難易度は均質にすぎ、検索対象としてのデータとして十分に難易度が異なるものではなかったのである。つまり、検索の対象とするデータが十分に得られないという予想外の問題が起きたため、システムは公開には至らなかった。この点は、たとえばユーザが文書を提供し合うなどソーシャルな枠組みなどを新たに考案する必要があるであろう。
本研究は最初の2年間で最も重要な研究部分を終え、三年目は実用化のための機器類以外にはさほど費用を必要としなかった。このため、最終年度は残余分を返却するが、研究成果としては十二分に挙がったと自負している。
最後に、3年間ご支援いただいた、本科研に関わる審査員や事務の皆様に、心より感謝申し上げます。

Report

(3 results)
  • 2010 Annual Research Report
  • 2009 Annual Research Report
  • 2008 Annual Research Report
  • Research Products

    (9 results)

All 2011 2010 2009 2008

All Journal Article (7 results) (of which Peer Reviewed: 7 results) Presentation (1 results) Book (1 results)

  • [Journal Article] Word Familiarity and Frequency2011

    • Author(s)
      Tanaka-Ishii, Kumiko, Terada, Hiroshi
    • Journal Title

      Studia Linguistica

      Volume: 65 Pages: 96-116

    • Related Report
      2010 Annual Research Report
    • Peer Reviewed
  • [Journal Article] 文書量に不変な定数---YuleのK, GolcherのVM---2011

    • Author(s)
      木村大翼, 田中久美子
    • Journal Title

      自然言語処理

      Volume: 18

    • Related Report
      2010 Annual Research Report
    • Peer Reviewed
  • [Journal Article] Sorting by Readability2010

    • Author(s)
      Tanaka-Ishii, Kumiko, Tezuka, Satoshi, Terada, Hiroshi
    • Journal Title

      Computational Linguistics

      Volume: 36 Pages: 203-227

    • Related Report
      2010 Annual Research Report
    • Peer Reviewed
  • [Journal Article] Sorting by readability2010

    • Author(s)
      Kumiko Tanaka-Ishii Satoshi Tezuka, Hiroshi Terada
    • Journal Title

      Computational Linguistics, 2010 http://www.mitpressjournals.org/doi/abs/10.1162/coli.09.036-R2-08-050 1

    • Related Report
      2009 Annual Research Report
    • Peer Reviewed
  • [Journal Article] Word familiarity and frequency2009

    • Author(s)
      Kumiko Tanaka-Ishii, Hiroshi Terada
    • Journal Title

      Studia Linguistica 1(印刷中(掲載確定))

    • Related Report
      2009 Annual Research Report
    • Peer Reviewed
  • [Journal Article] Word Familiarity and Frequency2009

    • Author(s)
      Tanaka-Ishii, Kumiko and Terada, Hirosi
    • Journal Title

      Studia Linguistica (印刷中)

    • Related Report
      2008 Annual Research Report
    • Peer Reviewed
  • [Journal Article] From Phoneme to Morpheme---Another verification using Corpus in English and Chinese2008

    • Author(s)
      Tanaka-Ishii, Kumiko and Jin, Zhihui
    • Journal Title

      Studia Linguistica 62

      Pages: 224-248

    • Related Report
      2008 Annual Research Report
    • Peer Reviewed
  • [Presentation] 相対的観点に基づく類似難易度文書検索システムの構築2009

    • Author(s)
      手塚智史、寺田博視、田中久美子
    • Organizer
      言語処理学会大会
    • Place of Presentation
      鳥取
    • Year and Date
      2009-03-03
    • Related Report
      2008 Annual Research Report
  • [Book] こころと言葉 言語の文節に普遍的に観察される統計的性質 音素から形態素へ、単語へ、そして句2008

    • Author(s)
      田中久美子 長谷川寿一監修
    • Total Pages
      236
    • Publisher
      東京大学出版会
    • Related Report
      2008 Annual Research Report

URL: 

Published: 2008-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi