2008 Fiscal Year Annual Research Report
Project/Area Number |
20650018
|
Research Category |
Grant-in-Aid for Exploratory Research
|
Research Institution | The University of Tokyo |
Principal Investigator |
田中 久美子 (石井 久美子) The University of Tokyo, 大学院・情報理工学系研究科, 准教授 (10323528)
|
Keywords | 自然言語処理 / 語学教育 / 情報分類 / 機械学習 / 情報抽出 |
Research Abstract |
ユーザが文書をアップロードすると、難易度上類似する文書を複数提示するための手法と、それに基づく多言語の実働システムを研究することが本研究の目的である。進捗は順調であり、本年度は大きく分けて三つの研究効果がある。 まず、難易度判定の手法については、これまでにない新規手法を考案した。既存のリーダビリティ研究は、回帰式に基づくものか、分類に基づく手法のいずれかであり、昨今ではこれら手法を機械学習を用いて性能を向上させようとする研究がさかんである。ところが、そのためには12段階の学年別に分類された学習データを用意しなければならないという問題がある。本研究では多言語のシステム構築を目指しているが、多言語でこのような学習データを作成するのはほぼ無理である。その背景には教科書の著作権が我が国も含めて厳しく管理されている現状がある。一方、提案手法では、二つの難易度レベル(難・易)の文書集合を学習データとして用い、ある文書ペアが与えられたときにいずれがより難しいかを二値で判定する分類器を、機械学習により構成する。これを比較器として用い、文書集合中の文書を整列するというまったく新しい手法を提案した。すなわち、難易度は難易度順に並んだ文書群中の「順位」として示される。学習も、二段階の難易度の文書集合だけを必要とするため、大人用新聞と子供用新聞などで簡単に集めることができる。これは、これまでにない画期的な新しい提案である。以上について論文を執筆し、自然言語処理分理の最高峰の英文論文誌において現在条件付き採録となっている。 第二に、単語頻度と単語親密度の関係に関する基礎研究を行った。その成果は、単語の新密度が頻度の対数と相関するという、ごく普通の結論であるが、6Tに上るデータを利用して実証したため、成果は言語学上の英文論文誌論文として採録となった。単語頻度による単語新密度尺度は、文書の難易度判定において、機械学習の精度を大きく向上させる効果がある。 第三に、本研究の第二の目的である類似文書検索システムに関して、プロトタイプを構築した。本システムでは、まず既存の新聞サイトなどから記事を収集し、これを前述の比較機を用いて整列しておき、検索対象文書とする。ユーザが文書をシステムに入力すると、文書群中の位置(順位)を二分探索により示し、その順位付近にある検索対象文書が出力する。英語と日本語においてこのシステムを構築し、現在稼働中である。本年度は本システムを本格化し、また、多言語化する。また、実用上の使い勝手をよくするため、絞込み検索などの機能を構築中である。
|