研究概要 |
本研究は、授業で使われる教科書を分析し、必要とする学習情報をインターネット上から容易に抽出し、分類できるシステムを開発することを目的としている。さらに、学習情報としての画像情報の扱いについて検討した。本研究で得られた成果を以下にまとめる。 1.学習用語の収集と解析:学習情報の分類整理のために,学習に関する語彙を教科書から収集した.特に,特徴的な用語が多い,数学,理科,社会について,小学校,中学校,高等学校で扱われる語彙を収集した.これらの教科に現れる用語について,出現頻度や他教科での出現頻度などについて調査した.さらに,これらの語彙を形態素解析用の辞書に実装し,学習情報の分類に利用できるようにした. 2.文書特徴の抽出法の検討:文書特徴の表現方法にはさまざまな方法があるが,1つの方法として文書に含まれる特徴的な用語の情報に基づいた表現がある.すなわち,学習情報の利用可能な教科を判別する目的であるので,前項で述べたような用語に着目し,その用語の特徴に基づいて文書特徴を推定定義することにした.具体的には,用語の特徴情報に文書での出現頻度を重みとして考慮して文書特徴を推定した.ここで,用語の特徴量についての定義が,文書特徴にも大きく影響する.本研究では,教科文書に現れる用語の出現頻度である用語-文書行列を特異値分解し,特徴量を抽出した.ただし,特異値分解の効果は明らかにされていない.そこで,次項のように教科分類の性能を検討して,この効果を検討した. 3.教科分類とその性能の評価:特異値分解した特徴量と,正規化した出現頻度(TF-IDF)をもちいて,単純なニューラルネットで分類した場合の性能を検討した.単純な分類方法であるNN法とも比較した.その結果,特異値分解した特徴量についてニューラルネットによる分類が最も性能が高かった.しかし,単一文書に出現する用語だけで文書特徴を推定することが必要であった.
|