2003 Fiscal Year Annual Research Report
教科書分析に基づいた学習用Web情報の検索・分類システムの開発に関する研究
Project/Area Number |
13558012
|
Research Institution | TOKYO INSTITUTE OF TECHNOLOGY |
Principal Investigator |
中山 実 東京工業大学, 教育工学開発センター, 助教授 (40221460)
|
Co-Investigator(Kenkyū-buntansha) |
青柳 貴洋 東京工業大学, 教育工学開発センター, 助手 (10302944)
室田 真男 東京工業大学, 大学院・社会理工学研究科, 助教授 (30222342)
西方 敦博 東京工業大学, 教育工学開発センター, 助教授 (60260535)
清水 康敬 国立教育政策研究所, 教育研究情報センター, センター長 (10016561)
|
Keywords | 学習情報 / web情報 / 文書分類 / 特異値分解 / TF-IDF / ニューラルネット / NN法 / 形態素解析 |
Research Abstract |
本研究は、授業で使われる教科書を分析し、必要とする学習情報をインターネット上から容易に抽出し、分類できるシステムを開発することを目的としている。さらに、学習情報としての画像情報の扱いについて検討した。本研究で得られた成果を以下にまとめる。 1.学習用語の収集と解析 学習情報の分類整理のために,学習に関する語彙を教科書から収集した.特に,特徴的な用語が多い,数学,理科,社会について,小学校,中学校,高等学校で扱われる語彙を収集した.これらの教科に現れる用語について,出現頻度や他教科での出現頻度などについて調査した.さらに,これらの語彙を形態素解析用の辞書に実装し,学習情報の分類に利用できるようにした. 2.文書特徴の抽出法の検討 文書特徴の表現方法にはさまざまな方法があるが,1つの方法として文書に含まれる特徴的な用語の情報に基づいた表現がある.すなわち,学習情報の利用可能な教科を判別する目的であるので,前項で述べたような用語に着目し,その用語の特徴に基づいて文書特徴を推定,定義することにした.具体的には,用語の特徴情報に文書での出現頻度を重みとして考慮して文書特徴を推定した. ここで,用語の特徴量についての定義が,文書特徴にも大きく影響する.本研究では,教科文書に現れる用語の出現頻度である用語-文書行列を特異値分解し,特徴量を抽出した.ただし,特異値分解の効果は明らかにされていない.そこで,次項のように教科分類の性能を検討して,この効果を検討した. 3.教科分類とその性能の評価 特異値分解した特徴量と,正規化した出現頻度(TF-IDF)をもちいて,単純なニューラルネットで分類した場合の性能を検討した.単純な分類方法であるNN法とも比較した.その結果,特異値分解した特徴量についてニューラルネットによる分類が最も性能が高かった.しかし,単一文書に出現する用語だけで文書特徴を推定することが必要であった.
|
Research Products
(6 results)
-
[Publications] M.Nakayama, Y.Shimizu: "Subject Categorization for Web Educational Resources using MLP"Proc.of 11th Euro.Sympo.on ANN (ESANN'03). 9-14 (2003)
-
[Publications] 中山実, 清水康敬: "MLPによる学習資料の教科分類における特異値分解の効果に関する検討"信学技報. ET2003-46. 41-46 (2003)
-
[Publications] 鈴木, 松本, 井上, 中山, 清水: "共起語を用いた学習情報検索結果に対する主観評価と検索性能の比較"教育システム情報学会論文誌. 20-4. 117-126 (2003)
-
[Publications] 清原一暁, 中山実, ほか: "文章の表示メディアと表示形式が文章理解に与える影響"日本教育工学会論文誌. 27-2. 141-144 (2003)
-
[Publications] 滝田亘, 中山実: "視覚と聴覚による文章提示と記憶への影響"日本教育工学会論文誌. 27-Suppl.. 81-84 (2003)
-
[Publications] 中山実, 米川孝宏, 清水康敬: "遠隔講義映像に対するシーン抽出処理に関する研究"信学技報. ET2003-110. 71-76 (2004)