2018 Fiscal Year Annual Research Report
自動収集した大量のシラバス情報を用いたカリキュラムの定量的分析とその応用
Project/Area Number |
17H01837
|
Research Institution | The University of Tokyo |
Principal Investigator |
関谷 貴之 東京大学, 情報基盤センター, 助教 (70323508)
|
Co-Investigator(Kenkyū-buntansha) |
松田 源立 東京大学, 大学院総合文化研究科, 学術研究員 (40433700)
山口 和紀 東京大学, 大学院総合文化研究科, 教授 (80158097)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | シラバス / ウェブクローリング / カリキュラム / 計算機科学 / 機械学習 |
Outline of Annual Research Achievements |
平成30年度は、国際的な大学のランキングの一つである Times Higher Education (THE) WORLD UNIVERSITY RANKINGS (https://www.timeshighereducation.com/world-university-rankings) 2018 with computer science as subject に挙げられている大学をシラバス収集の対象とした。各大学の計算機科学(CS)関連のウェブサイトから、ウェブクローラ Scrapy (https://scrapy.org) でウェブページをクローリングして、平成31年3月現在 301大学から合計約570万ページを取得済みである。 次に予備実験として、CS分野を専攻する大学院生2名が、取得したウェブページからシラバス情報の抽出及び取得作業を行った。その結果、シラバス情報の抽出に用いたウェブページは、学部や学科等で開講される科目ごとのシラバスページへのリンクとなっているページ (Link Type と呼ぶ)、学部や学科等で開講される科目のシラバス情報がまとまっているページ (Whole Type と呼ぶ)、及び学部や学科、大学全体で開講される科目のシラバス情報を検索できるデータベースの入り口となるページ(Database Type と呼ぶ)に分類できることが分かった。また、各分類に当てはまるウェブページを正解データとする Support Vector Machine の判定モデルを構築したところ、ある程度の精度でウェブページを分類できることが分かった。これによって、シラバス情報を半自動的に取得できることが期待される。 なお、本研究の基盤となる機械学習のアルゴリズムに関して、2件の雑誌論文として掲載された。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
平成30年10月、シラバス収集結果を評価したところ、シラバス情報の提供方法として、リンク構造を構成するウェブページ群、複数のシラバスを含むウェブページ及びデータベース化されたウェブサイトのパターンがあることが明らかになった。研究遂行上、このパターンをシラバス分析・提案システムへ反映させることが不可欠であることから、シラバス収集方法の改良を実施した上でシラバス収集作業から再度実施する必要が生じた。
|
Strategy for Future Research Activity |
3種類に分類したシラバス収集のために利用可能なウェブページそれぞれについて、より効率的にシラバスを取得するべく、ウェブページ判別のためのモデルの改良、正解データの追加、クローリングから判別までの一連の処理や蓄積されたデータを取り扱う支援ツールの開発を進め、我々が過去に取得したシラバス(約50大学)の10倍程度のシラバスを取得することを目指す。
|
Research Products
(2 results)