2017 Fiscal Year Annual Research Report

自動収集した大量のシラバス情報を用いたカリキュラムの定量的分析とその応用

Research Project

Project/Area Number	17H01837
Research Institution	The University of Tokyo
Principal Investigator	関谷貴之東京大学, 情報基盤センター, 助教 (70323508)
Co-Investigator(Kenkyū-buntansha)	松田源立東京大学, 大学院総合文化研究科, 学術研究員 (40433700) 山口和紀東京大学, 大学院総合文化研究科, 教授 (80158097)
Project Period (FY)	2017-04-01 – 2020-03-31
Keywords	シラバス / ウェブクローリング / カリキュラム / 計算機科学 / 機械学習
Outline of Annual Research Achievements	平成29年度は、最初にカリキュラム分析のためのサーバの導入など研究環境の構築を行った。当初プロバイダ事業者が提供するレンタルサーバを用い、順調にウェブクローリングを実行した。しかし、取得したウェブページがシラバスか否かを判定する処理を実装するに当たり、レンタルサーバでは想定よりも長時間を要することが明らかになったため、年度途中に別途導入したサーバ機器を用いることに変更した。クローリングについては、オープンソースのウェブクローラである Scrapy (https://scrapy.org) を用い、1大学当たり数日から数週間程度を掛けて、概ね3万ページ程度を取得している。ウェブページのシラバス判定については、我々がこれまで取得してきた約 50大学の計算機科学分野カリキュラムのシラバスを掲載したウェブページを「正解データ」として、またある大学のウェブサイトから取得したページ全てを目視で確認して、シラバスとは関係ないページを「不正解データ」として、それぞれ用いることで、シラバス判定のための訓練データを設定した。この訓練データを用いて SVM (Support Vector Machine) でシラバスページであるか否かの判定を行った上で、シラバスらしき情報を含むウェブページの URL のパターンを抽出する枠組みを構築した。以上のシラバス判定の枠組みを、THE2018 World University Rankings 2018 の Computer Science の上位300大学のウェブサイトに対して適用することでシラバスを取得することを試みており、平成29年度末の時点で概ね上位100大学に対して作業を開始或いはシラバスらしきページの取得まで完了している。なお、国際会議で本科研に関わる研究発表(査読有り)を2件行っている。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 当初の計画では、クローリングしたページからシラバスらしきページの抽出する処理をなるべく自動化することで、大量のシラバスを取得する予定であった。しかし、シラバスの判定処理に時間を要するためにサーバ環境を別途構築したことや、そもそもシラバスか否かの判定に人手を要するのが避けがたいなどの理由で、実際にシラバスページを取得している大学の数が100大学程度であり、大量のシラバスを取得しているとは言えず、計画よりはやや遅れていると言わざるを得ない。
Strategy for Future Research Activity	現在までの進捗状況で書いたように、シラバスの判定に人手を要することから、大学院生の協力を募るという人海戦術的なアプローチを実施する予定である。既に申し出てくれた学生がおり、その点だけでも平成29年度に比べれば2-3倍程度の速度でシラバスらしきページを取得できることが期待される。また、並行してシラバス判定処理の改良についても検討中である。具体的には、判定処理の精度を向上させるべく、シラバスらしきページの URL の特徴を活用できないかを検討する。更に、シラバス判定までの一連の作業を支援するツールも開発する予定である。これらの取り組みによって、我々が過去に取得したシラバス(約50大学)の10倍程度のシラバスを取得することを目指す。

Research Products
(3 results)

All 2017

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (1 results)

[Journal Article] Discovery of Interconnection Among Knowledge Areas of Standard Computer Science Curricula by a Data Science Approach2017
- Author(s)
  Matsuda Yoshitatsu、Sekiya Takayuki、Yamaguchi Kazunori
- Journal Title
  
  Neural Information Processing
  
  Volume: 10638 Pages: 186-195
- DOI
  https://doi.org/10.1007/978-3-319-70139-4_19
- Peer Reviewed
[Journal Article] A web-based curriculum engineering tool for investigating syllabi in topic space of standard computer science curricula2017
- Author(s)
  Sekiya Takayuki、Matsuda Yoshitatsu、Yamaguchi Kazunori
- Journal Title
  
  2017 IEEE Frontiers in Education Conference (FIE), Indianapolis, IN, USA
  
  Volume: 00 Pages: 1-9
- DOI
  10.1109/FIE.2017.8190598
- Peer Reviewed
[Presentation] 適応的独立成分分析によるノイズ除去と特徴抽出2017
- Author(s)
  松田源立
- Organizer
  第20回情報論的学習理論ワークショップ, 2017.11.8～11, 東京大学本郷キャンパス

2017 Fiscal Year Annual Research Report

自動収集した大量のシラバス情報を用いたカリキュラムの定量的分析とその応用

Principal Investigator

関谷 貴之 東京大学, 情報基盤センター, 助教 (70323508)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Discovery of Interconnection Among Knowledge Areas of Standard Computer Science Curricula by a Data Science Approach2017

Author(s)

Journal Title

DOI

[Journal Article] A web-based curriculum engineering tool for investigating syllabi in topic space of standard computer science curricula2017

Author(s)

Journal Title

DOI

[Presentation] 適応的独立成分分析によるノイズ除去と特徴抽出2017

Author(s)

Organizer

関谷貴之東京大学, 情報基盤センター, 助教 (70323508)