2017 Fiscal Year Annual Research Report
自動収集した大量のシラバス情報を用いたカリキュラムの定量的分析とその応用
Project/Area Number |
17H01837
|
Research Institution | The University of Tokyo |
Principal Investigator |
関谷 貴之 東京大学, 情報基盤センター, 助教 (70323508)
|
Co-Investigator(Kenkyū-buntansha) |
松田 源立 東京大学, 大学院総合文化研究科, 学術研究員 (40433700)
山口 和紀 東京大学, 大学院総合文化研究科, 教授 (80158097)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | シラバス / ウェブクローリング / カリキュラム / 計算機科学 / 機械学習 |
Outline of Annual Research Achievements |
平成29年度は、最初にカリキュラム分析のためのサーバの導入など研究環境の構築を行った。当初プロバイダ事業者が提供するレンタルサーバを用い、順調にウェブクローリングを実行した。しかし、取得したウェブページがシラバスか否かを判定する処理を実装するに当たり、レンタルサーバでは想定よりも長時間を要することが明らかになったため、年度途中に別途導入したサーバ機器を用いることに変更した。 クローリングについては、オープンソースのウェブクローラである Scrapy (https://scrapy.org) を用い、1大学当たり数日から数週間程度を掛けて、概ね3万ページ程度を取得している。ウェブページのシラバス判定については、我々がこれまで取得してきた約 50大学の計算機科学分野カリキュラムのシラバスを掲載したウェブページを「正解データ」として、またある大学のウェブサイトから取得したページ全てを目視で確認して、シラバスとは関係ないページを「不正解データ」として、それぞれ用いることで、シラバス判定のための訓練データを設定した。この訓練データを用いて SVM (Support Vector Machine) でシラバスページであるか否かの判定を行った上で、シラバスらしき情報を含むウェブページの URL のパターンを抽出する枠組みを構築した。 以上のシラバス判定の枠組みを、THE2018 World University Rankings 2018 の Computer Science の上位300大学のウェブサイトに対して適用することでシラバスを取得することを試みており、平成29年度末の時点で概ね上位100大学に対して作業を開始或いはシラバスらしきページの取得まで完了している。 なお、国際会議で本科研に関わる研究発表(査読有り)を2件行っている。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
当初の計画では、クローリングしたページからシラバスらしきページの抽出する処理をなるべく自動化することで、大量のシラバスを取得する予定であった。しかし、シラバスの判定処理に時間を要するためにサーバ環境を別途構築したことや、そもそもシラバスか否かの判定に人手を要するのが避けがたいなどの理由で、実際にシラバスページを取得している大学の数が100大学程度であり、大量のシラバスを取得しているとは言えず、計画よりはやや遅れていると言わざるを得ない。
|
Strategy for Future Research Activity |
現在までの進捗状況で書いたように、シラバスの判定に人手を要することから、大学院生の協力を募るという人海戦術的なアプローチを実施する予定である。既に申し出てくれた学生がおり、その点だけでも平成29年度に比べれば2-3倍程度の速度でシラバスらしきページを取得できることが期待される。また、並行してシラバス判定処理の改良についても検討中である。具体的には、判定処理の精度を向上させるべく、シラバスらしきページの URL の特徴を活用できないかを検討する。更に、シラバス判定までの一連の作業を支援するツールも開発する予定である。 これらの取り組みによって、我々が過去に取得したシラバス(約50大学)の10倍程度のシラバスを取得することを目指す。
|
Research Products
(3 results)