研究概要 |
膨大な教育・学術情報がデータベース化され, インターネット上などで公開されているが, 個々の文書情報の内容からその関係を見定め全体像を捉えるのは困難である. たとえば各高等教育機関が提供カリキュラムの全体像を把握し, 科目間の履修依存関係や履修モデルを整理して学習者に分かりやすく表現・提示するのは専門知識と労力のかかる仕事である. そこで本研究では, 自然言語処理技術とネットワーク分析の手法を学術的テキストデータに適用することで, 文書間および概念間の相互規定関係を抽出・利用し, カリキュラムなどデータ集合全体の構造を分かりやすく可視化・提示する手法を開発した. 開発手法では文書集合の構造を「文書-用語ネットワーク」として表現し, 用語=概念間の関連を累積することで文書(シラバス=科目)間の内容的関係(基礎-発展関係)を推定する. また, ネットワークにおける科目および概念の位置付けから, 当該カリキュラムにおけるそれらの中心-周辺(特殊)性を評価する. この二つの関係を平面上に展開し, 科目間関係の可視化に用いる. 本年度はさらに, 文書間関係からそれらが含む用語間での上位-下位関連強度を推定し, 使用者に関連の妥当性を評価させる機会を提供するインターフェースを開発した. このシステムを用いることで,専門的概念のシソーラス作成を支援することができ, 作成されたシソーラスは教育学術のテキストデータを自動分析するうえで更に活用できると期待される. また, 開発手法を個人の学術参考文献(BibTeX)データベースに適用し, 参考文献間の関係抽出・可視化も試みた. 対象とした参考文献データベースでは, キーワード, アブストラクトなどから抽出される用語による関連の累積だけでは満足のいく文献間関係が抽出できなかったが, 今後, 引用関係なども併用することで, 個人の専門知識または関心領域の適切な可視化につなげる予定である.
|