2008 Fiscal Year Annual Research Report
物理文献学的研究における新約聖書セマンティックWebの半自動構築
Project/Area Number |
19700238
|
Research Institution | Osaka University |
Principal Investigator |
三宅 真紀 Osaka University, 大学院・言語文化研究科, 助教 (80448018)
|
Keywords | 数理文献学 / セマンティックWeb / グラフクラスタリング / 新約聖書 / Markov Clustering |
Research Abstract |
本研究は、新約聖書のテキストのXML化、ならびにグラフクラスタリングの結果によるネットワーク描画により、新約聖書の体系化を実現することを目的としている。グラフクラスタリング手法に関しては、Van Dongen(2000)が提唱したMCL(Markov Clustering)やJungら(2006)による、MCLの言語データへ適用で起こる問題を解消するために提案したRMCL(Recurrent Markov Clustering)を使用した。さらに、クラスタリングの結果表示に関しては、インタラクティブなネットワーク表示ができるグラフ描画ツールを導入し、大規模なネットワーク図を表示可能にするようなツールの検討を行った。言語資源として、新約聖書の他に、Joyce氏による日本語連想語データベースをグラフクラスタリングの応用研究の対象とした。ネットワーク基本特徴量から得られた意味ネットワークの構造の特徴をもとに、クラスタリング係数を閾値としてスパースな性質を持つネットワークの高密度の部分を抽出する方法を提案した。また、福音書の登場人物や地名の共起情報に限定して、福音書個別に4種類のソーシャルネットワークを作成し、グラフクラスタリングによるコミュニティの抽出を試みた。これまで適用したハードクラスタリング手法の問題を解決する方法論として、Markov Clusteringとクラスタリング係数を組み合わせたソフトクラスタリング法を適用し、ハードクラスタリング法の単独使用では不可能であった、重要単語が複数コミュニティに含まれるようなクラスターの抽出を実現した。
|