2009 Fiscal Year Annual Research Report
数理文献学的研究における新約聖書セマンティックWebの半自動構築
Project/Area Number |
19700238
|
Research Institution | Osaka University |
Principal Investigator |
三宅 真紀 Osaka University, 大学院・言語文化研究科, 准教授 (80448018)
|
Keywords | 数理文献学 / セマンティックWeb / グラフクラスタリング / 新約聖書 / Markov Clustering |
Research Abstract |
本研究は、新約聖書のテキストのXML化、ならびにグラフクラスタリングの結果によるネットワーク描画により、新約聖書の体系化を実現することを目的としている。 グラフクラスタリング手法に関しては、バイオ情報学の分野において大規模データのクラスタリングとして非常に有効な方法論を適用し、Van Dongen (2000)が提唱したMCL (Markov Clustering)の言語資料データ用への応用研究を試みた。また、MCLをもとにJungら(2006)が言語資料データ用に開発したRMCL (Recurrent Markov Clustering)のグラフクラスタリング手法を採用した。さらに、言語データを対象にしたグラフ理論にもとづくクラスタリング手法の応用研究として、MCLと、ネットワーク基本特徴量であるクラスタリング係数を組み合わせたソフトクラスタリング法を適用した。その結果、ハードクラスタリング法の単独使用では不可能であった、重要単語が複数コミュニティに含まれるようなクラスターの抽出を実現した。 言語資源として、新約聖書の他に、Dickensの小説"Oliver Twist"をグラフクラスタリングの応用研究の対象とし、本研究が提示する方法論が、コーパス言語資料への適応可能性を示した。ネットワーク基本特徴量から得られた意味ネットワークの構造の特徴をもとに、クラスタリング係数を閾値としてスパースな性質を持つネットワークの高密度の部分を抽出する方法を提案した。また、登場人物や地名に限定した共起情報を取得することにより、テキストのソーシャルネットワークを作成し、グラフクラスタリングによるコミュニティの抽出を試みた。
|