研究課題
本研究は、新約聖書のテキストのXML化、ならびにグラフクラスタリングの結果によるネットワーク描画により、新約聖書の体系化を実現することを目的としている。グラフクラスタリング手法に関しては、バイオ情報学の分野において大規模データのクラスタリングとして非常に有効な方法論を適用し、Van Dongen (2000)が提唱したMCL (Markov Clustering)の言語資料データ用への応用研究を試みた。また、MCLをもとにJungら(2006)が言語資料データ用に開発したRMCL (Recurrent Markov Clustering)のグラフクラスタリング手法を採用した。さらに、言語データを対象にしたグラフ理論にもとづくクラスタリング手法の応用研究として、MCLと、ネットワーク基本特徴量であるクラスタリング係数を組み合わせたソフトクラスタリング法を適用した。その結果、ハードクラスタリング法の単独使用では不可能であった、重要単語が複数コミュニティに含まれるようなクラスターの抽出を実現した。言語資源として、新約聖書の他に、Dickensの小説"Oliver Twist"をグラフクラスタリングの応用研究の対象とし、本研究が提示する方法論が、コーパス言語資料への適応可能性を示した。ネットワーク基本特徴量から得られた意味ネットワークの構造の特徴をもとに、クラスタリング係数を閾値としてスパースな性質を持つネットワークの高密度の部分を抽出する方法を提案した。また、登場人物や地名に限定した共起情報を取得することにより、テキストのソーシャルネットワークを作成し、グラフクラスタリングによるコミュニティの抽出を試みた。
すべて 2009
すべて 雑誌論文 (2件) (うち査読あり 1件) 学会発表 (2件)
言語文化研究プロジェクト,電子化言語資料分析研究2008-2009
ページ: 35-44
In Proceedings of Digital Humanities 2009
ページ: 373-375