2007 Fiscal Year Annual Research Report
数理文献学的研究における新約聖書セマンティックWebの半自動構築
Project/Area Number |
19700238
|
Research Institution | Osaka University |
Principal Investigator |
三宅 真紀 Osaka University, 大学院・言語文化研究科, 助教 (80448018)
|
Keywords | 数理文献学 / セマンティックWeb / グラフクラスタリング / 新約聖書 / Markov CIustering |
Research Abstract |
本研究は、新約聖書のテキストのXML化、ならびにグラフクラスタリングの結果によるネットワーク描画により、新約聖書の体系化を実現することを目的としている。グラフクラスタリング手法に関しては、Van Dongen(2000)が提唱したMCL (Markov CIustering)やJungら(2006)による、MCLの言語データへ適用で起こる問題を解消するために提案したRMCL(Recurrent Markov Clustering)を使用した。さらに、クラスタリングの結果表示に関しては、インタラクティブなネットワーク表示ができるグラフ描画ツールを導入し、大規模なネットワーク図を表示可能にするようなツールの検討を行った。言語資源として、新約聖書の他にも、小説(Le petit prince) Joyce氏による日本語連想語データベースを使用し、出現頻度数をデータとする多変量解析によるテキスト間の類似度計算に加えて、単語をノードで表し、単語間の関連をエッジとして表す意味ネットワークのグラフクラスタリングを適用し、単語や単語群の内在的関係を明らかにすることを試みた。 階層化グラフクラスタリングRMCLの最適な意味ネットワークの作成を目的として、グラフクラスタリングの最適化とデータサイズを考慮した指標に基づき、クラスタリング結果について考察した。テキストデータは新約聖書の福音書を使用して、ネットワーク指標に基づいて複数の意味ネットワークを作成する。また、データの特徴量から構造を観察し、単語・概念間における適切な意味ネットワークの構築が可能となるような共起単語ペアの選定を行った。 今年度の研究成果は、国内外の学会において報告し、ALLC学会でのBursaryを受賞、またPaclic学会で"Best Paper Award"を受賞するなど、高い評価を受けた。
|