研究課題
本研究は、新約聖書のテキストのXML化、ならびにグラフクラスタリングの結果によるネットワーク描画により、新約聖書の体系化を実現することを目的としている。グラフクラスタリング手法に関しては、Van Dongen(2000)が提唱したMCL (Markov CIustering)やJungら(2006)による、MCLの言語データへ適用で起こる問題を解消するために提案したRMCL(Recurrent Markov Clustering)を使用した。さらに、クラスタリングの結果表示に関しては、インタラクティブなネットワーク表示ができるグラフ描画ツールを導入し、大規模なネットワーク図を表示可能にするようなツールの検討を行った。言語資源として、新約聖書の他にも、小説(Le petit prince) Joyce氏による日本語連想語データベースを使用し、出現頻度数をデータとする多変量解析によるテキスト間の類似度計算に加えて、単語をノードで表し、単語間の関連をエッジとして表す意味ネットワークのグラフクラスタリングを適用し、単語や単語群の内在的関係を明らかにすることを試みた。階層化グラフクラスタリングRMCLの最適な意味ネットワークの作成を目的として、グラフクラスタリングの最適化とデータサイズを考慮した指標に基づき、クラスタリング結果について考察した。テキストデータは新約聖書の福音書を使用して、ネットワーク指標に基づいて複数の意味ネットワークを作成する。また、データの特徴量から構造を観察し、単語・概念間における適切な意味ネットワークの構築が可能となるような共起単語ペアの選定を行った。今年度の研究成果は、国内外の学会において報告し、ALLC学会でのBursaryを受賞、またPaclic学会で"Best Paper Award"を受賞するなど、高い評価を受けた。
すべて 2008 2007
すべて 雑誌論文 (19件) (うち査読あり 12件) 学会発表 (5件)
In Proceedings of the IJCNLP-2008
ページ: 901-906
In Proceedings of the Symposium on LKR2008
ページ: 116-131
In Actes des 9es Journees internationales d'Analyse Statistique des Donnees lextuelles, Lyon, Presses Universitaires de Lyon (JADT2008) 1
ページ: 57-68
SIG Technical Report
ページ: 33-40
言語文化研究プロジェクト、電子化言語資料分析研究
ページ: 3-16
文理シナジー学会春季大会
ページ: 12
In Proceedings of the IMPS2007
ページ: 22
Digital Humanities 2007
ページ: 137-139
言語処理学会第13回年次大会(NLP2007)
ページ: 246-249
情報処理学会研究報告 9
In Proceedings of the Symposium on Large-ScaleXnowledee Resources (LKR2007)
ページ: 243-246
In Proceedinsfs of the Symposiiun on LKR2007
ページ: 71-74
In Proceedines of the World Conference on ED-MEDLA
ページ: 3359-3364
情報処理学会研究報告 49
ページ: 49-56
In Proceedings of the 3rd Language & Technology Conference、(L&TC'07)
ページ: 114-118
In Proceedings of the 10th Conference of the Pacific Association for Computational Lmguistics
ページ: 308-316
In Proceedings of the 21st Pacific Asia Conference on Language, Information and Computation (PACLIC21)
ページ: 321-328
人文科学とコンピュータシンポジウム論文集
ページ: 177-182
ページ: 277-282