2004 Fiscal Year Annual Research Report
Nグラムモデルを用いたクラスタ分析による大規模漢字文献分析の基礎的研究
Project/Area Number |
15700215
|
Research Institution | Hanazono University |
Principal Investigator |
師 茂樹 花園大学, 文学部, 専任講師 (70351294)
|
Keywords | 確率的言語モデル / Nグラム / 仏教学 / テキストデータベース / 文字オントロジ / 玄奘訳経論 |
Research Abstract |
本年度はほぼ当初の計画通り研究が行うことができ、その成果の一部を論文等で発表することができた。 【テキストデータベースの構築】 分析対象となる仏教学・禅学関連文献のテキストデータベースを構築し、http://kura.hanazono.ac.jp/から公開するための準備を行った。来年度公開予定。 【ソフトウェアの開発】 Nグラム分析用ソフトウェアmorogramを、Perl 5.8への対応などを含む若干のバージョンアップを行った。現在、http://sourceforge.jp/projects/morogram/で公開中。ただし、当初予定していたクラスタ分析のシステムについては、若干の試作は行ったものの未だ本格的に着手できていないため、今後の課題としたい。 【大規模文献群の分析】 大規模テキストデータベース(具体的には玄奘訳の経論全体)に対する文字コードレベルでのNグラム分析およびクラスタ分析を行った結果、さらなる工夫は必要であるものの、仮説形成などにおいて有用性を確認することができた。また、大規模な文献群から有効な知識を抽出する手段として、文献群の関係を視覚化する必要性を感じたため、ばねモデルによる視覚化を試みた。文献学を新たな段階に進める手段として、これらの研究のさらなる進展と普及の努力が必要であると考える。 【文字オントロジによるテキスト分析】 音韻や字義を用いたNグラム処理によるテキスト分析を行うため、データ整備やソフトウェア開発などを行った。音韻データに関しては来年度中に公開可能であると思われる。しかし、研究期間中に必要性を見出したことではあるとはいえ、実際のテキスト分析までには質量共にまだ不十分であるため、研究・開発を来年度以降に継続予定である。特に、文字の文脈依存性について研究が必要であろう。
|
Research Products
(5 results)