1.小〜中規模のテキスト群に対するNグラムモデルを用いたクラスタ分析の検証のために、(1)既存のテキストデータベースの収集と(2)テキストデータベース(初期禅宗文献)の入力を行った。(2)に関してはマークアップまでを予定していたが、入力業者からの到着が遅れ、年度内に着手することができなかった。なお、(2)のデータは近日中に花園大学国際禅学研究所のWebサイトより公開予定。 2.Nグラムモデルによる処理を行うために、次の二つのソフトウェアの開発を行った。 (1)以前より開発してきたUnicodeに完全対応した文字コードレベルでのNグラム処理を行うmorogramを改良すべく、CVSサーバやメーリングリストなどのオープンソースの開発環境(http://sourceforge.jp/projects/morogram/)を用意し、そこで国内の研究者・開発者と共同で開発や議論を行った。 (2)文字コードレベルでのNグラム処理に限界を感じる一方、音韻や字義を用いたNグラム処理の必要性を感じたため、CHISEプロジェクト(http://kanji.zinbun.kyoto-u.ac.jp/projects/chise/)等で開発されている文字データベース環境に基づいたNグラム処理システムのプロトタイプを作成し、研究発表を行った。これに関連して、文字コードに依存しない文字処理方法に関する研究や、CHISEプロジェクトのためのPerlライブラリの開発なども行った。 3.本研究に関して、国内の研究者とミーティングを行った。国外の研究者とのミーティングは、先方の都合により実現できなかった。
|