2003 Fiscal Year Annual Research Report
Nグラムモデルを用いたクラスタ分析による大規模漢字文献分析の基礎的研究
Project/Area Number |
15700215
|
Research Institution | Hanazono University |
Principal Investigator |
師 茂樹 花園大学, 文学部, 講師 (70351294)
|
Keywords | 確率的言語モデル / 計量文献学 / 仏教学 / テキストデータベース / 文字知識処理 |
Research Abstract |
1.小〜中規模のテキスト群に対するNグラムモデルを用いたクラスタ分析の検証のために、(1)既存のテキストデータベースの収集と(2)テキストデータベース(初期禅宗文献)の入力を行った。(2)に関してはマークアップまでを予定していたが、入力業者からの到着が遅れ、年度内に着手することができなかった。なお、(2)のデータは近日中に花園大学国際禅学研究所のWebサイトより公開予定。 2.Nグラムモデルによる処理を行うために、次の二つのソフトウェアの開発を行った。 (1)以前より開発してきたUnicodeに完全対応した文字コードレベルでのNグラム処理を行うmorogramを改良すべく、CVSサーバやメーリングリストなどのオープンソースの開発環境(http://sourceforge.jp/projects/morogram/)を用意し、そこで国内の研究者・開発者と共同で開発や議論を行った。 (2)文字コードレベルでのNグラム処理に限界を感じる一方、音韻や字義を用いたNグラム処理の必要性を感じたため、CHISEプロジェクト(http://kanji.zinbun.kyoto-u.ac.jp/projects/chise/)等で開発されている文字データベース環境に基づいたNグラム処理システムのプロトタイプを作成し、研究発表を行った。これに関連して、文字コードに依存しない文字処理方法に関する研究や、CHISEプロジェクトのためのPerlライブラリの開発なども行った。 3.本研究に関して、国内の研究者とミーティングを行った。国外の研究者とのミーティングは、先方の都合により実現できなかった。
|
Research Products
(4 results)
-
[Publications] 師 茂樹: "Perl/CHISEによる正規表現の拡張の試み -文字素性による後方参照の実装実験と課題-"『Linux Conference抄録集』,http://lc.linux.or.jp/paper/lc2003/, ISSN 1348-7876. 第1巻(オンライン論文集). (2003)
-
[Publications] 師 茂樹: "Nグラムと文字データベースによる漢字仏教文献の分析"情報処理学会研究報告. 2004-CH-61. 13-18 (2004)
-
[Publications] 師 茂樹: "Surface on Essence : Beyond the Coded Character Set Model"「書体・組版ワークショップ」報告書(京都大學21世紀COE東アジア世界の人文情報學研究教育據點). 26-35 (2004)
-
[Publications] 師 茂樹: "Unicodeのcharacter概念に関する一考察"東洋学へのコンピュータ利用 第15回研究セミナー. 3-8 (2004)