• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2004 年度 実績報告書

Nグラムモデルを用いたクラスタ分析による大規模漢字文献分析の基礎的研究

研究課題

研究課題/領域番号 15700215
研究機関花園大学

研究代表者

師 茂樹  花園大学, 文学部, 専任講師 (70351294)

キーワード確率的言語モデル / Nグラム / 仏教学 / テキストデータベース / 文字オントロジ / 玄奘訳経論
研究概要

本年度はほぼ当初の計画通り研究が行うことができ、その成果の一部を論文等で発表することができた。
【テキストデータベースの構築】
分析対象となる仏教学・禅学関連文献のテキストデータベースを構築し、http://kura.hanazono.ac.jp/から公開するための準備を行った。来年度公開予定。
【ソフトウェアの開発】
Nグラム分析用ソフトウェアmorogramを、Perl 5.8への対応などを含む若干のバージョンアップを行った。現在、http://sourceforge.jp/projects/morogram/で公開中。ただし、当初予定していたクラスタ分析のシステムについては、若干の試作は行ったものの未だ本格的に着手できていないため、今後の課題としたい。
【大規模文献群の分析】
大規模テキストデータベース(具体的には玄奘訳の経論全体)に対する文字コードレベルでのNグラム分析およびクラスタ分析を行った結果、さらなる工夫は必要であるものの、仮説形成などにおいて有用性を確認することができた。また、大規模な文献群から有効な知識を抽出する手段として、文献群の関係を視覚化する必要性を感じたため、ばねモデルによる視覚化を試みた。文献学を新たな段階に進める手段として、これらの研究のさらなる進展と普及の努力が必要であると考える。
【文字オントロジによるテキスト分析】
音韻や字義を用いたNグラム処理によるテキスト分析を行うため、データ整備やソフトウェア開発などを行った。音韻データに関しては来年度中に公開可能であると思われる。しかし、研究期間中に必要性を見出したことではあるとはいえ、実際のテキスト分析までには質量共にまだ不十分であるため、研究・開発を来年度以降に継続予定である。特に、文字の文脈依存性について研究が必要であろう。

  • 研究成果

    (5件)

すべて 2005 2004

すべて 雑誌論文 (4件) 図書 (1件)

  • [雑誌論文] 大規模仏教文献群に対する確率統計的分析の試み2005

    • 著者名/発表者名
      師茂樹
    • 雑誌名

      中國宗教文獻研究國際シンポジウム報告書

      ページ: 357-369

  • [雑誌論文] 文字素性に基づく文字処理2004

    • 著者名/発表者名
      守岡知彦, 師茂樹
    • 雑誌名

      情報処理学会研究報告 Vol.2004,No.58(2004-CH-62)

      ページ: 53-60

  • [雑誌論文] 思想史としての文字情報処理:問題提起として2004

    • 著者名/発表者名
      師茂樹
    • 雑誌名

      シンポジウム「文字情報処理のフロンティア:過去・現在・未来」予稿集

      ページ: 1-7

  • [雑誌論文] NGSM結果のばねモデルによる視覚化2004

    • 著者名/発表者名
      師茂樹
    • 雑誌名

      漢字文献情報処理研究 5

      ページ: 102-107

  • [図書] インド哲学仏教学への誘い2005

    • 著者名/発表者名
      菅沼晃博士古稀記念論文集刊行会
    • 総ページ数
      327(272-278)
    • 出版者
      大東出版社

URL: 

公開日: 2006-07-12   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi