Nグラムモデルを用いたクラスタ分析による大規模漢字文献分析の基礎的研究
Project/Area Number |
15700215
|
Research Category |
Grant-in-Aid for Young Scientists (B)
|
Allocation Type | Single-year Grants |
Research Field |
情報図書館学・人文社会情報学
|
Research Institution | Hanazono University |
Principal Investigator |
師 茂樹 花園大学, 文学部, 専任講師 (70351294)
|
Project Period (FY) |
2003 – 2005
|
Project Status |
Completed (Fiscal Year 2005)
|
Budget Amount *help |
¥3,500,000 (Direct Cost: ¥3,500,000)
Fiscal Year 2005: ¥700,000 (Direct Cost: ¥700,000)
Fiscal Year 2004: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2003: ¥2,000,000 (Direct Cost: ¥2,000,000)
|
Keywords | Nグラム / クラスタ分析 / テキストデータベース / オントロジ / 漢字仏教文献 / 仮説形成 / 音韻 / デジタルアーカイブ / 確率的言語モデル / 仏教学 / 文字オントロジ / 玄奘訳経論 / 計量文献学 / 文字知識処理 |
Research Abstract |
本年度は、(1)構築したテキストデータベースの公開に向けた整理、(2)文字オントロジによるNグラム処理ツールの開発、(3)研究の総括(報告書の作成)を目標に、研究を行った。 (1)に関しては、すでに一部のデータを、花園大学のサーバ(http://kura.hanazono.ac.jp/)より公開している。近日中に、すべてを公開する予定である。 (2)に関しては、当面の目標として漢字の音韻によるNグラム処理を実現するべく『韻鏡』のデータベース化に着手し、完成には至っていないが、準備作業はほぼ終えた。今後、これを完成させるべく、研究・開発を継続する予定である。ただし、音韻のオントロジ記述に関しては、音韻自体が持つ構造の複雑さから、最終的にどのようなモデルでデータベースを構築し、処理すべきなのかを、他の研究者と共同で検討中である。 (3)については、仏教学、人文情報学、自然言語処理研究などの広い視点から、本研究がどのように位置づけられるかについて研究を行い、論文として発表した(下記「「デジタルアーカイブ」とはどのような行為なのか」「仏教学における自然言語処理」参照)。また、本研究で開発した方法を他の文献に応用した研究も行い、成果をあげることができた(下記「楞厳経惟〓疏の逸文をめぐる二、三の問題」参照)。以上のことから考えても、本研究は(一部、未達成の部分が残っているとは言え)今後の古典学研究に活用されうると思われるし、期間内に十分な成果をあげたと考えられる。 以上の成果を含めた本研究全体のまとめとして、現在、報告書を作成しており、近日中に公開予定である。
|
Report
(3 results)
Research Products
(12 results)