2010 Fiscal Year Annual Research Report
形態素解析のための品詞情報つき古典漢文コーパスの構築
Project/Area Number |
22300087
|
Research Institution | Kyoto University |
Principal Investigator |
安岡 孝一 京都大学, 人文科学研究所, 准教授 (20230211)
|
Co-Investigator(Kenkyū-buntansha) |
山崎 直樹 関西大学, 外国語学部, 教授 (30230402)
三階堂 善弘 関西大学, 文学部, 教授 (70292258)
師 茂樹 花園大学, 文学部, 准教授 (70351294)
池田 巧 京都大学, 人文科学研究所, 准教授 (90259250)
守岡 知彦 京都大学, 人文科学研究所, 助教 (40324701)
|
Keywords | 古典漢文 / コーパス / 形態素解析 |
Research Abstract |
古典漢文コーパス構築のための基礎作業として、まず『漢文大系』(冨山房)の全文画像を構築し、さらに全文テキスト化のための目次情報を構築した。これに並行して、品詞分類グループは品詞処理のためのプロトタイプを設計したが、その際に、散文と韻文とでかなり文法構造が異なることが発見された。そこで、散文と韻文とを分離すべく、デジタル処理グループと共同で、韻文の基本構造を自動抽出する手法を考案し、それらに対する例文ベースでの検証をおこなっている。この手法により散文と韻文を分離することができれば、それぞれの文法構造に応じた形態素解析エンジンを作りこむことができることから、解析精度が飛躍的に上昇することが期待される。 なお、平成22年度の研究成果を、2011年3月28~29日開催の国際シンポジウムOsaka Symposium on Digital Humanities 2011において発表すべく、3件のextended abstractを研究代表者・研究分担者ともども投稿したところ、見事3件とも採択された。しかし、2011年3月11日に発生した東日本大震災により、シンポジウムが2011年夏に開催延期となってしまったため、今夏に発表する予定である。
|
Research Products
(4 results)