2012 Fiscal Year Annual Research Report
形態素解析のための品詞情報つき古典漢文コーパスの構築
Project/Area Number |
22300087
|
Research Institution | Kyoto University |
Principal Investigator |
安岡 孝一 京都大学, 人文科学研究所, 准教授 (20230211)
|
Co-Investigator(Kenkyū-buntansha) |
W Christian 京都大学, 人文科学研究所, 教授 (20333560)
鈴木 慎吾 大阪大学, 言語文化研究科(研究院), 講師 (20513360)
山崎 直樹 関西大学, 外国語学部, 教授 (30230402)
守岡 知彦 京都大学, 人文科学研究所, 助教 (40324701)
二階堂 善弘 関西大学, 文学部, 教授 (70292258)
師 茂樹 花園大学, 文学部, 准教授 (70351294)
池田 巧 京都大学, 人文科学研究所, 准教授 (90259250)
|
Project Period (FY) |
2010-04-01 – 2013-03-31
|
Keywords | 古典漢文 / コーパス / 形態素解析 |
Research Abstract |
これまでに作成した古典漢文コーパスから、品詞分類に改善の必要が認められたことから、新たな品詞分類の設計をおこなった。新たな品詞分類では、大品詞を「n」「v」「p」の3種類とし、動賓構造を「v」と「n」の組み合わせで表現することにした上で、その下位分類での品詞を「名詞」「代名詞」「数詞」「動詞」「前置詞」「副詞」「助動詞」「助詞」「感嘆詞」の9種類として、従来の漢文文法等で見られた「形容詞」を廃止したのが特徴である。これらに加え、43種類の意味素性と、80種類以上の小素性を定義し、形態素解析の結果として得られる各単語を、意味の面からも捉えやすいよう工夫した。この新しい品詞体系によるMeCab漢文辞書を作成すると同時に、例文入力グループにフィードバックして、MeCab漢文コーパスの入力をおこなった。さらに、MeCab漢文辞書とMeCab漢文コーパスを元に、MeCabによる漢文の自動形態素解析をおこなえるようにした。この形態素解析システムで、高校教科書の漢文例や、三国志呉書列伝などの白文を解析してみたところ、大品詞のF値は平均で92、品詞のF値は平均で84と、まずまずの高成績が得られ、白文の単位切りはほぼ完璧だった。この成果を「じんもんこん2012」で発表した上で、「International Conference on Culture and Computing 2013」にも投稿中である。また、本年度の終わりに、全体のMeCab漢文辞書およびMeCab漢文コーパスデータ(約18,000例)をWWWで公開し、当初研究計画をほぼ予定通り終了した。
|
Current Status of Research Progress |
Reason
24年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
24年度が最終年度であるため、記入しない。
|
Research Products
(3 results)