研究課題
品詞情報を付加したコーパス化をおこなう古典漢文テキストとして、『漢文大系』から「十八史略」および「孟子」を選び、人名情報抽出のための古典漢文コーパスを作成した。さらに、この漢文コーパスを用いた形態素解析の結果を、地名情報の抽出という側面から検討した。この結果、姓氏の自動抽出については、地名と同様の手法で可能であるとの感触を得た。すなわち、形態素解析に用いる古典漢文辞書に、姓氏を大量に追加する手法によって、姓氏はほぼ全てを自動抽出できる。その一方で、名や諱については、自動抽出がかなり困難な例が多数みつかった。典型例が『十八史略』巻之二に登場する「李斯」である。巻之二には「斯」が16例出現するのだが、うち6例までは「李斯」という形で出現することから、これらについては「斯」が名を意味していることは容易に判定できる。一方、残る10例は「斯」が単独で現れるが、最初の9例が名で、最後の1例だけが代名詞、という非常に自動判定の難しい形になっていた。これを自動抽出するような手法は、残念ながら、研究期間中には開発することができなかった。なお、研究状況に関しては、http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/kyodokenkyu/archive2016.html でWWW公開している。また、これまでの検討結果を合わせて、『東洋学へのコンピュータ利用』第27回研究セミナーで発表をおこなった。
27年度が最終年度であるため、記入しない。
すべて 2016 その他
すべて 雑誌論文 (1件) 学会発表 (1件) 図書 (1件) 備考 (1件)
東洋学へのコンピュータ利用
巻: 27 ページ: 3-14
http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/kyodokenkyu/archive2016.html