最初は、計画通りに、『説文解字』の電子計算表を校正し、それに基づいて偏旁を解析し、暫定的小篆偏旁体系を作成したが、電子テキスト情報から手作業で電子計算表を起こしたため、記述パターンの評価には、不均一が生じ、偏旁解析の精度が充分に保障できなかった。そこで、自然言語処理の技術を取り入れ、Perlを用いてテキスト情報の正確な解析から、偏旁抽出作業の基盤を築きなおすことにした。その成果として、『説文解字』本文の記述を、「訓詁情報」、「字形分析情報」、「異体字情報」、「読音情報」、「異説・出典情報」に区別し、正規表現により機械的に各情報を識別し、さらに「字形分析情報」および「異体字情報」に対するパターン分析により、各見出し字についてその書体を判別し且つ字形構成要素を抽出するアルゴリズムを開発することができた。字形分析の記述パターンは、字形構成要素に関する情報を含むものは、会意・形声と象形会意混合の三種に分れるが、構成要素に付着し記述形式を複雑にする修飾語を分離することにより、各種の記述パターンを検索する基本的正規表現の数が最小限に抑えられた。修飾語を除けば、会意パターンマッチングに用いられる正規表現は六つ、形声は一つ、象形は二つに過ぎず、『説文解字』の膨大な字形分析情報は、これらの組合せに還元して分析することができる。分析の精度は、情報類型の識別および書体の判別については97%以上、字形構成要素の抽出については95%以上と推測されるが、精度の検証および精度向上に向けたアルゴリズムの改善は現在なお進行中である。 自然言語処理技術の導入により、研究の進行が計画より遅れ、研究内容に関わる公表論文の執筆にもまだ至っていないが、評価基準の統一によって、中国古文字全般にわたる偏旁分析にはより牢固とした基盤が与えられると共に、漢文の自然言語処理研究にも一石投じられることが期待される。
|