研究概要 |
本研究は、日本・中国をはじめとする東アジア圏の現代・古典資料などの文字情報に使用された、異体字・国字などのあらゆる漢字字形を登録可能な文字データベースを、インターネット上に構築・運用するものである。平成23年度の研究成果は次の3点に集約される。 1、登録データ利用の実証実験の完了 前年度までの研究成果をもとに、漢字字形データベースに登録されている漢字グリフをWebフォントを活用することで外部の学術データベースの外字処理として利用するための実証実験が完了した。引き続き論文としてまとめ、外部に発表するする段階に移ることとなる。 2、登録データを利用したデザイン支援機構の構築 前年度までの研究成果をもとに、漢字字形データベースに登録されているデータを活用して機械的に漢字字形を生成するプログラムのプロトタイプが完成した。引き続き、最終的な微調整を行うためのユーザーインターフェースの設計と、Webサービスとしての公開に向けて作業を継続することとなる。このほかに、異体字関係にある2つの漢字字形のどこに差異があるかを記述するためのメタ情報を「漢字異体化データベース」としてまとめた。 3、日本国内外の漢字字形資料の効率的な収集・登録 前年度に引き続き漢字字形のデータ登録を継続し、以下の漢字集合の収録が完了した。 ・ISO/IEC10646規格、CJK統合漢字拡張B集合(42,711字) ・Unicode標準、IVD集合(2010-11-14登録分)(18,842字) ・和製漢字の辞典(大原望氏による国字収集データベース)(字形不明の2字を除く2,749字) ・『国字の辞典』(飛田良文、菅原義三、東京堂出版、平成2年)(1,556字) .住民基本台帳ネットワーク統一文字、漢字部分(19,432字) 以上により、ISO/IEC10646規格の漢字部分(75,619字)を完全に収録することとなった。
|