研究課題/領域番号 |
61305013
|
研究機関 | 京都大学 |
研究代表者 |
勝村 哲也 京大, 人文科学研究所, 助教授 (50066411)
|
研究分担者 |
桶谷 猪久夫 京都大学, 大型計算機センター, 教務職員 (90169269)
杉田 繁治 国立民族学博物館, 助教授 (40026042)
和田 萃 京都教育大学, 助教授 (30025069)
御牧 克己 京都大学, 文学部, 助教授 (20109060)
柴山 守 京都大学, 東南アジア研究センター1, 助手 (10162645)
|
キーワード | 計算機 / 漢字属性 / 異体字リンク / 2バイト文字コード体系 / CJKシステム / 手書き文字入力法 / 日本語 / 中国語 / 朝鮮語 / タイ語 / ヴェトナム語 / タミール語 |
研究概要 |
アジアにおける多言語資料の計算機処理を行なうに際し、さしあたって対象とした言語は、日本語、中国語、朝鮮語(韓国語)、タイ語、ヴェトナム語、タミール語(シンガポールの公用語)である。いずれの言語に関しても最も密接な関係にあるのが漢字であって、漢字の異体字(バリアント)については特に細かな検討を加えた。異体字は、時代的な差異によって出現する他、国によって字体が異なるいわゆる多国漢字として出現する。前者については、古代・中世・近世の文献の処理を行なう際に考慮しなければならない書体の差異の検討を通じて、手書き文字認識のシステム開発のためにも新しい知見が得られた。後者については、富士通のJEF(日本語処理システム)、CHF(中国語処理システム)、KEF(韓国語処理システム)を改良して、同一マシン(同一システム)上で多国漢字を処理することができるか、同一マシン上で処理するためには、どのような異体字リンク、漢字属性表を作成しなければならないかといった問題について、綿密な検討を加え、2バイトコード体系の枠内で、多国漢字を処理することができることを確認した。現在は異体字処理のための理論構成を考え、ソフトウェアーの開発を行なっている。ここでは、従来言語又は国別に分けられていたコード体系を一本化し、一つの漢字について多言語(多国)の文字属性を持つよう考慮している。なお、USAのLC等で開発されているCJKシステムは3バイトコード体系を用いるものであって、我々のシステムの方がわが国の実情に適合するところが多いであろう。また、本研究では、本年度は2月12・13日に本学で行なったシンポジウム(参加者66名)に向けての準備と発表に重点を置いた。それらの成果は、別の機会を得て、近く公刊することにしている。
|