国語辞典の本文記述の構文規則を抽出した。 ・外字の処理:外字としてどのような文字種が必要かを検討した。外国語文字は梵字の翻字システムを工夫すれば、現在のUnicodeで問題が生じないことを確認した。固有名詞については、中国人名・地名のために50字程度、日本人名のために20字程度をJIS第1水準・第2水準外に用意すれば足りることを確認した。その大部分はUnicodeに定義されているが、若干の未定義文字が存在する。知識ベースへの実装においては、大漢和検字コードで記録し、表示システムで処理することを目指し、その他の文字は仮名表記が望ましいことを確認した。本件については投稿中。一部の国語辞典ではCD-ROM化において翻字の誤りがあったことも判明した。 ・共通見出し:見出しの構文規則を各種国語辞典用に作成した。辞典によっては、多義語に共通な語義や語源や注釈が見出し部に記されているケースがあるが、これらを本文解析部へ送って、統一的に扱えるようにした。 ・多義語処理:辞典では多義語について、見出しを別に立てる場合と同一見出しの中にレベル付きの番号で区別する場合がある。多義であることが知識ベースの構造に反映されるケースと、単に表記が同じであるだけで独立して知識化されるケースとが、この辞典の措置とどのように関係するかを調べ、本文記述量・品詞・レベルの深さなどから経験則を導き出すことができた。 ・ハイポニミーとタクソノミー:植物・動物などについては、辞書記述のタクソノミーとハイポニミーの一致が知られていたが、そのほかのジャンルについて調査した。全般的に、辞書記述において「〜など」や「〜の-」で示されるものはハイポニミーとしては不完全であり、便宜的タクソノミーであることが分かった。知識ベースにおいて、ハイポニミー+タクソノミーに基づく継承関係の新たな構築法の必要性が判明し、現在、取組中である。
|