今年度は技術的な評価を進めるとともに、本研究の概念全体についても整理を行った。 (a) 語彙の構造を反映した語彙成長モデルについては、漢語・外来語の語構成要素の成長の違いを、検討に用いた6分野の用語集について明らかにし、また、語構成要素ネットワーク(語構成要素を頂点、用語中での共起を辺として定義される)を使って、漢語と外来語語構成要素の語彙における役割をモデル化した(これらは分野によって大きくことなる)。 (b) Webクローラとしては、apiを置換え、また検証用のコーパスのうち、計算機科学分野のコーパスがコーパス収集の際の日本語キーワード選択が適切でなかったため小さなものとなってしまったことからその再収集を行い、実験条件を整備するとともに、前年度に行った二部グラフ分割に基づく候補語生成と対訳対応付けだけでなく、語彙ネットワークをpartitive clusteringに基づき語彙分割し予め部分語彙に分けた上で候補語を生成する手法の検討を行なっている。 (c) 見出し語集合をどのように確定するかは辞書学における最大の未解決問題であり、コーパスの頻度などは参考にされてはいるものの、これまでのところ、現実には辞書編集者が経験により決めてきたところが大きい。本研究では、(b)の検証実験におちえいわゆる自然言語処理応用として見たときに、対訳抽出において既往のコーパスベースの手法以上のパフォーマンスを出していることが確認できているが(ただし抽出される用語の範囲が異なるためそれほど数値比較は意味のあるものではない)、それに加えて、今年度は、本研究の萌芽としての意味を整理し、本研究が、辞書学の未解決課題に対して、専門用語は複合語が多いという特徴を利用したため専門用語辞書にしか今のところ適用は保証されないとはいえ、一定の道筋を示したことを明らかにした。
|