2002 Fiscal Year Annual Research Report
情報理論的アプローチによる専門語彙構造の特徴解析とモデル化
Project/Area Number |
14580465
|
Research Institution | National Institute of Informatics |
Principal Investigator |
影浦 峡 国立情報学研究所, 人間・社会情報研究系, 助教授 (00211152)
|
Keywords | 専門語彙 / 情報理論 / 計量語彙論 / ターミノロジー / 確率モデル / LNREモデル |
Research Abstract |
今年度は、以下の作業と研究とを進めた。 (1)日本語専門語彙データの語基分割作業 (2)LNREモデルを用いた漢語・外来語の成長予測の基本的なモデル化と記述 (3)テキスト空間から語彙空間の語基特性を復元するためのモデル定式化とLNREモデルの適用 (4)Kullback-Libler情報量を用い、標本量の差異を相殺した語彙間距離最小化に基づく専門語彙の近さを測定する基本的枠組みの検討と予備調査 (5)記述量最小化原則を用いた漢語・外来語の差異解消傾向測定のためのモデルの定式化 このうち(1)は研究のための基本的なデータ整備であり、(2)・(3)・(4)・(5)が研究の中核部分に相当する。具体的なモデル化の結果が得られたのは、今年度については(2)と(3)であり、これについての成果は、それぞれ図書と論文のかたちで今年度内に発表することができた。 より具体的には、(2)に関しては、二項補外とLNREモデルにより、専門語彙の漢語と外来語の成長予測を行った結果、計算機科学では、異なり語として既にして漢語よりも外来語のほうが語基異なり数は優勢になっており、また、物理学や化学などでは語彙量が2倍から3倍になると外来語が優勢になる一方、心理学や動物学ではその逆転はしばらく起こりそうになく、また、植物学ではその逆転は基本的に起こらないだろうことが予測された。 (3)に関しては、テキスト・ウィンドウを複合語に狭めたときに得られる、着目語基の複合語分布に対してLNREモデルを適用すると、語基の「潜在的造語力」が測定できることを示し、ある分野で主題的に優勢な語気は、潜在的造語力が中程度のものであることを仮説として設け、情報処理分野においてそれを予備的に検証した。 (4)に関しては、語基としては重なりのない語彙の問の語彙構造の近さを計るために構造的な距離を定義し、それをKullback-Libler情報量で測定するという枠組みを定式化した。また、(5)については、記述量最小化原則を漢語と外来語の関係を分析するモデルとしてどう使えるかの理論的枠組みを検討した。 全体として、(2)と(5)が同一語彙内での語基の役割を、(3)がテキスト空間から語彙空間のデータ復元を、(4)が異なる語彙の比較の問題を扱っており、(3)→(2)・(5)→(4)と、一次的言語データであるテキストを基点とした単一語彙の構造モデル・語彙間の比較モデルを総合的に構築するための基盤を今年度は進めることができた。
|