2003 Fiscal Year Annual Research Report
情報理論的アプローチによる専門語彙構造の特徴解析とモデル化
Project/Area Number |
14580465
|
Research Institution | National Institute of Informatics |
Principal Investigator |
影浦 峡 国立情報学研究所, 人間・社会情報研究系, 助教授 (00211152)
|
Keywords | 専門語彙 / 情報理論 / 計量語彙論 / ターミノロジー / 確立モデル / LNREモデル |
Research Abstract |
本研究では、特に専門語彙を対象に、語種の構造を計量的・情報論的に分析するためのモデル/枠組みを提案し、実際にそれを用いた分析結果を記述・予測的に提示することを行なった。より具体的には、以下である。 1.語彙論及び専門語彙論の領域の存立条件に関する理論的検討 2.語彙の構成構造を、数量的・情報論的に記述するために、テキストと語彙との関係について考察するとともに、テキストにおける語の重み付け手法を出発点として、観察店を統合的なユニットに絞り、二項補間・補外及びそれを拡張したLNREモデルを適用することで、テキストから語彙空間における語構成要素の基本的な造語力を復元するための道筋を示した。 3.専門語彙を出発点として、語種の構成構造を、単に与えられたデータに対してだけさなく、与えられたデータと構造的に同質でありながら量的に異なる場合に、構造がどのように変化するかを記述する手法の適用と、実際にいくつかの専門語彙を対象とした記述観察。計算機科学のように、直感的にも外来語の使用が定着している領域では、外来語のほうが異なり語数としては和語・漢語よりも多くなっていること、化学や心理学では、和語・漢語よりも外来語の異なり語数がわずかな語彙量の増大により多くなると予測されること、植物学や物理学では外来語の異なり語数が増えてはいるが、逆転については現実的範囲内ではどうか不明であること、農学については、和語・漢語が優勢であり続けるだろうことが観察された。 4.語種という、一見自明な概念がいかにして存立するかの批判的検討と、それに対応して、そもそも情報処理的観点からの言語操作に語種の区別が必要であるかどうかを評価するモデル/手法の検討。 これらにより、テキスト・データという、言語的には一次的なデータを出発点とした語彙論研究への一定の道筋、語彙の博物学的データ記述に留まらない動的・予測的な計量的・情報論的分析モデルの設定とそれを用いた専門語彙の語種構造の記述、語種概念の存立意義の情報論的を測定手法について、基本的な知見が得られたことになる。 その過程で、10分野の専門語彙データに対して、国立国語研究所のいわゆるM単位に基づく語基分割を行い、そのうち6分野に対しては語種情報の付与も行なった。
|
-
[Publications] Kageura, K.: "The Dynamics of Morphemes in Japanese Terminology."Journal of Natural Language Processing. 10(4). 125-144 (2003)
-
[Publications] 影浦峡: "未出現事象の比率を推定する---Good-Turing推定の直感的意味づけ"計量国語学. 24(4). (2004)
-
[Publications] Kageura, K.: "On Some Statistical Measures for Corpus-based Lexicology"Actas de VIII Simposio Internasional de Communicacion Social.. 8. 456-459 (2003)
-
[Publications] 影浦峡: "テキスト・コーパスからの語構成要素の語彙論的特徴の復元について"言語処理学会第9回年次大会. 270-273 (2003)
-
[Publications] Kageura, K.: "The Dyanmics of Terminology."John Benjamins.. 322 (2002)