研究概要 |
本研究は,専門分野に現れた新語の中から,専門用語として普及する語を自動的に特定する手法・モデルの開発を目指すものである。そのような目的のもと本年度は,(1)英語の学術雑誌と会議録の本文を,扱いやすいテキストデータとして整備する作業を重点的に行った。本研究は時系列的な計量言語学研究を目指すものであるが,それに適したデータは現在少ない為,上記の作業が必要であった。その結果,Journal of the American Society for Information Science and TechnologyとSIGIRの会議録に含まれる論文,それぞれ1025個,712個をテキスト形式で整備した。(2)語形成にはいくつかのタイプがあるが,本年度は2つの名詞の複合によって生み出された語を調査対象新語とした。また専門用語として普及する,寿命を保つとはどういうことかについて考察を深め,分野においてよく用いられる語,専門的な概念と結びついた語などいくつかの分類可能なタイプを考えた。(3)そして新語の中からそれぞれのタイプに成長する語の自動特定を目指し,これまで提案されてきた専門用語自動抽出手法のいくつかを適用し,有効性を検証した。その結果,概念と結びついた語になる新語の特定にはTFIDFの利用が効果的であること,よく用いられる語の特定には,語構成要素の名詞の出現頻度と共起頻度及び両者の増加率への着目が効果的であることが確認された。
|