• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

専門用語における新語の寿命を予測するモデルの構築

研究課題

研究課題/領域番号 15700216
研究種目

若手研究(B)

配分区分補助金
研究分野 情報図書館学・人文社会情報学
研究機関国立情報学研究所

研究代表者

辻 慶太  国立情報学研究所, 人間・社会情報研究系, 助手 (30333545)

研究期間 (年度) 2003 – 2004
研究課題ステータス 完了 (2004年度)
配分額 *注記
1,400千円 (直接経費: 1,400千円)
2004年度: 500千円 (直接経費: 500千円)
2003年度: 900千円 (直接経費: 900千円)
キーワード新語 / 専門用語 / 寿命 / 時系列 / 自動抽出 / 用語抽出 / 経年変化 / コーパス
研究概要

本研究は,専門分野に現れた新語の中から,その分野で重要な語として一定の寿命を享受する語を,自動的に特定する手法・モデルの開発を目指すものである。そのような目的のもと,昨年度は英語学術雑誌の本文データを整備したが,本年度はそれらデータに基づく調査結果を集計した。まず専門分野において重要な語として4つのタイプを考えた。即ち,(1)よく用いられ頻度が高い語,(2)文献のトピックになりやすい語,(3)その分野の中心的な概念を表す語から構成される語,(4)特定の文脈に限って現れる語,の4つである。分析ではまず先述の本文データを,発表期間の観点から新旧2つに分け,新旧が重なる期間に初出した語を新語とみなした。そして後半期間において上記4つの特徴を持つ語を,前半期間のデータから予測可能とする手法の開発に取り組んだ。4つの特徴を数値化する尺度としてはそれぞれ,頻度,TFIDF,専門用語抽出研究におけるNakagawaの尺度,同じくHisamitsuの尺度,を用いた。その結果,頻度が高くなる複合語は,前半期間において語構成要素同士の共起度が,初出時にかけて徐々に増加すること,前半期間におけるHisamitsuの値が有意に高いことが判明した。(2)のTFIDFが後半期間に高くなる語は,(1)とも重なるが,前半期間におけるHisamitsuの値が高く,特定の文脈で出現する傾向が強いことが判明した。(3)のNakagawaの値が後半期間に高くなる語は,前半期間における値も既に高いこと,また(4)のHisamitsuの値が後半期間に高くなる語は,前半期間におけるNakagawaの値が有意に低いこと,即ち,初出時は結合力(生産性)の低い語構成要素で作られていることが判明した。複合語の語構成要素に注目すると,高頻度のヘッドと,頻度を増している修飾語という組合せの語が,後半期間において頻度を増すことなどが明らかとなった。

報告書

(2件)
  • 2004 実績報告書
  • 2003 実績報告書
  • 研究成果

    (2件)

すべて その他

すべて 文献書誌 (2件)

  • [文献書誌] 辻慶太, 芳鐘冬樹: "専門分野において重要となる新語の特定に向けた基礎研究"言語処理学会第10回年次大会発表論文集. 189-192 (2004)

    • 関連する報告書
      2003 実績報告書
  • [文献書誌] 辻慶太, 芳鐘冬樹: "専門用語として普及しそうな語の自動抽出"第51回日本図書館情報学会研究大会発表要綱. 105-108 (2003)

    • 関連する報告書
      2003 実績報告書

URL: 

公開日: 2003-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi