2008 Fiscal Year Annual Research Report

連接語に着目した専門用語の体系化および技術動向分析への応用

Research Project

Project/Area Number	19700152
Research Institution	Hiroshima City University
Principal Investigator	難波英嗣 Hiroshima City University, 情報科学研究科, 講師 (50345378)
Keywords	専門用語 / 技術動向分析 / 分布類似度 / 情報抽出 / 機械翻訳 / テキストマイニング
Research Abstract	「自然言語処理」分野に含まれる専門用語「形態素解析」と「機械翻訳」は, いずれもシステムの入力 (処理対象) が自然言語であるという共通の性質を持つ. 平成20年度は, 用語間の意味的な類似性を測る分布類似度という尺度を用い, このような共通の性質を持つ専門用語の自動収集を試みた. 分布類似度は, ある用語と別の用語が意味的に類似していれば, その文脈に数多くの用語が共通して出現する, という仮定に基づいた尺度であり, 近年, 自然言語処理分野において, 類義語抽出の有効な手段のひとつとして認識されてきている. 本研究では, 分布類似度を, 類義語抽出の手法としてだけでなく, 共通の性質を持つ用語の収集にも利用できると考え, 1993年〜2002年の公開特許公報に含まれる約4億5千万文を用いて, システムの構築を行った. 現在, その検証を行っている. 平成20年度は, この他, 技術動向分析システムの改良を行った. 研究代表者は, これまでに「サポートベクトルマシンを用いたテキスト自動要約」といった論文表題から, 「を用いた」のような手掛かり句に着目することで, この論文の主題として「テキスト自動要約」, 要素技術として「サポートベクトルマシン」を抽出する手法を提案してきた. 平成20年度は, この手法を英語論文にも拡張し, 日英論文を対象にした言語横断技術動向分析システムを構築した. 英語論文表題の構造は, 日本語論文の表題と比べ多様であり, 日本語論文の表題解析手法と同様の方法では十分な解析精度が得られない, という問題があった. そこで, 英語論文表題の構造を解析する際, 機械翻訳技術と日本語論文の表題構造解析技術も併せて用いることにより, 精度の向上を試みた. 実験により, 精度78.0%, 再現率75.2%の解析精度が得られ, 提案手法の有効性が確認された.

Research Products
(2 results)

All Presentation (2 results)

[Presentation] Hiroshima City University at NTCIR-7 Patent Mining Task2008
- Author(s)
  Hidetsugu Nanba
- Organizer
  Proceedings of the 7^<th> NTCIR Workshop Meeting, pp.369-372
- Place of Presentation
  National Center of Science
- Year and Date
  2008-12-17
[Presentation] 翻訳知識を用いた英語論文表題の構造解析2008
- Author(s)
  近藤友樹, 難波英嗣, 竹澤寿幸
- Organizer
  情報処理学会自然言語処理研究会NL-187, pp.37-43
- Place of Presentation
  熱海金城館
- Year and Date
  2008-09-24