2012 Fiscal Year Annual Research Report
分野認知レベルに適した検索のための専門度付専門用語シソーラスの構築
Project/Area Number |
22500226
|
Research Institution | National Institute of Informatics |
Principal Investigator |
内山 清子 国立情報学研究所, コンテンツシステム開発室, 特任研究員 (20458970)
|
Project Period (FY) |
2010-04-01 – 2013-03-31
|
Keywords | 分野基礎性 / 専門用語 / 論理構造 |
Research Abstract |
本年度は分野基礎用語を抽出する対象として、教科書、事典、論文の3種類を用意した。用語は、形態素解析を行い品詞が名詞あるいは名詞の連続であるものを抽出した。この3種類とも専門家が執筆したものであるため、これらのリソースから抽出した用語は複数の専門家の判断と同等であると考えられる。詳細は以下の通りである。 (1)教科書:「自然言語処理」分野の日本語の教科書39冊の目次に出現する用語(異なり語数694語) (2)事典:「言語処理学事典」の目次に出現する用語(異なり語数463語) (3)論文:情報処理学会自然言語処理研究会で発表された論文のタイトル、抄録、キーワードに含まれる用語(異なり語数13493語)、教科書と事典の目次に出現する用語に着目した理由として、目次は初心者にもわかりやすい表題および学んでほしい用語を必ず著者が選定する、つまり著者が考える分野基礎用語は目次に含まれると考えたためである。この3種類のリソースに共通して出現する用語は90語であり、この90語を分野基礎用語と選定した。分析の結果から、分野基礎用語が出現する文が研究のどのような内容を表現しているのか(研究の背景、動機、既存研究の比較など)をさらに詳しく分析し、分野基礎用語と共起する用語との文法的関係(主語、目的語、補語、修飾語など)と意味的関係(目的、手法、対象など)を付与するなど、論文の内容理解の支援をする表現方法を検討していく。本研究では、シソーラス構築やシステム応用までには至らなかったが、シソーラス構築に向けた問題点を明らかにし、文章構造を考慮することなど、従来にない分析結果を得ることができた。今後は具体的なシステムへの応用を検討していく予定である。
|
Current Status of Research Progress |
Reason
24年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
24年度が最終年度であるため、記入しない。
|
Research Products
(4 results)