2004 Fiscal Year Annual Research Report
Project/Area Number |
16540364
|
Research Institution | Japan Atomic Energy Agency |
Principal Investigator |
佐々木 明 特殊法人日本原子力研究所, 関西研究所光量子科学研究センター, 副主任研究員 (10215709)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 隆子 大学共同利用機関法人, 自然科学研究機構・核融合科学研究所, 教授 (20115546)
城 和貴 国立大学法人, 奈良女子大学・理学部, 教授 (90283928)
PICHL Lucas 会津大学, コンピュータ理工学部, 講師 (10343394)
大石 雅俊 大学共同利用機関法人, 自然科学研究機構・国立天文台, 助教授 (00183757)
村田 真樹 情報通信研究機構, 自然言語グループ, 主任研究員 (50358884)
|
Keywords | 原子分子データ / データマイニング / 情報検索 / データベース / 原子分子過程 / 機械学習 / 自然言語処理 / 学習ベクトル量子化 |
Research Abstract |
本研究は、原子分子物理学の専門知識とコンピュータによる情報検索の技術を結び付けることによって、原子分子データベースの質、量を画期的に改善することを目標とする。従来、原子分子データベースの構築は、人間の研究者がデータが記載されている論文を発見し、データを読み取って抽出する作業によって行われてきた。本研究ではこのうち原子分子データが記載されている論文を発見する過程が計算機により自動化できる可能性を持つことに注目した。すなわち、論文の内容を何らかの方法で数理モデル化すれば、予め原子分子データが記載されていることが分かっている論文との類似性を計算、評価できると考えられるからである。本研究では、学術論文を抄録に含まれている用語の出現頻度を用いてモデル化し、予め原子分子データが記述されていることが分かっている論文の集合(Y.Itikawa, ADANDT, 63, 315(1996).)を学習データとするLVQ(Learning Vector Quantization)法による機械学習を用い、与えられた論文に対して原子分子データが記載されているかどうかを判定するプログラムを試作し、テストデータを対象にして原子分子データの記載の有無を判定する実験を行なった。一方、判定の正答率、適合率や再現性は、論文中で原子分子物理学に特異的に現れる表現を活用することにより向上することが予想される。本研究では、論文中で原子・イオン種、電子配置、スペクトル項などの原子分子の状態を表す表現は原子分子物理学に特有な固有表現であり、しかも電子文書中ではTeXやHTMLの特定の規則を利用して表現されることに注目し、これらを抽出する方法の検討を行った。そして、物理学の各分野の論文の集合を対象として、原子分子の状態を表す固有表現の出現確率を評価したところ、原子分子データが記載されている論文とそうでない論文とで出現確率が顕著に異なることが分かった。用語および原子分子の状態を表す表現を組み合わせて用いることが、判定の適合率や再現性の向上に役立つと考えられる。
|
Research Products
(4 results)