2005 Fiscal Year Annual Research Report
Project/Area Number |
16540364
|
Research Institution | Advanced Photon Research Center, Quantum Beam Science Directorate, Japan Atomic Energy Agency |
Principal Investigator |
佐々木 明 独立行政法人日本原子力研究開発機構, 量子ビーム応用研究部門, 研究副主幹 (10215709)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 隆子 他2名 大学共同利用機関法人, 自然科学研究機構・核融合科学研究所, 教授 (20115546)
城 和貴 奈良女子大学, 理学部, 教授 (90283928)
PICHL Lucas 国際基督教大学, 理学部, 助教授 (10343394)
大石 雅俊 大学共同利用機関法人, 自然科学研究機構・国立天文台, 助教授 (00183757)
村田 真樹 情報通信研究機構, 情報通信研究部門, 主任研究員 (50358884)
|
Keywords | 原子分子データベース / 原子構造 / 原子分子素過程 / 電子衝突断面積 / 情報検索 / 自然言語処理 / データ抽出 / 機械学習 |
Research Abstract |
本研究は、原子分子物理学の専門知識とコンピュータによる言語処理、情報検索の知識を結びつけ、原子分子データベースを画期的に改善する新しい手法を見出すことを目標として行った。従来人手によって行われていたデータベース構築の作業のうち、原子分子データが記述されている論文を発見、収集する過程の自動化の可能性に注目して、それを実現するための要素技術の開発と、その背景にある原子分子物理学の専門知識(構造や表現方法)についての考察を行った。第1にインターネットを介して論文抄録の情報を的確に収集するシステムの研究を行った。第2に、論文中に原子分子データが記述されているかどうかの判定の見地で、原子分子物理学の知識が論文中にどのように表現されるかについて検討した。市川によって収集された原子分子の電子衝突電離、励起過程のデータが記述されている論文の集合を基準とし、論文に付与されている分野を表すコードなどの書誌情報の分析、簡単な文法的規則と語の統計的な性質を利用するコンピュータプログラムによる専門用語の収集、専門用語辞書の構築を行った。また、電子化された論文中で原子分子の状態の情報が決まった規則で記述されることに注目し、原子、イオン、電子配置、スペクトル項、原子核、分子の記述を高い精度で認識し、抽出できるようにし、これによって物理学の各分野の論文の特徴が良く表されることを示した。さらに機械学習によって未知の論文中に原子分子データが記述されているかどうかを判別するソフトウエアの試作と性能の評価を行った。結果として、これらの情報を利用することで、原子分子データが記述されている論文の90%を自動的に収集できることが分かったと同時に、本研究の結果が、研究者による論文内容の理解の支援や、研究のニーズやシーズの調査などへの応用可能性を持つことが分かった。一方、原子分子データが記述されている論文は物理学の論文の総数の1%程度以下であり、論文の判別の精度を高める必要があるが、今後より進んだ検索、処理技術を取り入れて、論文中の情報の統計的、定量的な分析を行うことができれば、実際の原子分子データベース構築の自動化に向けた実用化の可能性があると考えられる。
|
Research Products
(5 results)