研究課題/領域番号 |
19K05287
|
研究機関 | 国立研究開発法人物質・材料研究機構 |
研究代表者 |
吉武 道子 国立研究開発法人物質・材料研究機構, 機能性材料研究拠点, 主席研究員 (70343837)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
キーワード | 数式 / 変数 / 自然言語処理 / 構文解析 / 深層学習 |
研究実績の概要 |
材料科学の教科書類の文章を、通常提供されるPDF形式からXHTML形式に変換し、XHTML形式の文章から、①教科書中の数式を抽出し、②数式中の変数の記号を抽出し、③数式の前後の文章から、数式中の変数記号の文字を含む文を抽出する、をコンピュータで自動で行うプログラムを開発した。 開発したプログラムにより抽出された、変数記号の文字を含む多数の文に、それぞれ文中から変数記号の意味を示す文節を手作業で抽出した。変数記号の意味を示す文節が含まれていない場合は、nullとした。 変数記号・変数記号の文字を含む文・変数記号の意味を示す文節をひとまとまりとするデータを作成し、その規則性などを吟味し、変数記号と変数記号の文字を含む文を入力として、変数記号の意味を示す文節をコンピュータにより自動抽出する方法の検討を行った。 具体的には、a)ある程度の規則があるように見える、変数記号の文字を含む文と変数記号の意味を示す文節との文法的構造をルールベースで抽出、b)ルールベースでは別パターンとされてしまうが文法的構造は同一な規則を抽出できる構文解析+ルールベースを用いた抽出、c)変数記号と変数記号の文字を含む文を入力とし、変数記号の意味を示す文節を出力とする深層学習を行って学習モデルを作成し、そのモデルを使って抽出する、の3つの方法を検討した。 その結果、一見規則的と見えた文構造でも、著者による表現の揺れが大きくパターンが膨大な数に上ること、同じ文法構造をしていても変数記号の意味を示す文節が含まれていない場合が多く、上記a)、b)の方法でも、機械学習による学習モデル作成が不可欠であることが分かった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2020年度までの、文書のコンピュータ処理に適した形式への変換、物性間の関係性のコンピュータによる定性的自動抽出、それに必要な基盤技術の開発、2021年度の物性間の定量的関係性抽出に向けた数式と数式に含まれる物性名(=変数記号の意味)の抽出、と予定通りに成果が出ているため。
|
今後の研究の推進方策 |
本年度は最終年度なので、上記結果を学会発表するとともに論文として刊行する。また、定性的関係性のネットワーク型データベースのエッジの属性として数式から得られた定量的関係性を埋め込むためのインターフェースとして何が必要かを検討する。
|
次年度使用額が生じた理由 |
昨年度、新型コロナウィルスの発生により、突然対面打ち合わせが不可能となり予定通りの発注ができず、今年度に多額の繰り越しを行った。本年度はその分をある程度取り戻して予算執行を行ったが、依然対面打ち合わせが限定的で繰越額の全額を発注するに至らなかった。対面打ち合わせや学会の現地開催がかなり緩和されてきたため、次年度は繰越金額を含めて予定通り使用できる予定。
|