• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2020 年度 実施状況報告書

マテリアルキュレーションのための物性間関係性データ作成・検索技術

研究課題

研究課題/領域番号 19K05287
研究機関国立研究開発法人物質・材料研究機構

研究代表者

吉武 道子  国立研究開発法人物質・材料研究機構, 機能性材料研究拠点, 主席研究員 (70343837)

研究期間 (年度) 2019-04-01 – 2023-03-31
キーワード数式 / MathML
研究実績の概要

材料科学系の教科書・専門書の電子ファイルの形式を調査した。その結果、PDF形式で提供されている書籍が最も多く、最近ではePUB形式でも提供されていることが判明した。ePUB形式はテキスト処理できる形式であるが、数式は画像として埋め込まれている場合がほとんどで有り、数式の抽出という今回の目的に対してはePUB形式のメリットが無いことが判明した。また、そのまま直接テキスト処理が可能なXML形式で提供されている書籍はほぼ皆無であることが判明した。そのため、PDF形式から数式をテキスト処理できるXHTML形式に変換する必要がある。PDF形式の書籍を、数式の変換精度に特化した市販のOCRを用いてXHTML形式に変換し、このXHTML形式に変換された書籍からpresentation MathML形式で表現されている数式部分を抽出するプログラムを開発した。
presentation MathMLの<mi *>と</mi>で挟まれた文字列を、数式の変数名として抽出するプログラムを開発した。なお、変数名として上付き下付き文字が添えてある変数も存在し、それらについては<msub></msub>および<msup></msup>をpresentation MathML中から抽出することで、上付き下付き文字にも対応するようにした。ただし、上付き文字で<msup></msup>で囲まれた文字が<mn></mn>で挟まれている場合には、上付きの意味がべき乗を表すとして変数名に含めないようにした。
次に、数式の前後の文書中から、変数名を含むフレーズを抜き出すプログラムを開発した。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

数式の抽出プログラムが開発できたから。

今後の研究の推進方策

変数名の説明文をコンピュータプログラムにより自動的に抽出する技術の開発を行う。

次年度使用額が生じた理由

新型コロナウィルスのため緊急事態宣言発令や企業が来客を制限したことにより、数回にわたる対面打ち合わせが不可欠な特注ソフトウェアの仕様を詰めることができず、年度内納品が無理と判断されたため、発注ができなかったから。今年度既に何回か打ち合わせを行い、近々当該ソフトウェアを発注する予定で有る。

  • 研究成果

    (3件)

すべて 2020

すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件) 学会発表 (2件) (うち国際学会 1件、 招待講演 1件)

  • [雑誌論文] マテリアルキュレーションRー科学法則を俯瞰的に利用した材料探索法ー2020

    • 著者名/発表者名
      吉武道子
    • 雑誌名

      J. Comput. Chem. Jpn

      巻: 19 ページ: 36,42

    • DOI

      10.2477/jccj.2020-0004

    • 査読あり / オープンアクセス
  • [学会発表] マテリアルキュレーションRとその支援システム:科学原理を分野横断的・俯瞰的に探索2020

    • 著者名/発表者名
      吉武 道子
    • 学会等名
      PSA-20
  • [学会発表] Natural Language Processing for Materials Science2020

    • 著者名/発表者名
      Michiko Yoshitake
    • 学会等名
      VITC-2020
    • 国際学会 / 招待講演

URL: 

公開日: 2021-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi