• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Research-status Report

マテリアルキュレーションのための物性間関係性データ作成・検索技術

Research Project

Project/Area Number 19K05287
Research InstitutionNational Institute for Materials Science

Principal Investigator

吉武 道子  国立研究開発法人物質・材料研究機構, 国際ナノアーキテクトニクス研究拠点, 主席研究員 (70343837)

Project Period (FY) 2019-04-01 – 2023-03-31
Keywords物性間関係性 / テキストデータ / 数式 / MathML
Outline of Annual Research Achievements

物性間関係性が記述された信頼できる文書としては、定評のある教科書的な書籍が好ましい。コンピュータ処理を行う対象としては、印刷媒体ではなく電子書籍の形が必須である。現状、定評のある教科書的な書籍のほとんどは、電子書籍の入手が可能であっても、PDF形式(イメージデータで、テキストデータではない)で供給されている。そこでまず、PDFをテキスト形式に変換する必要があり、それはOCRとして知られているが、今回、数式の形で物性間関係性の抽出を試みるために、通常のOCRではなく、数式は通常のテキスト部分とは区別して記述されるXHML形式に変換できるOCRを探した。その結果、InftyReaderというソフトウェアを見つけ、電子書籍のPDFファイルをXHMLファイルへ変換し、その変換精度を検証した。また、この変換で得られるXHML形式では、<math>というタグで認識できる数式は、表示のために用いられる presentation MathML(国際規格がある)という形式で、数式の意味は表していない。物性間の関係性を抽出するには、数式の意味を表す content MathML(国際規格がある)という形式に変換する必要があり、presentation MathML と content MathML との間の対応関係、変数の記述の違い、演算の記述の違いなどを検討した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

PDF(イメージ)形式の文書から、数式をテキストとして抽出する方法を確立した。

Strategy for Future Research Activity

抽出された数式を、数式として意味のある content MathML に自動変換すること、content MathML を Python の SymPy モジュールに入力できる形にして式変形を可能にすること、元の XHML形式の書籍データから、数式(presentation MathML)とその表現における変数に相当するテキスト(例えば T なら「絶対温度」など)との対応を自動的に見つける方法を探求する。

  • Research Products

    (1 results)

All 2020

All Presentation (1 results)

  • [Presentation] 文書ファイルからの数式抽出と式変形の試み2020

    • Author(s)
      吉武 道子
    • Organizer
      応用物理学会

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi