2019 Fiscal Year Research-status Report
マテリアルキュレーションのための物性間関係性データ作成・検索技術
Project/Area Number |
19K05287
|
Research Institution | National Institute for Materials Science |
Principal Investigator |
吉武 道子 国立研究開発法人物質・材料研究機構, 国際ナノアーキテクトニクス研究拠点, 主席研究員 (70343837)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 物性間関係性 / テキストデータ / 数式 / MathML |
Outline of Annual Research Achievements |
物性間関係性が記述された信頼できる文書としては、定評のある教科書的な書籍が好ましい。コンピュータ処理を行う対象としては、印刷媒体ではなく電子書籍の形が必須である。現状、定評のある教科書的な書籍のほとんどは、電子書籍の入手が可能であっても、PDF形式(イメージデータで、テキストデータではない)で供給されている。そこでまず、PDFをテキスト形式に変換する必要があり、それはOCRとして知られているが、今回、数式の形で物性間関係性の抽出を試みるために、通常のOCRではなく、数式は通常のテキスト部分とは区別して記述されるXHML形式に変換できるOCRを探した。その結果、InftyReaderというソフトウェアを見つけ、電子書籍のPDFファイルをXHMLファイルへ変換し、その変換精度を検証した。また、この変換で得られるXHML形式では、<math>というタグで認識できる数式は、表示のために用いられる presentation MathML(国際規格がある)という形式で、数式の意味は表していない。物性間の関係性を抽出するには、数式の意味を表す content MathML(国際規格がある)という形式に変換する必要があり、presentation MathML と content MathML との間の対応関係、変数の記述の違い、演算の記述の違いなどを検討した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
PDF(イメージ)形式の文書から、数式をテキストとして抽出する方法を確立した。
|
Strategy for Future Research Activity |
抽出された数式を、数式として意味のある content MathML に自動変換すること、content MathML を Python の SymPy モジュールに入力できる形にして式変形を可能にすること、元の XHML形式の書籍データから、数式(presentation MathML)とその表現における変数に相当するテキスト(例えば T なら「絶対温度」など)との対応を自動的に見つける方法を探求する。
|