研究課題/領域番号 |
19K05287
|
研究機関 | 国立研究開発法人物質・材料研究機構 |
研究代表者 |
吉武 道子 国立研究開発法人物質・材料研究機構, 国際ナノアーキテクトニクス研究拠点, 主席研究員 (70343837)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
キーワード | 物性間関係性 / テキストデータ / 数式 / MathML |
研究実績の概要 |
物性間関係性が記述された信頼できる文書としては、定評のある教科書的な書籍が好ましい。コンピュータ処理を行う対象としては、印刷媒体ではなく電子書籍の形が必須である。現状、定評のある教科書的な書籍のほとんどは、電子書籍の入手が可能であっても、PDF形式(イメージデータで、テキストデータではない)で供給されている。そこでまず、PDFをテキスト形式に変換する必要があり、それはOCRとして知られているが、今回、数式の形で物性間関係性の抽出を試みるために、通常のOCRではなく、数式は通常のテキスト部分とは区別して記述されるXHML形式に変換できるOCRを探した。その結果、InftyReaderというソフトウェアを見つけ、電子書籍のPDFファイルをXHMLファイルへ変換し、その変換精度を検証した。また、この変換で得られるXHML形式では、<math>というタグで認識できる数式は、表示のために用いられる presentation MathML(国際規格がある)という形式で、数式の意味は表していない。物性間の関係性を抽出するには、数式の意味を表す content MathML(国際規格がある)という形式に変換する必要があり、presentation MathML と content MathML との間の対応関係、変数の記述の違い、演算の記述の違いなどを検討した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
PDF(イメージ)形式の文書から、数式をテキストとして抽出する方法を確立した。
|
今後の研究の推進方策 |
抽出された数式を、数式として意味のある content MathML に自動変換すること、content MathML を Python の SymPy モジュールに入力できる形にして式変形を可能にすること、元の XHML形式の書籍データから、数式(presentation MathML)とその表現における変数に相当するテキスト(例えば T なら「絶対温度」など)との対応を自動的に見つける方法を探求する。
|