2020 Fiscal Year Research-status Report
マテリアルキュレーションのための物性間関係性データ作成・検索技術
Project/Area Number |
19K05287
|
Research Institution | National Institute for Materials Science |
Principal Investigator |
吉武 道子 国立研究開発法人物質・材料研究機構, 機能性材料研究拠点, 主席研究員 (70343837)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 数式 / MathML |
Outline of Annual Research Achievements |
材料科学系の教科書・専門書の電子ファイルの形式を調査した。その結果、PDF形式で提供されている書籍が最も多く、最近ではePUB形式でも提供されていることが判明した。ePUB形式はテキスト処理できる形式であるが、数式は画像として埋め込まれている場合がほとんどで有り、数式の抽出という今回の目的に対してはePUB形式のメリットが無いことが判明した。また、そのまま直接テキスト処理が可能なXML形式で提供されている書籍はほぼ皆無であることが判明した。そのため、PDF形式から数式をテキスト処理できるXHTML形式に変換する必要がある。PDF形式の書籍を、数式の変換精度に特化した市販のOCRを用いてXHTML形式に変換し、このXHTML形式に変換された書籍からpresentation MathML形式で表現されている数式部分を抽出するプログラムを開発した。 presentation MathMLの<mi *>と</mi>で挟まれた文字列を、数式の変数名として抽出するプログラムを開発した。なお、変数名として上付き下付き文字が添えてある変数も存在し、それらについては<msub></msub>および<msup></msup>をpresentation MathML中から抽出することで、上付き下付き文字にも対応するようにした。ただし、上付き文字で<msup></msup>で囲まれた文字が<mn></mn>で挟まれている場合には、上付きの意味がべき乗を表すとして変数名に含めないようにした。 次に、数式の前後の文書中から、変数名を含むフレーズを抜き出すプログラムを開発した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
数式の抽出プログラムが開発できたから。
|
Strategy for Future Research Activity |
変数名の説明文をコンピュータプログラムにより自動的に抽出する技術の開発を行う。
|
Causes of Carryover |
新型コロナウィルスのため緊急事態宣言発令や企業が来客を制限したことにより、数回にわたる対面打ち合わせが不可欠な特注ソフトウェアの仕様を詰めることができず、年度内納品が無理と判断されたため、発注ができなかったから。今年度既に何回か打ち合わせを行い、近々当該ソフトウェアを発注する予定で有る。
|
Research Products
(3 results)