研究課題/領域番号 |
19K05287
|
研究機関 | 国立研究開発法人物質・材料研究機構 |
研究代表者 |
吉武 道子 国立研究開発法人物質・材料研究機構, 機能性材料研究拠点, 主席研究員 (70343837)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
キーワード | 数式 / MathML |
研究実績の概要 |
材料科学系の教科書・専門書の電子ファイルの形式を調査した。その結果、PDF形式で提供されている書籍が最も多く、最近ではePUB形式でも提供されていることが判明した。ePUB形式はテキスト処理できる形式であるが、数式は画像として埋め込まれている場合がほとんどで有り、数式の抽出という今回の目的に対してはePUB形式のメリットが無いことが判明した。また、そのまま直接テキスト処理が可能なXML形式で提供されている書籍はほぼ皆無であることが判明した。そのため、PDF形式から数式をテキスト処理できるXHTML形式に変換する必要がある。PDF形式の書籍を、数式の変換精度に特化した市販のOCRを用いてXHTML形式に変換し、このXHTML形式に変換された書籍からpresentation MathML形式で表現されている数式部分を抽出するプログラムを開発した。 presentation MathMLの<mi *>と</mi>で挟まれた文字列を、数式の変数名として抽出するプログラムを開発した。なお、変数名として上付き下付き文字が添えてある変数も存在し、それらについては<msub></msub>および<msup></msup>をpresentation MathML中から抽出することで、上付き下付き文字にも対応するようにした。ただし、上付き文字で<msup></msup>で囲まれた文字が<mn></mn>で挟まれている場合には、上付きの意味がべき乗を表すとして変数名に含めないようにした。 次に、数式の前後の文書中から、変数名を含むフレーズを抜き出すプログラムを開発した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
数式の抽出プログラムが開発できたから。
|
今後の研究の推進方策 |
変数名の説明文をコンピュータプログラムにより自動的に抽出する技術の開発を行う。
|
次年度使用額が生じた理由 |
新型コロナウィルスのため緊急事態宣言発令や企業が来客を制限したことにより、数回にわたる対面打ち合わせが不可欠な特注ソフトウェアの仕様を詰めることができず、年度内納品が無理と判断されたため、発注ができなかったから。今年度既に何回か打ち合わせを行い、近々当該ソフトウェアを発注する予定で有る。
|