2022 Fiscal Year Research-status Report
技術文書中の画像と説明文の対応付けによる知識体系の構築
Project/Area Number |
22K12154
|
Research Institution | Chuo University |
Principal Investigator |
難波 英嗣 中央大学, 理工学部, 教授 (50345378)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 特許 / フローチャート / 説明文生成 / 上位下位関係 / T5 |
Outline of Annual Research Achievements |
幅広い分野の一連の手続きに関する知識をテキストから自動抽出し、それらを体系化することを目指している。2022年度は、(1)特許中の図表の自動分類、(2)自然言語文の構造解析、(3)多言語(日英中)上位下位関係の抽出に取り組んだ。 (1)について、特許中に記載される図表画像の中からフローチャートを自動抽出することで、フローチャート画像とその説明文の11,188対から構成されるコーパスを構築した。このコーパスの有効性を確認するため、フローチャート画像からの説明文の自動生成を行った。説明文の生成では、フローチャート画像からGoogle Cloud Vision APIを用いて文字列を抽出し、この文字列から説明文を自動生成するために、Text-To-Text Transfer Transformer(T5)を用いて学習した。実験の結果、複雑な形状のフローチャートについては課題が残るものの、質の高い説明文が生成できることが確認できた。 (2)について、米国特許を対象に、特許請求項から主要部、構成要素、手順に関する文字列を抽出する手法について検討した。抽出には、T5、Bi-LSTM-CRF、CRFを用いた。実験の結果、T5が最も優れており、特に再現率を大幅に改善できることがわかった。 (3)について、リンク予測モデルによる日英中上位下位関係の自動抽出を行った。まず、GANを用いて上位下位関係にある用語を識別する。次に、前の手順で構築された上位下位関係のグラフに対し、ConvEとGraphSAGEを組み合わせたリンク予測を行い、本来であれば上位下位関係にあるべき欠落したエッジを予測する。提案手法の有効性を確認するために行った実験では、GANを用いた上位下位関係の識別およびConvEとGraphSAGEを組み合わせたリンク予測の両方において、提案手法が従来手法よりも優れていることがわかった。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
2022年度は、(i)特許中の図表の種別の判定および自然言語文の要約の構造解析および(ii)図表と構造解析された特許要約との対応付けが当初の目標であった。これらについては、研究実績の概要欄でも述べたとおり、実現できたと言えるレベルに到達した。これに加え、2023年度に実施を予定していた(iii)特許分類を用いた知識体系の構築について、日英中の上位下位関係の抽出を2022年度に行っていることから、当初の計画以上に進展していると判断できる。
|
Strategy for Future Research Activity |
2023年度は、2022年度に着手した(iii)特許分類を用いた知識体系の構築について、さらなる改善を目指す。さらに、2022年度に構築したフローチャート画像とその説明文の11,188対から構成されるコーパスと、請求項の構造解析システムを用い、知識体系の構築を目指す。
|
Causes of Carryover |
2022年度に大規模特許データ処理用計算機サーバを購入するための予算を計上していたが、前年度に学内研究費で購入したサーバで十分対応できることが判明し、2022年度にサーバを購入する必要がなくなったため、その分の予算を来年度に繰り越すことにした。2022年度の研究成果を2023年度に複数の国際会議で発表する予定であるため、旅費に利用する。
|
Research Products
(3 results)