研究課題/領域番号 |
22K12154
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 中央大学 |
研究代表者 |
難波 英嗣 中央大学, 理工学部, 教授 (50345378)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2024年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2022年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | 特許 / フローチャート / 説明文生成 / 上位下位関係 / T5 / 論文 / 画像認識 / 自然言語処理 / 知識体系 |
研究開始時の研究の概要 |
特許や論文などの技術文書中の図表は、特許の内容を理解する上で非常に重要な役割を果たしている。本研究では、特許中の図表と自然言語によるその説明文を利用した特定分野の知識体系を構築する手法を提案する。特許要約には、その特許の内容を簡潔に表した自然言語による説明文と代表図面から構成されている。そこで、まず、自然言語処理技術と画像認識技術を用いて、説明文と代表図面の構造をそれぞれ解析し、構造を対応付ける。次に、内容の近い特許を収集し、それらの共通項を見つけることで、その分野固有の手順や装置の構成に関する知識を得る。
|
研究実績の概要 |
幅広い分野の一連の手続きに関する知識をテキストから自動抽出し、それらを体系化することを目指している。2022年度は、(1)特許中の図表の自動分類、(2)自然言語文の構造解析、(3)多言語(日英中)上位下位関係の抽出に取り組んだ。 (1)について、特許中に記載される図表画像の中からフローチャートを自動抽出することで、フローチャート画像とその説明文の11,188対から構成されるコーパスを構築した。このコーパスの有効性を確認するため、フローチャート画像からの説明文の自動生成を行った。説明文の生成では、フローチャート画像からGoogle Cloud Vision APIを用いて文字列を抽出し、この文字列から説明文を自動生成するために、Text-To-Text Transfer Transformer(T5)を用いて学習した。実験の結果、複雑な形状のフローチャートについては課題が残るものの、質の高い説明文が生成できることが確認できた。 (2)について、米国特許を対象に、特許請求項から主要部、構成要素、手順に関する文字列を抽出する手法について検討した。抽出には、T5、Bi-LSTM-CRF、CRFを用いた。実験の結果、T5が最も優れており、特に再現率を大幅に改善できることがわかった。 (3)について、リンク予測モデルによる日英中上位下位関係の自動抽出を行った。まず、GANを用いて上位下位関係にある用語を識別する。次に、前の手順で構築された上位下位関係のグラフに対し、ConvEとGraphSAGEを組み合わせたリンク予測を行い、本来であれば上位下位関係にあるべき欠落したエッジを予測する。提案手法の有効性を確認するために行った実験では、GANを用いた上位下位関係の識別およびConvEとGraphSAGEを組み合わせたリンク予測の両方において、提案手法が従来手法よりも優れていることがわかった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
2022年度は、(i)特許中の図表の種別の判定および自然言語文の要約の構造解析および(ii)図表と構造解析された特許要約との対応付けが当初の目標であった。これらについては、研究実績の概要欄でも述べたとおり、実現できたと言えるレベルに到達した。これに加え、2023年度に実施を予定していた(iii)特許分類を用いた知識体系の構築について、日英中の上位下位関係の抽出を2022年度に行っていることから、当初の計画以上に進展していると判断できる。
|
今後の研究の推進方策 |
2023年度は、2022年度に着手した(iii)特許分類を用いた知識体系の構築について、さらなる改善を目指す。さらに、2022年度に構築したフローチャート画像とその説明文の11,188対から構成されるコーパスと、請求項の構造解析システムを用い、知識体系の構築を目指す。
|