科学技術論文からの統合的な構造解析に関する研究

研究課題

研究課題/領域番号	18K18109
研究種目	若手研究
配分区分	基金
審査区分	小区分61030:知能情報学関連
研究機関	奈良先端科学技術大学院大学
研究代表者	進藤裕之奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 特任准教授 (20734784)
研究期間 (年度)	2018-04-01 – 2022-03-31
研究課題ステータス	完了 (2021年度)
配分額 *注記	4,030千円 (直接経費: 3,100千円、間接経費: 930千円) 2020年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円) 2019年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2018年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
キーワード	論文解析 / 自然言語処理 / 構文解析 / オブジェクト検出 / 構造解析 / PDF / XML / 知識獲得 / 情報抽出 / 科学技術論文 / 意味解析 / 関係抽出
研究成果の概要	科学技術論文の出版数は加速度的に増大しており，個人が必要な論文を検索し，その全てに目を通すことは困難である．そこで本研究では，論文に含まれる本文，数式，図表などの領域や構造を解析し，XMLなどの構造化フォーマットへ自動変換するためのモデルおよびアルゴリズム構築を行った．特に，材料科学の文献を主なターゲットとして，図表や数式の領域は画像処理によって検出し，本文や表の構造は自然言語処理の構造解析技術を援用した統合的な解析手法を実現した．また，モデルの訓練や評価に必要な図表領域のデータセットや，本文および表の構造に関するデータセットなどのリソースを構築し，論文の統合的な構造解析を行う技術を確立した．
研究成果の学術的意義や社会的意義	本研究により，PDF形式の論文データを入力として，図表，数式，段落などのオブジェクトを抽出することや，表の内部構造（ヘッダや行列）を取得することができるようになった．そのため，ある分野における論文の実験データを網羅的に収集することや，図表に記述されている情報の細かい分析や検索が可能になると考えられる．また，本技術を用いて様々な分野の論文を構造化して知識データベースを構築し，ユーザーが閲覧できるようなサービスの実現も可能となる．

報告書

(5件)

研究成果
(21件)

すべて 2021 2020 2019 2018

すべて雑誌論文 (5件) (うち査読あり 5件、オープンアクセス 2件) 学会発表 (16件) (うち国際学会 14件)

[雑誌論文] Machine extraction of polymer data from tables using XML versions of scientific articles2021
- 著者名/発表者名
  Hiroyuki Oka, Atsushi Yoshizawa, Hiroyuki Shindo, Yuji Matsumoto, Masashi Ishii
- 雑誌名
  
  SCIENCE AND TECHNOLOGY OF ADVANCED MATERIALS: METHODS
  
  巻: 1 号: 1 ページ: 12-23
- DOI
  10.1080/27660400.2021.1899456
- 関連する報告書
  2021 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] 複単語表現を考慮した依存構造コーパスの構築と解析2019
- 著者名/発表者名
  Kato Akihiko、Shindo Hiroyuki、Matsumoto Yuji
- 雑誌名
  
  自然言語処理
  
  巻: 26 号: 4 ページ: 663-688
- DOI
  10.5715/jnlp.26.663
- NAID
  130007808657
- ISSN
  1340-7619, 2185-8314
- 年月日
  2019-12-15
- 関連する報告書
  2019 実施状況報告書
- 査読あり
[雑誌論文] Development of a computer-assisted Japanese functional expression learning system for Chinese-speaking learners2019
- 著者名/発表者名
  Liu, J., Shindo, H. and Matsumoto, Y
- 雑誌名
  
  Educational Technology Research and Development
  
  巻: 67 号: 5 ページ: 1307-1331
- DOI
  10.1007/s11423-019-09669-0
- 関連する報告書
  2019 実施状況報告書
- 査読あり
[雑誌論文] Autoencoder for Semisupervised Multiple Emotion Detection of Conversation Transcripts2018
- 著者名/発表者名
  Phan Duc-Anh、Matsumoto Yuji、Shindo Hiroyuki
- 雑誌名
  
  IEEE Transactions on Affective Computing
  
  巻: 1 号: 3 ページ: 1-11
- DOI
  10.1109/taffc.2018.2885304
- 関連する報告書
  2018 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Similarity and Replaceability Feature Representations of Word Sequences for Identifying Coordination Boundaries2018
- 著者名/発表者名
  Teranishi Hiroki、Shindo Hiroyuki、Matsumoto Yuji
- 雑誌名
  
  Journal of Natural Language Processing
  
  巻: 25 号: 4 ページ: 441-462
- DOI
  10.5715/jnlp.25.441
- NAID
  130007531010
- 関連する報告書
  2018 実施状況報告書
- 査読あり
[学会発表] A Generative Approach for End-to-End Relation Extraction2021
- 著者名/発表者名
  Shanshan Liu, Tatsuya Ishigaki, Yui Uehara, Hiroya Takamura, Chowdhury Mohammad Mahir Asef, Mutsunori Uenuma, Hiroyuki Shindo, Yuji Matsumoto
- 学会等名
  Fifth International Workshop on Scientific Document Analysis
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] Automatic extraction of text data of synthesis process for papers on bulk thermoelectric materials2021
- 著者名/発表者名
  Mohammad Mahir Asef Chowdhury, Mutsunori Uenuma, Shanshan Liu, Hiroyuki Shindo, Yuji Matsumoto, Yukiharu Uraoka
- 学会等名
  Virtual Conference on Thermoelectrics
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] Nested Named Entity Recognition via Explicitly Excluding the Influence of the Best Path2021
- 著者名/発表者名
  Yiran Wang, Hiroyuki Shindo, Yuji Matsumoto, Taro Watanabe
- 学会等名
  The Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] Structured Refinement for Sequential Labeling2021
- 著者名/発表者名
  Yiran Wang, Hiroyuki Shindo, Yuji Matsumoto, Taro Watanabe
- 学会等名
  The Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Findings)
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] ラベルの不均衡を考慮したEnd-to-End情報抽出モデルの学習2021
- 著者名/発表者名
  山口泰弘, 進藤裕之, 渡辺太郎
- 学会等名
  言語処理学会第27回年次大会(NLP2021)
- 関連する報告書
  2020 実施状況報告書
[学会発表] 遺伝子二重欠失研究のための関連論文検索手法2021
- 著者名/発表者名
  平野颯, 野村航, 進藤裕之, 渡辺太郎
- 学会等名
  言語処理学会第27回年次大会(NLP2021)
- 関連する報告書
  2020 実施状況報告書
[学会発表] LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention2020
- 著者名/発表者名
  Ikuya Yamada, Akari Asai, Hiroyuki Shindo, Hideaki Takeda, Yuji Matsumoto
- 学会等名
  In Proceedings of EMNLP
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] Wikipedia2Vec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from Wikipedia2020
- 著者名/発表者名
  Ikuya Yamada, Akari Asai, Jin Sakuma, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, Yuji Matsumoto
- 学会等名
  In Proceedings of EMNLP (demo)
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] Decomposed Local Models for Coordinate Structure Parsing2019
- 著者名/発表者名
  Hiroki Teranishi, Hiroyuki Shindo, Yuji Matsumoto
- 学会等名
  In Proceedings of NAACL
- 関連する報告書
  2019 実施状況報告書
- 国際学会
[学会発表] Stochastic Tokenization with a Language Model for Neural Text Classification2019
- 著者名/発表者名
  Tatsuya Hiraoka, Hiroyuki Shindo, Yuji Matsumoto
- 学会等名
  In Proceedings of ACL, 2019
- 関連する報告書
  2019 実施状況報告書
- 国際学会
[学会発表] Relation Classification Using Segment-Level Attention-based CNN and Dependency-based RNN2019
- 著者名/発表者名
  Van-Hien Tran, Hiroyuki Shindo, Yuji Matsumoto
- 学会等名
  In Proceedings of NAACL, 2019
- 関連する報告書
  2019 実施状況報告書
- 国際学会
[学会発表] Automatic extraction of polymer data from tables in xml2018
- 著者名/発表者名
  Hiroyuki Oka, Hiroyuki Shindo, Keisuke Goto, Yuji Matsumoto, Atsushi Yoshizawa, Isao Kuwajima and Masashi Ishii
- 学会等名
  In Proceedings of SCIDOCA
- 関連する報告書
  2018 実施状況報告書
- 国際学会
[学会発表] Line Detection Considering Spatial Context for Reading Line Charts2018
- 著者名/発表者名
  Keisuke Goto, Hiroyuki Shindo and Yuji Matsumoto
- 学会等名
  In Proceedings of SCIDOCA
- 関連する報告書
  2018 実施状況報告書
- 国際学会
[学会発表] Translating Chemical Substance Names using Attentional Encoder-Decoder2018
- 著者名/発表者名
  Shuhei Kondo, Yuji Matsumoto and Hiroyuki Shindo
- 学会等名
  In Proceedings of SCIDOCA
- 関連する報告書
  2018 実施状況報告書
- 国際学会
[学会発表] A Span Selection Model for Semantic Role Labeling2018
- 著者名/発表者名
  Hiroki Ouchi, Hiroyuki Shindo and Yuji Matsumoto
- 学会等名
  In Proceedings of EMNLP, 2018
- 関連する報告書
  2018 実施状況報告書
- 国際学会
[学会発表] Representation Learning of Entities and Documents from Knowledge Base Descriptions2018
- 著者名/発表者名
  Ikuya Yamada and Hiroyuki Shindo
- 学会等名
  In Proceedings of COLING, 2018
- 関連する報告書
  2018 実施状況報告書
- 国際学会

科学技術論文からの統合的な構造解析に関する研究

研究代表者

進藤 裕之 奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 特任准教授 (20734784)

4,030千円 (直接経費: 3,100千円、間接経費: 930千円)

報告書

研究成果

[雑誌論文] Machine extraction of polymer data from tables using XML versions of scientific articles2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] 複単語表現を考慮した依存構造コーパスの構築と解析2019

著者名/発表者名

雑誌名

DOI

NAID

ISSN

年月日

関連する報告書

[雑誌論文] Development of a computer-assisted Japanese functional expression learning system for Chinese-speaking learners2019

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Autoencoder for Semisupervised Multiple Emotion Detection of Conversation Transcripts2018

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Similarity and Replaceability Feature Representations of Word Sequences for Identifying Coordination Boundaries2018

著者名/発表者名

雑誌名

DOI

NAID

関連する報告書

[学会発表] A Generative Approach for End-to-End Relation Extraction2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Automatic extraction of text data of synthesis process for papers on bulk thermoelectric materials2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Nested Named Entity Recognition via Explicitly Excluding the Influence of the Best Path2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Structured Refinement for Sequential Labeling2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] ラベルの不均衡を考慮したEnd-to-End情報抽出モデルの学習2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 遺伝子二重欠失研究のための関連論文検索手法2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] Wikipedia2Vec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from Wikipedia2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] Decomposed Local Models for Coordinate Structure Parsing2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] Stochastic Tokenization with a Language Model for Neural Text Classification2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] Relation Classification Using Segment-Level Attention-based CNN and Dependency-based RNN2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] Automatic extraction of polymer data from tables in xml2018

進藤裕之奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 特任准教授 (20734784)