• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2018 年度 実施状況報告書

科学技術論文からの統合的な構造解析に関する研究

研究課題

研究課題/領域番号 18K18109
研究機関奈良先端科学技術大学院大学

研究代表者

進藤 裕之  奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (20734784)

研究期間 (年度) 2018-04-01 – 2021-03-31
キーワード知識獲得 / 情報抽出 / 科学技術論文 / 構文解析 / 意味解析 / 自然言語処理
研究実績の概要

科学技術論文を対象とした情報抽出では,「ある特定のデータやパラメータを用いて実験を行った論文」といった高度な検索を行うことが難しい.これは,論文データから,セクション,段落,数式,図表などの基本的な構造を解析できていないことが根本的な原因の一つである.本研究では,様々な分野の論文を構造化する技術の確立を目指す.
平成30年度は,化学・材料分野,情報分野,バイオロジー分野の3つの専門分野の論文データを収集し,それらに共通の構造について調査を行った.また,それらを集約し,一貫性のあるXMLの仕様を定義する作業を行った.主に,タイトル,セクション,数式,段落,図,表といった基本要素によって,分野によらない論文フォーマットを定義することが可能であることがわかった.また,JATS(既存の科学技術論文フォーマット)は,細かいタグや定義が曖昧なタグが多く,実際の論文では使用されていないものも多い.そこで,JATSを大幅に簡略化したタグ仕様を定義し,それに基づいてPDFを構造化することとした.
次に,上記のXML仕様に基づく学習データ(PDFをXML化するための学習データ)を構築した.具体的には,PubMedのJATS形式の論文とPDFのペアを大量に収集し,それらを変換して,XMLとPDFと対応付ける作業を行った.単純な文字列マッチングでは上手く対応が取れないケースがあり,いくつかの近似文字列マッチングアルゴリズムを考案し,それに基づいて評価実験を行った.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

おおむね順調に進展している.平成30年度は,予定通り,データ収集や仕様定義などの準備作業・環境構築作業が中心であり,来年度からは本格的に技術的な作業へ取り掛かることができる.

今後の研究の推進方策

平成31年度は,平成30年度に構築した学習データを用いて,PDFをXML化する技術の確立を目指す.特に,図表の位置認識や段落の認識が重要であり,この部分に関して変換技術の性能評価を行う予定である.まずは,個々の要素(図,表,数式など)ごとに別々のモデルを考案し,最終的にはそれらを統合して一つのPDF変換プログラムとすることを計画している.また,実際の化学・材料・バイオ研究者と協調し,XML化された論文からどういった情報を抽出するかについて議論し,データフォーマットの定義やアノテーションガイドラインの作成に目途をつける予定である.

次年度使用額が生じた理由

使用物品を予定よりも安価で調達することができたため,若干の次年度使用額が生じた.こちらは次年度の物品費として使用する予定である.

  • 研究成果

    (7件)

すべて 2018

すべて 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 1件) 学会発表 (5件) (うち国際学会 5件)

  • [雑誌論文] Autoencoder for Semisupervised Multiple Emotion Detection of Conversation Transcripts2018

    • 著者名/発表者名
      Phan Duc-Anh、Matsumoto Yuji、Shindo Hiroyuki
    • 雑誌名

      IEEE Transactions on Affective Computing

      巻: 1 ページ: 1~11

    • DOI

      10.1109/TAFFC.2018.2885304

    • 査読あり / オープンアクセス
  • [雑誌論文] Similarity and Replaceability Feature Representations of Word Sequences for Identifying Coordination Boundaries2018

    • 著者名/発表者名
      Teranishi Hiroki、Shindo Hiroyuki、Matsumoto Yuji
    • 雑誌名

      Journal of Natural Language Processing

      巻: 25 ページ: 441~462

    • DOI

      https://doi.org/10.5715/jnlp.25.441

    • 査読あり
  • [学会発表] Automatic extraction of polymer data from tables in xml2018

    • 著者名/発表者名
      Hiroyuki Oka, Hiroyuki Shindo, Keisuke Goto, Yuji Matsumoto, Atsushi Yoshizawa, Isao Kuwajima and Masashi Ishii
    • 学会等名
      In Proceedings of SCIDOCA
    • 国際学会
  • [学会発表] Line Detection Considering Spatial Context for Reading Line Charts2018

    • 著者名/発表者名
      Keisuke Goto, Hiroyuki Shindo and Yuji Matsumoto
    • 学会等名
      In Proceedings of SCIDOCA
    • 国際学会
  • [学会発表] Translating Chemical Substance Names using Attentional Encoder-Decoder2018

    • 著者名/発表者名
      Shuhei Kondo, Yuji Matsumoto and Hiroyuki Shindo
    • 学会等名
      In Proceedings of SCIDOCA
    • 国際学会
  • [学会発表] A Span Selection Model for Semantic Role Labeling2018

    • 著者名/発表者名
      Hiroki Ouchi, Hiroyuki Shindo and Yuji Matsumoto
    • 学会等名
      In Proceedings of EMNLP, 2018
    • 国際学会
  • [学会発表] Representation Learning of Entities and Documents from Knowledge Base Descriptions2018

    • 著者名/発表者名
      Ikuya Yamada and Hiroyuki Shindo
    • 学会等名
      In Proceedings of COLING, 2018
    • 国際学会

URL: 

公開日: 2019-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi