• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Deepening linguistic analysis methods for understanding and utilizing real documents

Research Project

Project/Area Number 22K19818
Research Category

Grant-in-Aid for Challenging Research (Exploratory)

Allocation TypeMulti-year Fund
Review Section Medium-sized Section 61:Human informatics and related fields
Research InstitutionNational Institute of Informatics

Principal Investigator

Aizawa Akiko  国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)

Project Period (FY) 2022-06-30 – 2024-03-31
Project Status Completed (Fiscal Year 2023)
Budget Amount *help
¥6,370,000 (Direct Cost: ¥4,900,000、Indirect Cost: ¥1,470,000)
Fiscal Year 2023: ¥3,380,000 (Direct Cost: ¥2,600,000、Indirect Cost: ¥780,000)
Fiscal Year 2022: ¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000)
Keywords文書理解 / 自然言語解析 / 言語モデル / 文書レイアウト / 視覚的言語理解
Outline of Research at the Start

現在の自然言語処理は、入力単位としてトークンの並びである「文」または「文の集合」を想定している。しかし、現実の文書には、レイアウト構造や表示スタイルなどが混然一体となって埋め込まれ、読みを支援する「手がかり」として機能している。本課題では、人間が文書を読む際に利用するこのような手がかりを視覚的・構造的な特徴として抽出し、「文」の意味理解で活用する手法について研究する。

Outline of Final Research Achievements

This study addressed natural language processing methods based on document structure and visual information. Specifically, we focused on three document components: document structure, such as document layout and forms on the interactive web; nonverbal elements in documents, including mathematical expressions and numbers; and editorial attributes of text (capitalization), and proposed analysis and modeling of these elements to demonstrate their effectiveness. We also constructed a document corpus in XML format for international conference papers in natural language processing, in which nonverbal information, including fonts, layouts, charts, and inline mathematical expressions, were added as annotation tags.

Academic Significance and Societal Importance of the Research Achievements

自然言語処理の分野において、文書から自然言語処理ツールで解析可能な文を抽出する処理は、アドホックで自動化が困難な「前処理」とみなされ、従来はあまり注目されてこなかった。しかしながら、2022年における言語モデルの急速な進展により、当初目指していた本テーマの挑戦性が、訓練データと言語モデルの大規模化によって現実に解決可能な問題となってきた。文書AIが大きな注目を集める中で、本研究で提案したフレームワークや構築した資源は今後の研究に資することが期待される。

Report

(3 results)
  • 2023 Annual Research Report   Final Research Report ( PDF )
  • 2022 Research-status Report
  • Research Products

    (6 results)

All 2023

All Journal Article (6 results) (of which Int'l Joint Research: 1 results,  Peer Reviewed: 4 results,  Open Access: 4 results)

  • [Journal Article] Predicting Numerals in Text Using Nearest Neighbor Language Models2023

    • Author(s)
      Taku Sakamoto, Akiko Aizawa
    • Journal Title

      Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (ACL)

      Volume: - Pages: 4795-4809

    • Related Report
      2023 Annual Research Report
    • Peer Reviewed / Open Access
  • [Journal Article] Evaluating the Effect of Letter Case on Named Entity Recognition Performance2023

    • Author(s)
      Tuan An Dao, Akiko Aizawa
    • Journal Title

      Proceedings of the International Conference on Applications of Natural Language to Information Systems (NLDB 2023),

      Volume: - Pages: 588-598

    • DOI

      10.1007/978-3-031-35320-8_45

    • ISBN
      9783031353192, 9783031353208
    • Related Report
      2023 Annual Research Report
    • Peer Reviewed / Open Access
  • [Journal Article] Solving Label Variation in Scientific Information Extraction via Multi-Task Learning2023

    • Author(s)
      Dong Pham, Xanh Ho, Quang Thuy Ha, Akiko Aizawa
    • Journal Title

      Proceedings of the 37th Pacific Asia Conference on Language, Information and Computation (PACLIC 37)

      Volume: - Pages: 243-256

    • Related Report
      2023 Annual Research Report
    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] ディスプレイ操作記録ツールの提案と有効性の検証2023

    • Author(s)
      壹岐太一, 増本雄斗, 相澤彰子
    • Journal Title

      言語処理学会第29回年次大会(NLP2023)

      Volume: -

    • Related Report
      2022 Research-status Report
    • Open Access
  • [Journal Article] Effect of Letter Case on Named Entity Recognition Performance2023

    • Author(s)
      Tuan An Dao, Akiko Aizawa
    • Journal Title

      Proceedings of The 28th International Conference on Natural Language and Information Systems

      Volume: -

    • Related Report
      2022 Research-status Report
    • Peer Reviewed
  • [Journal Article] 文芸的プログラミングによる形式的証明の可読性向上2023

    • Author(s)
      津留﨑堅章, 相澤彰子
    • Journal Title

      情報アクセシビリティをめぐる諸問題に関する研究集会

      Volume: -

    • Related Report
      2022 Research-status Report

URL: 

Published: 2022-07-05   Modified: 2025-01-30  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi