• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Research-status Report

Deepening linguistic analysis methods for understanding and utilizing real documents

Research Project

Project/Area Number 22K19818
Research InstitutionNational Institute of Informatics

Principal Investigator

相澤 彰子  国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)

Project Period (FY) 2022-06-30 – 2024-03-31
Keywords文書理解 / 自然言語解析 / 言語モデル / 文書レイアウト / 視覚的言語理解
Outline of Annual Research Achievements

現在の自然言語処理は、入力単位としてトークンの並びである「文」または「文の集合」を想定している。しかし、現実の文書には、レイアウト構造や表示スタイルなどが混然一体となって埋め込まれ、読みを支援する「手がかり」として機能している。人間が文書を読む際には、視覚的な入力を通してこのような手がかりを即座に解読して、「文」の意味理解へとつなげていると考えられる。そこで本研究では、文書中に埋め込まれた非言語情報を抽出・活用するための文書解析手法を検討する。具体的には、(1)レイアウトされた文書やインタラクティブなメディア(ウェブ上のフォーム)などの文書全体、(2)文書中の非言語要素(数式など)と対応する説明文(3)言語音意味とは独立の編集的な属性(例:大文字・小文字の違い)の3つの文書構成要素に注目する。そして、これらを分析・モデル化することで、人間の可読性を高めたり、計算機の言語処理性能を向上したりするための手法を開発する。初年度である2022年度は、近年の大規模言語モデルの登場を踏まえて関連分野の調査を行うとともに、上記3つの研究課題に取り組んだ。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

(1)ブラウザ上で表示されるウェブ文書を対象として、画像、テキスト、ユーザアクションを統一的に扱うためのツールを構築して、データ収集およびモデル構築を行った。これに基づき予備的な評価を実施して口頭発表をした(Iki et al., 2023)。また、(2)複雑な談話構造をわかりやすく提示するインタフェースにかかわるものとして、数学定理証明の可読性向上に関する研究に取り組んで予備的な検討状況を口頭発表した(Tsurusaki et al., 2023)。さらに、(3)英語における大文字と小文字表記の違いに注目して、固有表現抽出タスクにおける影響を分析、データ増強による性能改善に取り組んで国際学会で発表予定である(Dao et al., 2023)。

Strategy for Future Research Activity

現在、モバイル端末やウェブブラウザを対象とした言語モデルが注目されはじめている。そこで当該分野の研究の最新動向について引き続き調査を行いつつ、2022年度で構築したプラットフォームを活用しながら手法の改善および評価タスクの設計に取り組む。また、複雑な木構造を持つ定理証明などの形式表現や専門的な内容を含むスライドなどを、可読性高く提示するための研究に取り組み、文書理解のための自然言語処理の今後の展開へと結びつける。

Causes of Carryover

調査のため参加予定であった国際会議がハイブリッド開催となった。飛行機チケットやホテル代が高額になったことも踏まえて、会議はオンライン参加として旅費等の使用を見送った。また、半導体の不足による納期の遅れを受けて、研究に使用する予定であった計算装置の購入を見送った。予算は令和5年度の国際会議への現地参加および、装置購入に用いる予定である。

  • Research Products

    (3 results)

All 2023

All Journal Article (3 results) (of which Open Access: 1 results,  Peer Reviewed: 1 results)

  • [Journal Article] ディスプレイ操作記録ツールの提案と有効性の検証2023

    • Author(s)
      壹岐太一, 増本雄斗, 相澤彰子
    • Journal Title

      言語処理学会第29回年次大会(NLP2023)

      Volume: - Pages: -

    • Open Access
  • [Journal Article] Effect of Letter Case on Named Entity Recognition Performance2023

    • Author(s)
      Tuan An Dao, Akiko Aizawa
    • Journal Title

      Proceedings of The 28th International Conference on Natural Language and Information Systems

      Volume: - Pages: -

    • Peer Reviewed
  • [Journal Article] 文芸的プログラミングによる形式的証明の可読性向上2023

    • Author(s)
      津留﨑堅章, 相澤彰子
    • Journal Title

      情報アクセシビリティをめぐる諸問題に関する研究集会

      Volume: - Pages: -

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi