• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Research-status Report

A Study on Structuring Legacy PDF Documents for Creating a Corpus of Local Assembly Activities

Research Project

Project/Area Number 22K12740
Research InstitutionFukuoka University

Principal Investigator

乙武 北斗  福岡大学, 工学部, 助教 (20580179)

Co-Investigator(Kenkyū-buntansha) 木村 泰知  小樽商科大学, 商学部, 教授 (50400073)
鶴田 直之  福岡大学, 工学部, 教授 (60227478)
高丸 圭一  宇都宮共和大学, シティライフ学部, 教授 (60383121)
内田 ゆず  北海学園大学, 工学部, 教授 (80583575)
Project Period (FY) 2022-04-01 – 2025-03-31
Keywords地方議会 / PDF文書 / 文書画像処理
Outline of Annual Research Achievements

本研究課題の目的の一つである「全国の地方自治体の議会活動資料PDF文書を対象とした収集・整理の自動化手法を確立」を達成するため,当該年度においては以下の項目で示す成果を得た。
1. 全国の地方議会活動資料の公開状況の調査を行った。具体的には都道府県,市区町村のWebページや議会のWebページのURL,自治体が利用している会議録検索システムの種別,YouTubeアカウントの有無などを調査した。この成果にある各自治体の議会のWebページURLを基に,機械的に議会活動資料のPDF文書を収集する予定である。
2. 議会会議録コーパスの拡充について,2019年から2022年の都道府県議会会議録を収集・整備した。また,この新しく収集したデータを基に,報告者がすでに公開している都道府県議会会議録の更新を行った。しかしながら,本成果はPDF文書ではなく,HTMLとして収集可能なデータに限定したものである。
3. 福岡県内の地方自治体の議会広報誌(議会だより)を対象に,文書画像処理によるレイアウト解析を行った。具体的には,福岡県内の市町村から1期分の議会だよりを収集し,アルバイトによるアノテーション作業によって議会だよりのテキスト領域のラベル付けデータを作成した。新聞のような段組みや縦・横書きが混在するバウンディングボックスが複数含まれる議会広報誌において,機械学習ベースのレイアウト解析手法を構築し,実用可能な解析精度を得られた。この成果は今後収集するPDF資料からテキスト抽出を行うために活用する。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

研究実績の概要にて挙げた項目2(議会会議録コーパスの拡充)は進捗が予定よりやや遅れている。具体的には,当初の予定として福岡県内の地方自治体のPDF議会会議録を収集する予定であったが,PDF資料収集を行う手法開発が遅れており,一部の地方自治体の資料収集に留まっている。
また,上記で述べたPDF資料収集の遅れに伴い,議会だよりからのコーパス構築作業も遅れている。現在の進捗は研究実績の概要にて挙げた項目3の通りであり,コーパス構築のためにもPDF資料収集の進捗を要する状況である。

Strategy for Future Research Activity

研究実績の概要にて挙げた通り,PDF資料を収集するべき場所情報である地方自治体のWebページURLや,議会だよりのレイアウト解析の結果は得られている。したがって,今後は最優先で各自治体から議会活動資料のPDF文書の収集を行う。一定量の資料収集の後,レイアウト解析が容易な議会会議録については,全国の地方自治体を対象にコーパス構築を試みる。
議会だよりについては,レイアウト解析の成果を活用したテキスト抽出を試みて,評価実験を通して抽出精度などの成果を公表する。
今後は予算に関する資料も収集対象とするが,予算資料は表が多用される傾向があるため,表に対応したレイアウト解析手法の開発も並行して進める予定である。

Causes of Carryover

旅費に関しては,新型コロナウイルスの流行に伴って研究調査や打ち合わせの出張回数が減ったことにより,予定より支出が減少した。また,人件費に関してはアノテーションアルバイトの雇用期間が当初の予定より短くなったことから,予定より支出が減少した。
次年度使用額と翌年度請求分の助成金を合わせ,ラベル付きデータ作成のためのアノテーションアルバイトを予定より多く雇用することでデータを拡張する予定である。

  • Research Products

    (6 results)

All 2023 2022 Other

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (4 results) Remarks (1 results)

  • [Journal Article] Budget Argument Mining Dataset Using Japanese Minutes from the National Diet and Local Assemblies2022

    • Author(s)
      Yasutomo Kimura, Hokuto Ototake, Minoru Sasaki
    • Journal Title

      Proceedings of the 13th Conference on Language Resources and Evaluation (LREC 2022)

      Volume: - Pages: 6131-6138

    • Peer Reviewed / Open Access
  • [Presentation] 有価証券報告書を対象とした表構造解析のためのデータセットの構築に向けて2023

    • Author(s)
      門脇一真, 木村泰知, 加藤誠, 近藤隆史, 乙武北斗
    • Organizer
      人工知能学会第二種研究会資料 金融情報学研究会
  • [Presentation] NTCIR-17 QA Lab-PoliInfo-4 のタスク設計2023

    • Author(s)
      小川泰弘, 木村泰知, 渋木英潔, 乙武北斗, 内田ゆず, 高丸圭一, 門脇一真, 秋葉友良, 佐々木稔, 小林暁雄
    • Organizer
      言語処理学会第29回年次大会
  • [Presentation] 議会会議録と予算表を紐づけるMinutes-to-Budget Linkingタスクの提案2023

    • Author(s)
      木村泰知, 梶縁, 乙武北斗, 門脇一真, 佐々木稔, 小林暁雄
    • Organizer
      言語処理学会第29回年次大会
  • [Presentation] BERTベース分類器とSHAPによる地方議会会議録における特徴表現抽出の試み2022

    • Author(s)
      乙武 北斗, 高丸 圭一, 内田 ゆず, 木村 泰知
    • Organizer
      第36回人工知能学会全国大会
  • [Remarks] 地方議会会議録コーパスプロジェクト

    • URL

      http://local-politics.jp/

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi