• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

地方議会活動コーパス構築のためのレガシーPDF文書の構造化に関する研究

研究課題

研究課題/領域番号 22K12740
研究種目

基盤研究(C)

配分区分基金
応募区分一般
審査区分 小区分90020:図書館情報学および人文社会情報学関連
研究機関福岡大学

研究代表者

乙武 北斗  福岡大学, 工学部, 助教 (20580179)

研究分担者 木村 泰知  小樽商科大学, 商学部, 教授 (50400073)
鶴田 直之  福岡大学, 工学部, 教授 (60227478)
高丸 圭一  宇都宮共和大学, シティライフ学部, 教授 (60383121)
内田 ゆず  北海学園大学, 工学部, 教授 (80583575)
研究期間 (年度) 2022-04-01 – 2025-03-31
研究課題ステータス 交付 (2023年度)
配分額 *注記
2,600千円 (直接経費: 2,000千円、間接経費: 600千円)
2024年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2023年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2022年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
キーワード地方議会 / PDF文書 / 文書画像処理 / XAI / コーパス構築
研究開始時の研究の概要

多くの地方自治体は議会会議録や予算資料などの議会活動資料を公開しているが、その多くがPDF文書であり、テキスト処理が困難である。本研究は、従来研究で対象とされてこなかったPDF文書形式の議会活動資料に焦点を当て、「地方議会活動コーパス」を構築することを目的とする。また、構築したコーパスを活用し、議会会議録を軸として予算項目などと結びつけるLinked Open Data化、およびそれを可視化する議会活動可視化システムの公開を目指す。

研究実績の概要

本研究課題の目的の一つである「全国の地方自治体の議会活動資料PDF文書を対象とした収集・整理の自動化手法を確立」を達成するため,当該年度においては以下の項目で示す成果を得た.
1. 前年度に引き続き,福岡県内の地方自治体の議会広報誌(議会だより)を対象に,文書画像処理によるレイアウト解析,および領域検出手法の開発を行った.それに伴い,議会だよりのアノテーション方法を見直し,アルバイトおよび業者に依頼してアノーテションを行うことで,質の高いデータを拡充した.
2. 九州の地方自治体を対象に議会活動資料の収集を行っている.前年度までは地方自治体からの資料収集に際して,議会だよりや議会会議録だけを選定して収集することを目指していたが,地方自治体によって多種多様なウェブページの構成があり,資料の選定への対応に時間や労力のコストがかかる.そのため,文書の種別を選ばずに収集する方法に切り替えて作業を行っている.
また,もう一つの目標である「地方議会活動コーパスの構築とその応用である議会活動可視化システムの実現」に関連する当該年度の成果は以下の通りである.
3. 収集済みの都道府県議会会議録データを用いて,発言文から発言者を自動分類するAIに対して説明可能技術(XAI)を応用することで,議員の発言における特徴の可視化を試みた.また,その可視化機能を搭載した議会会議録可視化システムのプロトタイプを作成した.

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

研究実績の概要にて挙げた項目2(議会会議録コーパスの拡充)は進捗が予定よりやや遅れている.具体的には,前年度からのPDF資料収集手法の開発遅れに伴い,当初の予定では全国の議会活動資料を収集することになっていたが,九州の一部の地方自治体の資料収集に留まっている.

今後の研究の推進方策

地方自治体からの資料収集に際して,議会だよりや議会会議録だけを選定して収集することは,各地方自治体でウェブページの構成が異なることから非常に困難であるため,文書の種別を選ばずに収集する方法に切り替えて作業を行っている.このように収集した資料から本研究に必要な資料を自動分類する手法の開発を行う予定である.
一定量のデータを収集した後に,コーパス構築を試みる.
また,構築したコーパスを基に動作する議会活動資料の検索・可視化システムを公開する予定である.

報告書

(2件)
  • 2023 実施状況報告書
  • 2022 実施状況報告書
  • 研究成果

    (13件)

すべて 2024 2023 2022 その他

すべて 雑誌論文 (3件) (うち査読あり 2件、 オープンアクセス 2件) 学会発表 (9件) (うち国際学会 2件) 備考 (1件)

  • [雑誌論文] BERTベース分類器とSHAPを用いた地方議会議員の議会発言における特徴分析2023

    • 著者名/発表者名
      乙武北斗, 高丸圭一, 内田ゆず, 木村泰知
    • 雑誌名

      知能と情報

      巻: 35 号: 3 ページ: 700-705

    • DOI

      10.3156/jsoft.35.3_700

    • ISSN
      1347-7986, 1881-7203
    • 年月日
      2023-08-15
    • 関連する報告書
      2023 実施状況報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] XAI技術を用いた大規模言語資源の特徴可視化の試み ―地方議会会議録横断検索「ぎ~みる」を例に―2023

    • 著者名/発表者名
      乙武北斗,高丸圭一
    • 雑誌名

      計量国語学

      巻: 34 (3) ページ: 174-187

    • 関連する報告書
      2023 実施状況報告書
  • [雑誌論文] Budget Argument Mining Dataset Using Japanese Minutes from the National Diet and Local Assemblies2022

    • 著者名/発表者名
      Yasutomo Kimura, Hokuto Ototake, Minoru Sasaki
    • 雑誌名

      Proceedings of the 13th Conference on Language Resources and Evaluation (LREC 2022)

      巻: - ページ: 6131-6138

    • 関連する報告書
      2022 実施状況報告書
    • 査読あり / オープンアクセス
  • [学会発表] Single Shot MultiBox Detectorと文書要素の階層構造を用いた文書画像の領域分割に関する研究2024

    • 著者名/発表者名
      林 侑生 , 鶴田 直之 , 乙武 北斗
    • 学会等名
      火の国情報シンポジウム2024
    • 関連する報告書
      2023 実施状況報告書
  • [学会発表] fuys Team at the NTCIR-17 UFO Task2023

    • 著者名/発表者名
      Daigo Nishihara , Hokuto Ototake , Kenji Yoshimura
    • 学会等名
      Proceedings of the 17th NTCIR Conference on Evaluation of Information Access Technologies
    • 関連する報告書
      2023 実施状況報告書
    • 国際学会
  • [学会発表] fuys Team at the NTCIR-17 QA Lab-PoliInfo-4 Task2023

    • 著者名/発表者名
      Daigo Nishihara , Hokuto Ototake , Kenji Yoshimura
    • 学会等名
      Proceedings of the 17th NTCIR Conference on Evaluation of Information Access Technologies
    • 関連する報告書
      2023 実施状況報告書
    • 国際学会
  • [学会発表] 都道府県議会会議録検索システムへのXAIを用いた 特徴表現可視化の実装2023

    • 著者名/発表者名
      乙武北斗 , 高丸圭一 , 内田ゆず , 木村泰知
    • 学会等名
      第39回ファジィシステムシンポジウム講演論文集
    • 関連する報告書
      2023 実施状況報告書
  • [学会発表] 階層的な分類構造を活用したSHAPによる地方議会会議録における特徴表現抽出の試み2023

    • 著者名/発表者名
      乙武 北斗 , 高丸 圭一 , 内田 ゆず , 木村 泰知
    • 学会等名
      第37回人工知能学会全国大会発表論文集
    • 関連する報告書
      2023 実施状況報告書
  • [学会発表] 有価証券報告書を対象とした表構造解析のためのデータセットの構築に向けて2023

    • 著者名/発表者名
      門脇一真, 木村泰知, 加藤誠, 近藤隆史, 乙武北斗
    • 学会等名
      人工知能学会第二種研究会資料 金融情報学研究会
    • 関連する報告書
      2022 実施状況報告書
  • [学会発表] NTCIR-17 QA Lab-PoliInfo-4 のタスク設計2023

    • 著者名/発表者名
      小川泰弘, 木村泰知, 渋木英潔, 乙武北斗, 内田ゆず, 高丸圭一, 門脇一真, 秋葉友良, 佐々木稔, 小林暁雄
    • 学会等名
      言語処理学会第29回年次大会
    • 関連する報告書
      2022 実施状況報告書
  • [学会発表] 議会会議録と予算表を紐づけるMinutes-to-Budget Linkingタスクの提案2023

    • 著者名/発表者名
      木村泰知, 梶縁, 乙武北斗, 門脇一真, 佐々木稔, 小林暁雄
    • 学会等名
      言語処理学会第29回年次大会
    • 関連する報告書
      2022 実施状況報告書
  • [学会発表] BERTベース分類器とSHAPによる地方議会会議録における特徴表現抽出の試み2022

    • 著者名/発表者名
      乙武 北斗, 高丸 圭一, 内田 ゆず, 木村 泰知
    • 学会等名
      第36回人工知能学会全国大会
    • 関連する報告書
      2022 実施状況報告書
  • [備考] 地方議会会議録コーパスプロジェクト

    • URL

      http://local-politics.jp/

    • 関連する報告書
      2023 実施状況報告書 2022 実施状況報告書

URL: 

公開日: 2022-04-19   更新日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi