2023 Fiscal Year Research-status Report
A Study on Structuring Legacy PDF Documents for Creating a Corpus of Local Assembly Activities
Project/Area Number |
22K12740
|
Research Institution | Fukuoka University |
Principal Investigator |
乙武 北斗 福岡大学, 工学部, 助教 (20580179)
|
Co-Investigator(Kenkyū-buntansha) |
木村 泰知 小樽商科大学, 商学部, 教授 (50400073)
鶴田 直之 福岡大学, 工学部, 教授 (60227478)
高丸 圭一 宇都宮共和大学, シティライフ学部, 教授 (60383121)
内田 ゆず 北海学園大学, 工学部, 教授 (80583575)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 地方議会 / PDF文書 / 文書画像処理 / XAI |
Outline of Annual Research Achievements |
本研究課題の目的の一つである「全国の地方自治体の議会活動資料PDF文書を対象とした収集・整理の自動化手法を確立」を達成するため,当該年度においては以下の項目で示す成果を得た. 1. 前年度に引き続き,福岡県内の地方自治体の議会広報誌(議会だより)を対象に,文書画像処理によるレイアウト解析,および領域検出手法の開発を行った.それに伴い,議会だよりのアノテーション方法を見直し,アルバイトおよび業者に依頼してアノーテションを行うことで,質の高いデータを拡充した. 2. 九州の地方自治体を対象に議会活動資料の収集を行っている.前年度までは地方自治体からの資料収集に際して,議会だよりや議会会議録だけを選定して収集することを目指していたが,地方自治体によって多種多様なウェブページの構成があり,資料の選定への対応に時間や労力のコストがかかる.そのため,文書の種別を選ばずに収集する方法に切り替えて作業を行っている. また,もう一つの目標である「地方議会活動コーパスの構築とその応用である議会活動可視化システムの実現」に関連する当該年度の成果は以下の通りである. 3. 収集済みの都道府県議会会議録データを用いて,発言文から発言者を自動分類するAIに対して説明可能技術(XAI)を応用することで,議員の発言における特徴の可視化を試みた.また,その可視化機能を搭載した議会会議録可視化システムのプロトタイプを作成した.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究実績の概要にて挙げた項目2(議会会議録コーパスの拡充)は進捗が予定よりやや遅れている.具体的には,前年度からのPDF資料収集手法の開発遅れに伴い,当初の予定では全国の議会活動資料を収集することになっていたが,九州の一部の地方自治体の資料収集に留まっている.
|
Strategy for Future Research Activity |
地方自治体からの資料収集に際して,議会だよりや議会会議録だけを選定して収集することは,各地方自治体でウェブページの構成が異なることから非常に困難であるため,文書の種別を選ばずに収集する方法に切り替えて作業を行っている.このように収集した資料から本研究に必要な資料を自動分類する手法の開発を行う予定である. 一定量のデータを収集した後に,コーパス構築を試みる. また,構築したコーパスを基に動作する議会活動資料の検索・可視化システムを公開する予定である.
|
Causes of Carryover |
人件費に関しては,アノテーション作業の準備遅れに伴い,アルバイトの雇用期間や雇用人数が当初の予定より少なくなったことから,予定より支出が減少した. 次年度ではアノテーション対象である議会活動資料の収集方法を変更したことにより,収集文書の数が多くなることが予想されるため,次年度使用額と翌年度請求分の助成金を合わせ,ラベル付きデータ作成のためのアノテーションアルバイトの雇用期間を長く設定する予定である.
|
Research Products
(8 results)