A Study on Structuring Legacy PDF Documents for Creating a Corpus of Local Assembly Activities
Project/Area Number |
22K12740
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
Research Institution | Fukuoka University |
Principal Investigator |
乙武 北斗 福岡大学, 工学部, 助教 (20580179)
|
Co-Investigator(Kenkyū-buntansha) |
木村 泰知 小樽商科大学, 商学部, 教授 (50400073)
鶴田 直之 福岡大学, 工学部, 教授 (60227478)
高丸 圭一 宇都宮共和大学, シティライフ学部, 教授 (60383121)
内田 ゆず 北海学園大学, 工学部, 教授 (80583575)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
Fiscal Year 2024: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2023: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2022: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
|
Keywords | 地方議会 / PDF文書 / 文書画像処理 / XAI / コーパス構築 |
Outline of Research at the Start |
多くの地方自治体は議会会議録や予算資料などの議会活動資料を公開しているが、その多くがPDF文書であり、テキスト処理が困難である。本研究は、従来研究で対象とされてこなかったPDF文書形式の議会活動資料に焦点を当て、「地方議会活動コーパス」を構築することを目的とする。また、構築したコーパスを活用し、議会会議録を軸として予算項目などと結びつけるLinked Open Data化、およびそれを可視化する議会活動可視化システムの公開を目指す。
|
Outline of Annual Research Achievements |
本研究課題の目的の一つである「全国の地方自治体の議会活動資料PDF文書を対象とした収集・整理の自動化手法を確立」を達成するため,当該年度においては以下の項目で示す成果を得た. 1. 前年度に引き続き,福岡県内の地方自治体の議会広報誌(議会だより)を対象に,文書画像処理によるレイアウト解析,および領域検出手法の開発を行った.それに伴い,議会だよりのアノテーション方法を見直し,アルバイトおよび業者に依頼してアノーテションを行うことで,質の高いデータを拡充した. 2. 九州の地方自治体を対象に議会活動資料の収集を行っている.前年度までは地方自治体からの資料収集に際して,議会だよりや議会会議録だけを選定して収集することを目指していたが,地方自治体によって多種多様なウェブページの構成があり,資料の選定への対応に時間や労力のコストがかかる.そのため,文書の種別を選ばずに収集する方法に切り替えて作業を行っている. また,もう一つの目標である「地方議会活動コーパスの構築とその応用である議会活動可視化システムの実現」に関連する当該年度の成果は以下の通りである. 3. 収集済みの都道府県議会会議録データを用いて,発言文から発言者を自動分類するAIに対して説明可能技術(XAI)を応用することで,議員の発言における特徴の可視化を試みた.また,その可視化機能を搭載した議会会議録可視化システムのプロトタイプを作成した.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究実績の概要にて挙げた項目2(議会会議録コーパスの拡充)は進捗が予定よりやや遅れている.具体的には,前年度からのPDF資料収集手法の開発遅れに伴い,当初の予定では全国の議会活動資料を収集することになっていたが,九州の一部の地方自治体の資料収集に留まっている.
|
Strategy for Future Research Activity |
地方自治体からの資料収集に際して,議会だよりや議会会議録だけを選定して収集することは,各地方自治体でウェブページの構成が異なることから非常に困難であるため,文書の種別を選ばずに収集する方法に切り替えて作業を行っている.このように収集した資料から本研究に必要な資料を自動分類する手法の開発を行う予定である. 一定量のデータを収集した後に,コーパス構築を試みる. また,構築したコーパスを基に動作する議会活動資料の検索・可視化システムを公開する予定である.
|
Report
(2 results)
Research Products
(13 results)