2022 Fiscal Year Research-status Report
A Study on Structuring Legacy PDF Documents for Creating a Corpus of Local Assembly Activities
Project/Area Number |
22K12740
|
Research Institution | Fukuoka University |
Principal Investigator |
乙武 北斗 福岡大学, 工学部, 助教 (20580179)
|
Co-Investigator(Kenkyū-buntansha) |
木村 泰知 小樽商科大学, 商学部, 教授 (50400073)
鶴田 直之 福岡大学, 工学部, 教授 (60227478)
高丸 圭一 宇都宮共和大学, シティライフ学部, 教授 (60383121)
内田 ゆず 北海学園大学, 工学部, 教授 (80583575)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 地方議会 / PDF文書 / 文書画像処理 |
Outline of Annual Research Achievements |
本研究課題の目的の一つである「全国の地方自治体の議会活動資料PDF文書を対象とした収集・整理の自動化手法を確立」を達成するため,当該年度においては以下の項目で示す成果を得た。 1. 全国の地方議会活動資料の公開状況の調査を行った。具体的には都道府県,市区町村のWebページや議会のWebページのURL,自治体が利用している会議録検索システムの種別,YouTubeアカウントの有無などを調査した。この成果にある各自治体の議会のWebページURLを基に,機械的に議会活動資料のPDF文書を収集する予定である。 2. 議会会議録コーパスの拡充について,2019年から2022年の都道府県議会会議録を収集・整備した。また,この新しく収集したデータを基に,報告者がすでに公開している都道府県議会会議録の更新を行った。しかしながら,本成果はPDF文書ではなく,HTMLとして収集可能なデータに限定したものである。 3. 福岡県内の地方自治体の議会広報誌(議会だより)を対象に,文書画像処理によるレイアウト解析を行った。具体的には,福岡県内の市町村から1期分の議会だよりを収集し,アルバイトによるアノテーション作業によって議会だよりのテキスト領域のラベル付けデータを作成した。新聞のような段組みや縦・横書きが混在するバウンディングボックスが複数含まれる議会広報誌において,機械学習ベースのレイアウト解析手法を構築し,実用可能な解析精度を得られた。この成果は今後収集するPDF資料からテキスト抽出を行うために活用する。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究実績の概要にて挙げた項目2(議会会議録コーパスの拡充)は進捗が予定よりやや遅れている。具体的には,当初の予定として福岡県内の地方自治体のPDF議会会議録を収集する予定であったが,PDF資料収集を行う手法開発が遅れており,一部の地方自治体の資料収集に留まっている。 また,上記で述べたPDF資料収集の遅れに伴い,議会だよりからのコーパス構築作業も遅れている。現在の進捗は研究実績の概要にて挙げた項目3の通りであり,コーパス構築のためにもPDF資料収集の進捗を要する状況である。
|
Strategy for Future Research Activity |
研究実績の概要にて挙げた通り,PDF資料を収集するべき場所情報である地方自治体のWebページURLや,議会だよりのレイアウト解析の結果は得られている。したがって,今後は最優先で各自治体から議会活動資料のPDF文書の収集を行う。一定量の資料収集の後,レイアウト解析が容易な議会会議録については,全国の地方自治体を対象にコーパス構築を試みる。 議会だよりについては,レイアウト解析の成果を活用したテキスト抽出を試みて,評価実験を通して抽出精度などの成果を公表する。 今後は予算に関する資料も収集対象とするが,予算資料は表が多用される傾向があるため,表に対応したレイアウト解析手法の開発も並行して進める予定である。
|
Causes of Carryover |
旅費に関しては,新型コロナウイルスの流行に伴って研究調査や打ち合わせの出張回数が減ったことにより,予定より支出が減少した。また,人件費に関してはアノテーションアルバイトの雇用期間が当初の予定より短くなったことから,予定より支出が減少した。 次年度使用額と翌年度請求分の助成金を合わせ,ラベル付きデータ作成のためのアノテーションアルバイトを予定より多く雇用することでデータを拡張する予定である。
|
Research Products
(6 results)