A Study on Structuring Legacy PDF Documents for Creating a Corpus of Local Assembly Activities
Project/Area Number |
22K12740
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
Research Institution | Fukuoka University |
Principal Investigator |
乙武 北斗 福岡大学, 工学部, 助教 (20580179)
|
Co-Investigator(Kenkyū-buntansha) |
木村 泰知 小樽商科大学, 商学部, 教授 (50400073)
鶴田 直之 福岡大学, 工学部, 教授 (60227478)
高丸 圭一 宇都宮共和大学, シティライフ学部, 教授 (60383121)
内田 ゆず 北海学園大学, 工学部, 教授 (80583575)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
Fiscal Year 2024: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2023: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2022: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
|
Keywords | 地方議会 / PDF文書 / 文書画像処理 / コーパス構築 |
Outline of Research at the Start |
多くの地方自治体は議会会議録や予算資料などの議会活動資料を公開しているが、その多くがPDF文書であり、テキスト処理が困難である。本研究は、従来研究で対象とされてこなかったPDF文書形式の議会活動資料に焦点を当て、「地方議会活動コーパス」を構築することを目的とする。また、構築したコーパスを活用し、議会会議録を軸として予算項目などと結びつけるLinked Open Data化、およびそれを可視化する議会活動可視化システムの公開を目指す。
|
Outline of Annual Research Achievements |
本研究課題の目的の一つである「全国の地方自治体の議会活動資料PDF文書を対象とした収集・整理の自動化手法を確立」を達成するため,当該年度においては以下の項目で示す成果を得た。 1. 全国の地方議会活動資料の公開状況の調査を行った。具体的には都道府県,市区町村のWebページや議会のWebページのURL,自治体が利用している会議録検索システムの種別,YouTubeアカウントの有無などを調査した。この成果にある各自治体の議会のWebページURLを基に,機械的に議会活動資料のPDF文書を収集する予定である。 2. 議会会議録コーパスの拡充について,2019年から2022年の都道府県議会会議録を収集・整備した。また,この新しく収集したデータを基に,報告者がすでに公開している都道府県議会会議録の更新を行った。しかしながら,本成果はPDF文書ではなく,HTMLとして収集可能なデータに限定したものである。 3. 福岡県内の地方自治体の議会広報誌(議会だより)を対象に,文書画像処理によるレイアウト解析を行った。具体的には,福岡県内の市町村から1期分の議会だよりを収集し,アルバイトによるアノテーション作業によって議会だよりのテキスト領域のラベル付けデータを作成した。新聞のような段組みや縦・横書きが混在するバウンディングボックスが複数含まれる議会広報誌において,機械学習ベースのレイアウト解析手法を構築し,実用可能な解析精度を得られた。この成果は今後収集するPDF資料からテキスト抽出を行うために活用する。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究実績の概要にて挙げた項目2(議会会議録コーパスの拡充)は進捗が予定よりやや遅れている。具体的には,当初の予定として福岡県内の地方自治体のPDF議会会議録を収集する予定であったが,PDF資料収集を行う手法開発が遅れており,一部の地方自治体の資料収集に留まっている。 また,上記で述べたPDF資料収集の遅れに伴い,議会だよりからのコーパス構築作業も遅れている。現在の進捗は研究実績の概要にて挙げた項目3の通りであり,コーパス構築のためにもPDF資料収集の進捗を要する状況である。
|
Strategy for Future Research Activity |
研究実績の概要にて挙げた通り,PDF資料を収集するべき場所情報である地方自治体のWebページURLや,議会だよりのレイアウト解析の結果は得られている。したがって,今後は最優先で各自治体から議会活動資料のPDF文書の収集を行う。一定量の資料収集の後,レイアウト解析が容易な議会会議録については,全国の地方自治体を対象にコーパス構築を試みる。 議会だよりについては,レイアウト解析の成果を活用したテキスト抽出を試みて,評価実験を通して抽出精度などの成果を公表する。 今後は予算に関する資料も収集対象とするが,予算資料は表が多用される傾向があるため,表に対応したレイアウト解析手法の開発も並行して進める予定である。
|
Report
(1 results)
Research Products
(6 results)