2022 Fiscal Year Research-status Report
Utilization of artificial intelligence for transparency and fairness in political funds
Project/Area Number |
21K18420
|
Research Institution | Tokyo University of Information Sciences |
Principal Investigator |
藤原 丈史 東京情報大学, 総合情報学部, 准教授 (60348456)
|
Project Period (FY) |
2021-07-09 – 2024-03-31
|
Keywords | 政務活動費 / 都道府県 / 情報公開 / データサイエンス |
Outline of Annual Research Achievements |
本研究の目的は,政治活動の透明性の確保であり,特に政治資金や政務活動費といった公金についての適正使用を促進するための監視およびチェックシステムを確立することにある.そのためには実際のデータに対し人工知能技術およびデータサイエンスを活用した分析,支援が有用である.具体的に本研究では各都道府県議会における議員の政務活動費を対象として,その使用のパターンを解析することで不適正な使用につながる可能性がある特徴を抽出することが目標である. 2021年度はデータの整備を実施し,各都道府県の政務活動費について分析が行える形式としての電子化を行った.情報公開の促進の流れにおいて,各都道府県でもWeb上で公開を行う場合も多くなったが,依然としてデジタル化の意識は全く低いものであり,紙ベースの収支報告書,会計帳簿等をスキャンしただけのPDF形式がほとんどである.そのため,そのままの形式では分析には使用できないので,OCR,独自の変換・整合性チェックプログラムによる処理,手作業による修正等によりデータを整備した. 2022年度は整備した一部の都道府県議会の政務活動費について,議会全体としての年度集計データおよび月次,日次の時系列データに対して基礎集計,可視化を行い基本的な特徴を分析した.さらに本研究ので主要な目的である各議員ごとの支出パターンについての解析を行った.本来なら不正を行った議員の支出パターンがあれば二値分類問題として分析できるが,そのようなデータは利用できず,仮に利用できたとしても稀で極端な不均衡データとなり分析は困難である.したがって,本研究では教師なし学習としての手法を活用した.具体的には主成分分析,クラスタリング手法を用い特徴的な支出パターンをもつ議員ついての分類を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
当初の予定では2022年度は,2021年度で行ったデータの整備についての残り部分についての整備をまずは行い,そのデータに対しさまざまな分析を行う予定であった.本研究では年度単位での集計データはもとより,より特徴的な支出パターンの分析を行うため月次およびイベントごとの日次データといった時系列データについても対象としている.政務活動費は都道府県ごとに電子データとしてWeb上で公開,および情報公開請求により紙での公開を行なっている.Web上で公開している電子データについては,そのほとんどがCSVデータやExcelデータといった分析に直接利用できる形式ではなく紙書類をスキャンした画像データとしてのPDF形式である.またそれらの収支報告書および会計帳簿については各都道府県ごとでフォーマットが異なり,定型的に自動で分析可能な形式に変換することは不可能といえる.したがってOCRにより一部テキスト化はある程度は自動でできるものの,そこからは各都道府県ごとのフォーマットに従った個別の前処理プログラムを作成し,変換・集計・不整合性チェックを行なっている.さらにプログラム上で自動処理ができない不整合データについては手作業により個別対応を行なっている.これらの作業は元データであるPDFおよび紙上でのスキャン品質に大きく依存しているが,これが各都道府県はもとより各議員によってもまちまちであった.そのためデータ化の処理について当初想定していた作業量を上回ってことが,現在の進捗状況としての最大の理由である.
|
Strategy for Future Research Activity |
2023年度は現在進めている分析結果を基に,さらに機械学習および統計学的手法を用いた分析を行なう.本研究では政務活動費の使用パターンを分析し,他の議員とは異なる使用パターンの議員を抽出することが中心となる.もちろん他と異なるパターンがそのまま即不正な使用であるとは限らないが,これら特徴的なパターンの議員,すなわち他の多数の議員から外れた特徴的な使用を行なっている議員を抽出し,その対象議員について詳細な監査等を行うことで人的・時間的なコストを抑えることができる.したがって,本研究結果は公的資金の適正な使用における効果的なスクリーニング方法として活かすことが可能となる.2022年度の分析では主成分分析,クラスタリングといった基本的な手法を用いた解析を行っていたが,その分析をさらに発展させる.具体的にはさまざまな分野に応用されている異常検知の各手法も活用することで,支出パターンの効率的な分類と,特徴的なパターンの抽出の方法を構築する.また対象データとしては当初の計画であったすべての都道府県を網羅的に分析するのではなく,地域や規模といった都道府県分類としての特徴を代表するような主要な都道府県について分析を行うことで,時間的な制約の中で効率的な研究の推進を行う.その後,年度後半において研究成果を学会に発表,および論文にまとめ学会誌に投稿を行う予定である.
|
Causes of Carryover |
政務活動費の収支報告書等をWeb上で公開していない都道府県議会については情報公開請求により紙書類で情報を請求する必要があるが,その手数料等の支出が無かったことによる.この件については当初2022年度で行う予定であったが,他のデータ処理および具体的な分析を優先したためである.
|