研究課題/領域番号 |
23K28381
|
補助金の研究課題番号 |
23H03692 (2023)
|
研究種目 |
基盤研究(B)
|
配分区分 | 基金 (2024) 補助金 (2023) |
応募区分 | 一般 |
審査区分 |
小区分90020:図書館情報学および人文社会情報学関連
|
研究機関 | 九州大学 |
研究代表者 |
三輪 宗弘 九州大学, 附属図書館, 教授 (30279129)
|
研究分担者 |
小柏 香穂理 電気通信大学, その他部局等, 特任准教授 (60379922)
清水 敏之 九州大学, 附属図書館, 准教授 (60402468)
永井 リサ 帝京大学, 経済学部, 講師 (60615219)
新原 俊樹 西南学院大学, その他部局等, 助教 (80964824)
内山 英昭 奈良先端科学技術大学院大学, 先端科学技術研究科, 准教授 (90735804)
甲斐 尚人 大阪大学, 附属図書館, 准教授 (90940148)
|
研究期間 (年度) |
2023-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
6,630千円 (直接経費: 5,100千円、間接経費: 1,530千円)
2025年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2024年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2023年度: 3,770千円 (直接経費: 2,900千円、間接経費: 870千円)
|
キーワード | 評価選別 / 公文書の選別 / 都道府県の公文書 / 文書管理モデル / 熊本県公文書 / 一次選別 / 二次選別 / 簿冊タイトル / 機械学習 / 統計データ / 基準表 / 記録管理 / レコード・マネジメント / 特定歴史公文書 |
研究開始時の研究の概要 |
これまでの評価選別結果をSVMなどの機械学習の手法で明らかにすること、もう一つはタイトルなどから何を残すべきなのか明らかにすることである。 刊行物でどこまで統計データが残され、国の機関のホームページでどこまで熊本県のデータが入手できるのか、できないのかについて明らかにする。 これまでの長年の蓄積を全国の都道府県の公文書の評価選別に役立つ手法として使えるノウハウを明示して、提供するというのが、本研究の概要である。 ほかの県の取り組みも調べ、熊本県での取り組みがどのような点で新しく、ほかの都道府県の選別作業に役立つのか明らかにする。第三者が選別作業をしているのは熊本県だけである。
|
研究実績の概要 |
廃棄選別の作業には簿冊のタイトルのリストから選び出す「一次選別」と、実際に現物を手に取りながら、1日50冊ほど丁寧に中身を確認する「二次選別」がある。それぞれ「一次選別」「二次選別」を簿冊のタイトルやキーワードから効率よく選び出す方法はないのか、また「一次選別」と「二次選別」を通して、どのようなタイトルの簿冊が選別されているのかを跡付け、効率よく選別するには何が大切なのだろうか明らかにする。これまでの選別作業のデータの蓄積を次の選別の参考にするには、どうすればよいのか、今後の選別作業に利用できる点を明らかにすることである。 機械学習の「教師ありモデル」として、県の公文書の選別をすることができるのかどうか、検証することである。様々な、広範なタイトルから、ある程度絞り込んだうえで、分析しないと明確な基準が得られないという見解・見通しが現時点で出された。この弱点を補うために、絞り込みも(グループ分け)、大切になってくる。 我々の3月の研究会では「簿冊タイトル」からだけでは、難しいという見通しが提示された。「キーワード」、「あいまい検索」、「保存年限」、「性質区分」、「所属」などの組み合わせでの絞り込みをどのようにするのか、という点も加味しながら、簿冊単位で効率よい評価選別ができるのかどうか、という点が課題である。 統計データに関しては、国と県の線引きも、福祉関係と農林水産業の統計データで、国にどこまで任せられるのか、県でどこまでデータを継続して保有しなければならないのか、具体的に追求した。農林水産省のホームページからどの程度熊本県に関するデータが拾えるのか調べた。農林水産省がWEB上で公開している情報で、熊本県関係の情報がどの程度入手できるのか。また、それを踏まえ、熊本県でも残す必要があるのはどのような統計(国が県に委託した統計)なのかを検討した。県と市町村の線引きも大切である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
「一次選別」「二次選別」でどのように評価選別して、廃棄を保留して残しているのか、機械学習の「教師ありモデル」でこれまでの蓄積した結果の検証を進めている。簿冊単位での選別作業では難しい面があり、さらに絞り込んで、グループ分け(性質区分、保存年、作成した原局)することで効率の良い評価選別はどのようにするのがいいのか、今後の評価選別に役立つのかどうかという点の検証に進む予定である。このことに気づいた点は研究の成果である。茨城県では簿冊のタイトルを書き換えていることも貴重な情報であった。簿冊のタイトルの限界を踏まえながらも、簿冊のタイトルから選別作業をどのように進めたらいいのか、検討しなければならないことがわかった。 農林水産業や福祉関係の統計データに関して、国のホームページや国の刊行物で熊本県のデータがどこまで記載されているのかを確認し、熊本県や国で何を残すのか、国と県の線引きをどうするのか検討している(県と市町村の線引きも当然考えなければならないだろう)。WEBページ(国と県)や熊本県立図書館(県庁内情報プラザ)でどのような熊本県に関連する統計データが入手できるのか、確認作業を行っている。WEBで一時的に入手できたとしても、長期的に保存されなければ意味がない。そういう点で刊行物や紙媒体でデータが残されているかどうかは大切な点であると考え、刊行物についても調査している。 北海道や茨城県の取り組みや、実際に県公文書の評価選別に取り組んだ方の書いた論文や報告書、著書を読み、熊本県での取り組みで経験している問題点や課題と重なる点があり、この点を明確にできた。また他の都道府県ならではの独自の取り組みもあり、熊本県の選別作業との違いがわかった。この点も今後選別作業を体系化、理論化するうえで役立つだろう。
|
今後の研究の推進方策 |
一次選別、二次選別の結果を、機械学習モデルでどの程度まで、能率よく選別できるシステムを構築できるのか、どのような工夫や改善が必要なのかを明らかにしていきたい。蓄積した選別結果のデータの分析によって、今後どのようにすれば効率よく県公文書の評価選別が可能となるのか、示すことが目標である。キーワードも大切になってくるであろうし、「性質区分」や「作成原課」「何年保存」かという点も加味しながら考察する。タイトルだけで評価選別するのが難しい以上、その点をどのように克服していくか、取り組みたい。情報処理チームがこの大役を担うことになる。 また国のホームページや刊行物で熊本県の統計データがどの程度追跡可能で入手できるのか、その点を踏まえ、熊本県でどのような資料を残さなければならないのか、また国と県での線引きをどうするのか、具体的に跡付ける。当然、市町村と県との線引きも課題となるであろう。県の刊行物も調べる必要があるのは当然である。例えば、インフルエンザなどのサーベイランスの情報もどこまで公開されているのか、どのような情報にアクセスできないのか調べ、県で残す必要があるのはどのような情報なのか明らかにしたい。 熊本県で実施している評価選別の今後のメリットや特徴を明らかにするためには、これまで他の都道府県で行われてきた公文書の評価選別への取り組みを抑えておく必要がある。この点に関しては、滋賀県、神奈川県、香川県、埼玉県、広島県、岡山県などをフォローしたいと考えている。北海道や茨城県に関しては引き続き、報告書や先行研究に加えて、聞き取り調査も行いたい。そのことにより熊本県の評価選別作業が他の都道府県にどのように役立つのか、熊本県の特徴はどのような点にあるのか、明示できると考える。 過去のデータを参照するシステム構築も研究対象である。 熊本県総務部県政情報文書課とは連絡を密に取りながら進める。
|