2022 Fiscal Year Annual Research Report
A Study on Information Retrieval for Large Document Corpora about Outcomes and Materials
Project/Area Number |
18K11986
|
Research Institution | Gunma University |
Principal Investigator |
安川 美智子 群馬大学, 情報学部, 助教 (70361384)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | 情報検索 / 情報組織化 / 情報資源の構築・管理 / 自然言語処理 / データベース |
Outline of Annual Research Achievements |
2022年度の研究では、研究計画に基づき、科学技術文書の情報検索などの実用化のニーズが高い分野(ドメイン)への提案手法の応用について検討を行った。具体的には、まず、テキストデータの特徴分析を行う手法として、データセットの分割と回帰分析を用いた新規の手法を提案し、オープンデータとして広く公開されている研究助成金申請書の大規模なデータベースから収集した研究課題名を分析対象のテキストデータとして、評価実験を行った。提案手法は、インスタンスの類似度を用いる教師あり学習によりパターン認識を行う手法であるが、近傍探索を総当たりで行うため、計算量が多く、従来は大規模なデータセットに適用することが困難であった。しかし、最近のハードウエア、ソフトウエア、および、仮想化技術の進化により、大規模な文書群において実用的な時間でデータ分析が行えるようになっており、本研究では、約97万件の申請課題を実験データとして評価実験を行い、提案手法がベースラインを上回る精度(Accuracy)であることを確認した。また2022年度の後半には、Institutional Research (IR)の研究においてこれまでに開発した特徴分析の手法を料理情報処理に応用し、日本の家庭料理のレシピデータを用いた評価実験を行った。文書類似検索と文書自動分類を組み合わせた文書群の特徴分析により、カテゴリ数が30個の多クラス分類が高精度で行えるレシピデータセットを自動構築でき、また、データセットの特徴量を用いて、従来の紙媒体の料理の本の「索引」のような単語の一覧(特徴単語のリスト)を作成できる。このような特徴選択を活用することで、情報アクセスの効率化と有効性の向上が期待できる。2022年度までの研究遂行で得られた知見を2023年度以降に採択されている新規の研究課題で活用する予定である。
|
Research Products
(2 results)