目次の分散表現による図書の概念検索手法の研究

研究課題

研究課題/領域番号	21K12585
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分90020:図書館情報学および人文社会情報学関連
研究機関	日本大学
研究代表者	関亜紀子日本大学, 生産工学部, 講師 (60386670)
研究期間 (年度)	2021-04-01 – 2024-03-31
研究課題ステータス	交付 (2022年度)
配分額 *注記	3,250千円 (直接経費: 2,500千円、間接経費: 750千円) 2023年度: 910千円 (直接経費: 700千円、間接経費: 210千円) 2022年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2021年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
キーワード	図書 / 自然言語処理 / 単語分散表現 / 分散表現 / 推薦 / 図書検索 / 目次
研究開始時の研究の概要	本研究では、自然言語による対話形式による図書の検索支援を実現することにより、利用者とシステム間で対話を繰り返す中で、図書検索に必要な検索クエリ―を推定し応答文に活用することで、従来の書誌検索よりも効率の良い図書検索の実現を目指す。この対話システムを実現するために、タイトルや著者などの書誌情報に加えて目次に着目し、目次に含まれる特徴語を用いて図書の特徴をベクトル表現し、これを図書に関する知識構造として活用する。そして、ここで得られた知識構造に基づいて、対話から利用者が求める分野およびテーマを類推し、図書の推薦を実現する新たな概念検索手法の確立に取り組む。
研究実績の概要	本研究課題では、大学などの学校図書館での図書探索を対象とした対話形式での図書の推薦手法を検討しています。探したい書籍名などが決まっていない利用者による曖昧な検索クエリーに対して、利用者の検索意図を類推し図書探索を支援するために、目次情報を活用して綴り込み検索として有効なキーワードを抽出し、システムの応答内容として提示するための実現手法を検討しています。本年度は、曖昧な検索クエリーを拡張するための関連語を抽出するために、前年度までの検討を基に、図書データを30年分に拡張してDoc2Vecによる目次の文章ベクトルおよび単語の分散表現モデルを構築しました。そして、既存の全文検索エンジンを利用して検索クエリーを探索し、ヒットした図書の目次に含まれる特徴語を抽出し、単語の分散表現モデルを用いて検索クエリーとの類似度を求めることで、利用者の検索クエリーに対して重要な関連語を抽出しました。また、それらの値を基に図書のスコアを再評価することで、検索クエリーと概念的に類似する内容をより多く含む図書を検索結果の上位にランキングすることが可能になりました。また、目次情報をコーパスとして構築した単語分散表現モデルは、既存の日本語のWikipediaの情報をコーパスとして構築した単語分散表現モデルで得られる類義語よりも、検索クエリーが示す分野に特化した専門語が得られる傾向があり、綴り込み用の検索クエリー用のキーワードを抽出するための分散表現モデルとして有用であることが分かりました。一方で、Doc2Vecによりモデル化した目次の文章ベクトルを用いた類似文書探索は、期待する精度が得られず次年度以降の課題としています。その他の取り組みとして、次年度に向けて対話ベースでの図書探索支援を実現するための対話システムのプロトタイプの構築を進めています。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由図書の目次を構成する単語の共起関係から単語間の関係をベクトル化し、検索クエリーの拡張に有用な語彙を抽出するためのモデルの学習を行い、その精度を検証しました。この検討では、データ量による影響を考察するために、10年分のデータと30年分のデータを使用した場合とに分けてモデル構築を行い、それぞれの精度を検証しました。このモデルの構築では、学習パラメータを調整しながら試行を繰り返すことになりましたが、その過程で、開発環境のスペックの問題から環境の再構築が必要となり、当初の予定よりも遅れを取る結果となりました。また、構築したモデルを用いた検索クエリーの拡張用の語彙の抽出では、期待する結果が得られたものの、新たに生成した検索クエリーを用いた図書検索では十分な精度が得られず、目次による文章ベクトルの構築手法について再検討が必要であることが分かりました。そこで、新たに文脈を考慮することが可能なBERT（Bidirectional Encoder Representations from Transformers）によるモデルの構築を試み、目次や日本十進分類法などを用いたモデルのファインチューニングに現在は取り組んでいます。
今後の研究の推進方策	今後はBERTによって構築したモデルを用いた文書分類や文書生成を行い、文書のベクトル表現を用いた図書探索の実現手法を検討することを予定しています。まずは、パラメータの調整などを試行してBERTのファインチューニングを試行し、従来手法との比較検証をする予定です。この際、作業の効率をあげる為に、分析検討用の開発環境を複数台に拡張して取り組むことを検討しています。また、対話形式での図書探索の支援を実現するために、対話システムでの応答としての出力メッセージの生成についても検討を進め、プロトタイプに反映させていきたいと考えています。この応答メッセージの生成では、外部システムのAPIの活用なども取り入れ、オンライン上のデータを活用する予定です。これにより応答メッセージの生成の効率化を図り、自動生成した図書の推薦理由を応答メッセージに含めることで図書の探索支援に役立てることを検討しています。