2022 Fiscal Year Research-status Report
Project/Area Number |
21K12585
|
Research Institution | Nihon University |
Principal Investigator |
関 亜紀子 日本大学, 生産工学部, 講師 (60386670)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 図書 / 自然言語処理 / 単語分散表現 |
Outline of Annual Research Achievements |
本研究課題では、大学などの学校図書館での図書探索を対象とした対話形式での図書の推薦手法を検討しています。探したい書籍名などが決まっていない利用者による曖昧な検索クエリーに対して、利用者の検索意図を類推し図書探索を支援するために、目次情報を活用して綴り込み検索として有効なキーワードを抽出し、システムの応答内容として提示するための実現手法を検討しています。 本年度は、曖昧な検索クエリーを拡張するための関連語を抽出するために、前年度までの検討を基に、図書データを30年分に拡張してDoc2Vecによる目次の文章ベクトルおよび単語の分散表現モデルを構築しました。そして、既存の全文検索エンジンを利用して検索クエリーを探索し、ヒットした図書の目次に含まれる特徴語を抽出し、単語の分散表現モデルを用いて検索クエリーとの類似度を求めることで、利用者の検索クエリーに対して重要な関連語を抽出しました。また、それらの値を基に図書のスコアを再評価することで、検索クエリーと概念的に類似する内容をより多く含む図書を検索結果の上位にランキングすることが可能になりました。また、目次情報をコーパスとして構築した単語分散表現モデルは、既存の日本語のWikipediaの情報をコーパスとして構築した単語分散表現モデルで得られる類義語よりも、検索クエリーが示す分野に特化した専門語が得られる傾向があり、綴り込み用の検索クエリー用のキーワードを抽出するための分散表現モデルとして有用であることが分かりました。一方で、Doc2Vecによりモデル化した目次の文章ベクトルを用いた類似文書探索は、期待する精度が得られず次年度以降の課題としています。 その他の取り組みとして、次年度に向けて対話ベースでの図書探索支援を実現するための対話システムのプロトタイプの構築を進めています。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
図書の目次を構成する単語の共起関係から単語間の関係をベクトル化し、検索クエリーの拡張に有用な語彙を抽出するためのモデルの学習を行い、その精度を検証しました。この検討では、データ量による影響を考察するために、10年分のデータと30年分のデータを使用した場合とに分けてモデル構築を行い、それぞれの精度を検証しました。このモデルの構築では、学習パラメータを調整しながら試行を繰り返すことになりましたが、その過程で、開発環境のスペックの問題から環境の再構築が必要となり、当初の予定よりも遅れを取る結果となりました。 また、構築したモデルを用いた検索クエリーの拡張用の語彙の抽出では、期待する結果が得られたものの、新たに生成した検索クエリーを用いた図書検索では十分な精度が得られず、目次による文章ベクトルの構築手法について再検討が必要であることが分かりました。そこで、新たに文脈を考慮することが可能なBERT(Bidirectional Encoder Representations from Transformers)によるモデルの構築を試み、目次や日本十進分類法などを用いたモデルのファインチューニングに現在は取り組んでいます。
|
Strategy for Future Research Activity |
今後はBERTによって構築したモデルを用いた文書分類や文書生成を行い、文書のベクトル表現を用いた図書探索の実現手法を検討することを予定しています。まずは、パラメータの調整などを試行してBERTのファインチューニングを試行し、従来手法との比較検証をする予定です。この際、作業の効率をあげる為に、分析検討用の開発環境を複数台に拡張して取り組むことを検討しています。 また、対話形式での図書探索の支援を実現するために、対話システムでの応答としての出力メッセージの生成についても検討を進め、プロトタイプに反映させていきたいと考えています。この応答メッセージの生成では、外部システムのAPIの活用なども取り入れ、オンライン上のデータを活用する予定です。これにより応答メッセージの生成の効率化を図り、自動生成した図書の推薦理由を応答メッセージに含めることで図書の探索支援に役立てることを検討しています。
|
Causes of Carryover |
当初、1年あたり35万円のBOOKデータベースのデータを購入して使用することを想定していましたが、新たに「学術研究用BOOKデータ集10yrs」が発行されました。BOOKデータベースよりも収録内容は削減されるものの、本研究で最低限必要とするデータを20万円程度で10年分活用できるようになりました。これにより、当初想定していた予算を大幅に削減することが可能になりました。また、初年度に引き続き、今年度も参加した学会がオンライン開催あるいはハイブリット開催であり、オンラインによる参加を選択したために旅費として計上していた予算が2年分繰り越す形となっています。 次年度は、対面による開催が一般的になると考えられることから、研究発表を現地で行い、そのための旅費として使用することを予定しています。また、比較検証を効率化させるために、実験用の開発機器を追加することを検討しています。
|