研究課題/領域番号 |
23K11764
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分90020:図書館情報学および人文社会情報学関連
|
研究機関 | 群馬大学 |
研究代表者 |
安川 美智子 群馬大学, 情報学部, 助教 (70361384)
|
研究期間 (年度) |
2023-04-01 – 2027-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
2026年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2025年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2024年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
|
キーワード | 情報検索 / 類似性と異質性 / 情報資源の構築・管理 / 自然言語処理 / データベース / 情報組織化 |
研究開始時の研究の概要 |
最先端の情報技術について書かれた研究論文等の技術革新が顕著な分野(ドメイン)の文書を検索する際には、新概念を体系的に説明する辞書が存在しないため、概念を何と呼ぶべきかわからず、検索対象を特定できないという問題が起きる。この問題に対処するため、本研究では文書群に含まれる概念の「類似性」と「異質性」を考慮した情報検索の新たな技術を検討し、文書類似検索と文書自動分類を組み合わせた「教師なし学習」および「教師あり学習」の性能分析を用いて、情報検索のソフトウェア開発を行う。また、提案手法の多様な応用可能性についても検討する。
|
研究実績の概要 |
2023年度の研究では研究実施計画の通り、日本語の文書データを対象として、「類似性と異質性の分析」を行った。具体的には、時間的に変化する特徴量を含む複数の文書コーパスを対象として以下のような情報検索の手法を検討し、成果発表を行った。 【科研費データベースの研究テーマの変遷の検出】研究課題の新旧の差異を検出することを目的として、文書の二値分類と回帰分析を組み合わせて、大規模な文書コーパスの分析を行う手法を提案した。得られた知見は以下の通りである。(1)競争的資金における研究テーマは毎年少しずつ変化するため、新しいテーマは古いテーマと次第に類似しなくなる。(2)一般的に短いスパンでの差異は小さく、長いスパンでは研究の分野(人文社会、医学系、情報系)によって変化の大きさや速度が異なるが、20年間という長い期間での変化は、どの研究分野でも検出可能である。 【情報科学のカリキュラムの知識体系におけるエンティティリンク】高等教育におけるテキスト処理において、デジタル化されたテキスト資源の量が大規模な汎用言語モデルを開発するには十分ではないという問題がある。この問題に対処するために、講義情報(授業シラバス)とWikipediaに記載された知識との間のリンクを確立する手法を提案した。 【康煕部首の文字化けを含むテキストデータの検索と分類】大学における情報共有のためのファイル形式としてPDFが頻繁に用いられている。PDFは環境に依存せずに表示や印刷ができるという特徴があるが、ファイル作成時のフォントとソフトウェアの組み合わせにより、漢字が康煕部首(こうきぶしゅ)に文字化けする事象が知られている。このようなテキストデータの破損は、データベースの検索を阻害する要因となるため、本研究ではこの問題について書誌情報学的な観点から考察し、対処法を検討した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究実施計画の通り、2023年度の研究を進めることができており、2024年度に取り組む情報検索システム開発の予備的検討を進めていることから、本研究課題はおおむね順調に進展していると言える。
|
今後の研究の推進方策 |
2023年度の研究では、ユニコードの日本語の漢字の領域で発生する文字化けの問題に焦点を当てて、日本語の大規模書誌情報データベースにおいて出現頻度が極めて高い漢字が文字化けした場合にテキスト分析にどのような影響を与えるのかについて定量的に評価し、テキスト分析を行う前に文字の破損のチェックと修復を行うことが重要であることを確認できたことから、今後の研究で他の日本語データを扱う際にも開発した文字化けチェック・修復ツールを活用していく予定である。
|