2023 Fiscal Year Research-status Report
A Study on Information Retrieval by Similarity and Heterogeneity of Concepts
Project/Area Number |
23K11764
|
Research Institution | Gunma University |
Principal Investigator |
安川 美智子 群馬大学, 情報学部, 助教 (70361384)
|
Project Period (FY) |
2023-04-01 – 2027-03-31
|
Keywords | 情報検索 / 類似性と異質性 / 情報資源の構築・管理 / 自然言語処理 / データベース |
Outline of Annual Research Achievements |
2023年度の研究では研究実施計画の通り、日本語の文書データを対象として、「類似性と異質性の分析」を行った。具体的には、時間的に変化する特徴量を含む複数の文書コーパスを対象として以下のような情報検索の手法を検討し、成果発表を行った。 【科研費データベースの研究テーマの変遷の検出】研究課題の新旧の差異を検出することを目的として、文書の二値分類と回帰分析を組み合わせて、大規模な文書コーパスの分析を行う手法を提案した。得られた知見は以下の通りである。(1)競争的資金における研究テーマは毎年少しずつ変化するため、新しいテーマは古いテーマと次第に類似しなくなる。(2)一般的に短いスパンでの差異は小さく、長いスパンでは研究の分野(人文社会、医学系、情報系)によって変化の大きさや速度が異なるが、20年間という長い期間での変化は、どの研究分野でも検出可能である。 【情報科学のカリキュラムの知識体系におけるエンティティリンク】高等教育におけるテキスト処理において、デジタル化されたテキスト資源の量が大規模な汎用言語モデルを開発するには十分ではないという問題がある。この問題に対処するために、講義情報(授業シラバス)とWikipediaに記載された知識との間のリンクを確立する手法を提案した。 【康煕部首の文字化けを含むテキストデータの検索と分類】大学における情報共有のためのファイル形式としてPDFが頻繁に用いられている。PDFは環境に依存せずに表示や印刷ができるという特徴があるが、ファイル作成時のフォントとソフトウェアの組み合わせにより、漢字が康煕部首(こうきぶしゅ)に文字化けする事象が知られている。このようなテキストデータの破損は、データベースの検索を阻害する要因となるため、本研究ではこの問題について書誌情報学的な観点から考察し、対処法を検討した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究実施計画の通り、2023年度の研究を進めることができており、2024年度に取り組む情報検索システム開発の予備的検討を進めていることから、本研究課題はおおむね順調に進展していると言える。
|
Strategy for Future Research Activity |
2023年度の研究では、ユニコードの日本語の漢字の領域で発生する文字化けの問題に焦点を当てて、日本語の大規模書誌情報データベースにおいて出現頻度が極めて高い漢字が文字化けした場合にテキスト分析にどのような影響を与えるのかについて定量的に評価し、テキスト分析を行う前に文字の破損のチェックと修復を行うことが重要であることを確認できたことから、今後の研究で他の日本語データを扱う際にも開発した文字化けチェック・修復ツールを活用していく予定である。
|