2021 Fiscal Year Annual Research Report
Project/Area Number |
21H03491
|
Research Institution | Gunma University |
Principal Investigator |
林 克彦 群馬大学, 情報学部, 准教授 (50725794)
|
Co-Investigator(Kenkyū-buntansha) |
能地 宏 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (00782541) [Withdrawn]
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 知識グラフ / 表現学習 / 情報検索 / メディアデータ |
Outline of Annual Research Achievements |
本研究の目的は知識グラフに代表される巨大データベースから高速に情報を検索するための技術開発、および、その応用先となる基盤データの整備を行うことにある。本年度は技術開発として、知識グラフを潜在的な特徴空間に埋め込み、知識を高速に検索するための手法を開発した。この成果を論文化し、IEEE TKDE、および、自然言語処理分野のトップ国際会議ACL21に採択された。また、ACL21で発表した手法を効果的に学習するための損失関数に関する研究を進め、言語処理学会第28回年次大会で優秀賞を受賞し、その内容を機械学習分野のトップ国際会議ICML22に投稿した(フェーズ1の査読は受理された)。さらに、商品データベースの情報検索を行う最近傍探索モデルを開発し、情報検索分野のトップ国際会議SIGIR22に論文の採択された。 本年度の基盤データ整備としては、上記で開発した情報検索技術を適用するためのメディアデータの整備に取り組んだ。具体的には漫画データの知識データベース化に取り組んでおり、本年度は漫画テキストの読み順データセット構築を行った。この成果の一部は第6回コミック工学研究会で発表している。群馬大学の学部生に学生謝金として開発を依頼したデータアノテーションツールは学生本人のgithubページ https://github.com/mu-perori/Manga109_AnnotationApp で公開済みとなっている。また、東京大学に所属する研究員、技術補佐員の計2名にデータセット構築に向けた実演・助言業務を依頼し、データアノテーションマニュアルの作成およびデータセット構築を実施した。開発したマニュアルおよびデータセットについても公開に向けた整備を進めた。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究分担者の能地宏氏が民間企業へ転職したため、研究協力者として参加している東京大学・宮尾祐介氏に協力を依頼し、東京大学の学生と共同で研究を進めることにした。しかし、COVID-19の感染拡大の影響を受けて、研究コミュニケーションの機会が十分に得られず、自然言語データのデータベースクエリ化(意味解析)に関する研究は遅れている。 同様の理由から、国際会議ACL21への海外出張などを見合わせることになり、外部研究者との研究交流機会が大幅に減ったことも研究アイデア(主に研究分担・協力を期待した自然言語データのデータベースクエリ化に関する研究アイデア)の停滞を生んだ。 また、所属機関では居室スペース、電力供給、間接経費の取り扱いなど本研究をサポートする体制が十分に整っておらず、研究環境の構築に想定以上の時間を費やしたことも研究が遅れる一因となった。
|
Strategy for Future Research Activity |
潜在ベクトル空間上での情報検索に関する研究は順調に遂行できており、国際論文誌や国際会議への採択、受賞といった成果につながっている。今後は情報検索技術のさらなる改善と併せて、研究成果の応用先となるメディアデータの知識データベース化に関する研究を論文化することに注力する。 情報検索技術を応用先へと繋げるために自然言語データのデータベースクエリ化に関する研究にも注力する予定である。これは東京大学の宮尾祐介氏に協力を依頼し、東京大学の学生と研究を進める予定である。一方、それと並行して、自然言語テキストから直接、知識データベースへ問い合わせるための技術についても別途検討を行う。これは本年度開発した技術を単語文書行列へと適用することで、一定の成果が得られると見込んでいる。具体的には、本年度、トップ国際会議SIGIR22に採択された研究成果は商品ユーザ行列に対する情報検索を考える手法であったが、これを単語文書行列へ適用できるように拡張することを検討する。 予算執行の面ではCOVID-19の感染拡大状況に応じて、今後も国際会議等での海外出張を見合わせることが予想される。そのため、知識データベース作成を行うための人件費や研究会を主催する費用などを適宜検討し、外部研究者や学生との交流機会を活発化することで、新しい研究アイデアを創出するための環境作りにも尽力する予定である。
|
Remarks |
謝金で作成したツールおよびデータセットの公開先(謝金で開発を依頼した学生のGithubページ) https://github.com/mu-perori/Manga109_AnnotationApp
|
Research Products
(4 results)