Project/Area Number |
23K28383
|
Project/Area Number (Other) |
23H03694 (2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2023) |
Section | 一般 |
Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
Research Institution | Doshisha University |
Principal Investigator |
波多野 賢治 同志社大学, 文化情報学部, 教授 (80314532)
|
Co-Investigator(Kenkyū-buntansha) |
宮崎 純 東京工業大学, 情報理工学院, 教授 (40293394)
中村 匡秀 神戸大学, 数理・データサイエンスセンター, 教授 (30324859)
鈴木 優 岐阜大学, 工学部, 准教授 (40388111)
|
Project Period (FY) |
2023-04-01 – 2028-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥18,590,000 (Direct Cost: ¥14,300,000、Indirect Cost: ¥4,290,000)
Fiscal Year 2027: ¥3,900,000 (Direct Cost: ¥3,000,000、Indirect Cost: ¥900,000)
Fiscal Year 2026: ¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000)
Fiscal Year 2025: ¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000)
Fiscal Year 2024: ¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000)
Fiscal Year 2023: ¥3,380,000 (Direct Cost: ¥2,600,000、Indirect Cost: ¥780,000)
|
Keywords | エンティティ同定 / 異種データセット / 統合プラットフォーム |
Outline of Research at the Start |
異種データセットを有機的に繋げ合うことで,カバー範囲の異なる知識を結び付け,その利活用の簡素化を可能にする仕組みとその運用方法について研究開発を行う.この仕組みの実現には,データセット内の概念単位を正確に捉える技術と,異種データセットで個別に扱われている概念の関係性を判別する技術の確立が課題である.これら二つの技術をまず一分野で確立するため,この技術によりデータ活用範囲の拡大が期待できる食メディアを題材として研究を行う.
|
Outline of Annual Research Achievements |
機械学習や深層学習のようなデータサイエンスの手法は年々増加し,その応用研究で要求される入力データは種類的にも構造的にも複雑化しつつある.しかし,数多の研究分野で利活用されているデータセットは,それぞれ異なる構造を持つため,そのままでは結合可能な状態とはなっていない.そのため,研究者が独自に加工することで異種データセットを結合し,それを入力データとして用いている.この状況は,入力データの多様性を認めることに繋がり,出力結果の再現性を担保できず,科学的知見の創出につながる技術発展の障害となり得る. そこで本研究では,異種データセットが有機的に繋がり合うことができ,カバー範囲の異なる知識を結び付け,その利活用の簡素化を可能にする仕組みとその運用方法について研究開発を行うことを主目的に研究を行っている.この仕組みの実現には,1)データセット内の概念単位を正確に捉える技術,と 2)異種データセットで個別に扱われている概念の関係性を判別する技術,の確立が最重要課題である.これら二つの技術を,異種データセットの有機的な結合に適用可最適分野と現時点で考えられる食メディアの分野で確立するため,今年度は前者 1)の技術の実現に向け,食メディアの各エンティティに対するラベル付けを正確に行うための技術である,エンティティの表現にサブワードフレーズという,頻出する文字の列をサブワード,そのサブワードを複数の列で表したものを使用する方法を,また,2)の技術の実現のために,食材とその食材に含まれる化合物の関係を表現したグラフ構造を元に,各エンティティのベクトル表現(分散表現:embedding)化する技術の開発を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
「おおむね順調に進展している」と判断した理由は, 研究実績の概要で述べた 2)異種データセットで個別に扱われている概念の関係性を判別する技術に関する研究が国際会議に採択された点に依るところが大きい.食メディアにおけるエンティティには,さまざまなものが挙げられるが,その最小単位と考えられる食材のエンベディングを生成し,その有効性を確認することができたためである.これをベースに,その食材から作られる各種レシピや食材を構成している化合物のベクトル表現に繋げられたらと考えている. 一方,1)データセット内の概念単位を正確に捉える技術に関しては,現時点では国際会議への採択は未だ実現できていない.その主な理由が概念単位を捉えるために必要な情報としてデータが扱っているドメインを意識する必要が出てきたことが挙げられる.このことは,本年度さまざまな観点で行った評価実験で明らかになったことであり,既に国内で開催された研究会では発表済みである.この知見を活かし,国際会議への採択を目指す予定である.
|
Strategy for Future Research Activity |
既に前項の「現在までの進捗状況」に述べたが,大きく分けて二つある技術開発の進展には,1)データセット内の概念単位を正確に捉える技術では,汎用的に使用される言語モデルに対し,ドメインをどのような方法で考慮し,その結果を活用しなければならないのかを考えなければならない.なお,この分野の技術進展は非常に早く,State-of-the-Artな方法が1ヶ月単位で変わるイメージであるため,本ブランチの研究も研究成果を早々に論文としてまとめていく研究スピードの速さが求められていると感じている. 一方,2)異種データセットで個別に扱われている概念の関係性を判別する技術に関しては,いよいよ,化合物やレシピといった物理的なデータセットに加え,人間による評価データを統合していくフェーズに入っていく予定である.もちろん,評価データの獲得には実験設定等,細かな部分での調整が重要となるため,おそらく,来年度中に評価実験を実施することは困難であることは予測できる.そのため,食に関するプロフェッショナルである管理栄養士や調理師の方々を交えた議論を進め,評価実験のための諸準備を行う予定である. また,前項「現在までの進捗状況」で述べた化合物およびレシピという食メディアの単位でのエンベディング技術に加え,調理器具,調理方法,調理手順といった付加情報をどのように各食メディアに反映させる技術の開発も同時に進めていく予定である.
|