| 研究課題/領域番号 |
23K28383
|
| 補助金の研究課題番号 |
23H03694 (2023)
|
| 研究種目 |
基盤研究(B)
|
| 配分区分 | 基金 (2024) 補助金 (2023) |
| 応募区分 | 一般 |
| 審査区分 |
小区分90020:図書館情報学および人文社会情報学関連
|
| 研究機関 | 同志社大学 |
研究代表者 |
波多野 賢治 同志社大学, 文化情報学部, 教授 (80314532)
|
| 研究分担者 |
宮崎 純 東京科学大学, 情報理工学院, 教授 (40293394)
中村 匡秀 神戸大学, 数理・データサイエンスセンター, 教授 (30324859)
鈴木 優 岐阜大学, 工学部, 准教授 (40388111)
|
| 研究期間 (年度) |
2024-04-01 – 2028-03-31
|
| 研究課題ステータス |
交付 (2024年度)
|
| 配分額 *注記 |
18,590千円 (直接経費: 14,300千円、間接経費: 4,290千円)
2027年度: 3,900千円 (直接経費: 3,000千円、間接経費: 900千円)
2026年度: 3,770千円 (直接経費: 2,900千円、間接経費: 870千円)
2025年度: 3,770千円 (直接経費: 2,900千円、間接経費: 870千円)
2024年度: 3,770千円 (直接経費: 2,900千円、間接経費: 870千円)
2023年度: 3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
|
| キーワード | エンティティ同定 / 異種データセット / 統合プラットフォーム |
| 研究開始時の研究の概要 |
異種データセットを有機的に繋げ合うことで,カバー範囲の異なる知識を結び付け,その利活用の簡素化を可能にする仕組みとその運用方法について研究開発を行う.この仕組みの実現には,データセット内の概念単位を正確に捉える技術と,異種データセットで個別に扱われている概念の関係性を判別する技術の確立が課題である.これら二つの技術をまず一分野で確立するため,この技術によりデータ活用範囲の拡大が期待できる食メディアを題材として研究を行う.
|
| 研究実績の概要 |
機械学習や深層学習のようなデータサイエンスの手法は年々増加し,その応用研究で要求される入力データは種類的にも構造的にも複雑化しつつある.しかし,数多の研究分野で利活用されているデータセットは,それぞれ異なる構造を持つため,そのままでは結合可能な状態とはなっていない.そのため,研究者が独自にデータ構造を定義し,その定義通りにデータを蓄積,さらに蓄積されたデータに対して統合処理を行うことで異種データセットを構築している.この異種データセットがモデルの学習に用いられている. この状況は,入力データの多様性を認めることになるが,この多様性の受容は学習モデルの出力結果の再現性が担保を保証できず,科学的知見の創出につながる技術発展の障害となり得る.そこで本研究では,異種データセットが有機的に繋がり合うことができ,カバー範囲の異なる知識を結び付け,その利活用の簡素化を可能にする仕組みとその運用方法について研究開発を行うことを主目的に研究を行っている.この仕組みの実現には,データセット内の概念単位を正確に捉える技術と異種データセットで個別に扱われている概念の関係性を判別する技術の確立が最重要課題である.これら二つの技術を,異種データセットの有機的な結合に適用可最適分野と現時点で考えられる食メディアの分野で確立するため,昨年度に引き続き前者の技術の実現に向け,食メディアデータ内のエンティティを同定するための文字列処理技術の開発と,それに基づいてレシピに基づいて調理された料理の栄養価計算に関する研究を行った.また,後者に関しては,食メディアデータ以外に論文そのもののデータセットを用いて,その論文で使用された技術の関係性をグラフで表現し,それを元にそれらの技術の組合せから新しい技術開発に資する仮説生成を行う技術の開発を行った.
|
| 現在までの達成度 |
現在までの達成度
2: おおむね順調に進展している
理由
進捗状況を「おおむね順調に進展している」と判断した理由は, 研究実績の概要で述べた,異種データセットで個別に扱われちょている概念の関係性を判別し,それを元にデータセット内の概念単位をエンティティとして抽出する技術に一縷の望みが見えた点に依るところが大きい.食メディアにおけるエンティティには,さまざまなものが挙げられるが,その最小単位として食材と設定することがさまざまなアプリケーション開発に有用であることが確認することができた.昨年度に実現出来なかったデータセット内の概念単位をエンティティとして抽出する技術に関する研究が食メディアの国際会議にアクセプトされた点は大きな進展である. また,食メディアにだけに留まらず,文字列から抽出される各種事物に対してもそれらの技術の適用可能性があることが確認できた.もちろん,まだ他メディアのエンティティ抽出に関する技術が確立できたわけではないが,異種データセットで個別に扱われている概念の関係性を判別できた点は,本研究における提案の汎用性が担保できる可能性があることを示していると思われる.
|
| 今後の研究の推進方策 |
前項の「現在までの進捗状況」に述べたが,本研究の主軸は日本に分類することができ,一つは,1)データセット内の概念単位を正確に捉える技術,もう一つは 2) 異種データセットで個別に扱われている概念の関係性を判別する技術,の開発にある. 前者は,汎用的に使用される大規模言語モデル(LLM)に対し,本技術を適用するコンテンツのドメインをどのような方法で判断し,それを元にその出力を活用しなければならない.ただ,この分野の技術進展は非常に早く,ある時点でState-of-the-Artな方法が直ぐに陳腐化するため,本ブランチの研究も研究成果を早々に論文としてまとめていく研究スピードの速さが求められていることを肝に銘じて研究を推進していく必要がある. 後者は,食メディアに対して主に研究を進めている段階であるが,化合物やレシピといった物理的なデータセットは元より,昨年度は扱うことができていなかった人間による評価データを統合していくフェーズに入っていく予定である.もちろん,評価データの獲得には実験設定等,細かな部分での調整が重要となるため,おそらく,来年度中に評価実験を実施することは困難であることは予測できる.そのため,食に関するプロフェッショナルである管理栄養士や調理師の方々を交えた議論を進め,評価実験のための諸準備を行う予定である. なお,食メディアの異種データに調理過程のデータである映像データが存在するため,映像データに対するエンティティ同定に関しても着手する必要がある.ただ,本研究でそこまで扱えるのかに関しては,現時点では疑義が生じているため,本年度は映像データやその中で登場する調理器具,調理方法,調理手順といった付加情報の統合法に関して,さらなる検討を行う予定である.
|