研究実績の概要 |
本研究の目的は疫学領域の食事調査の簡便化である。これまでにシソーラスを用いて,管理栄養士のスキルであるコーディング(成分表の食品番号に食事内容を関連づける作業)の自動化を検討してきた。 今年度は,一般の人が食事を申告する言葉に対象を拡大して,大規模レシピサイト(COOKPAD(株)と国立情報学研究所の共同公開データ)における,'肉'の語彙例を観察した。このデータにある料理172万件・食材1,273万件を対象に,漢字・かな・半角を統一し,肉の語彙を観察し,人数分の記載がある料理140万件については肉のポーションサイズ(PS)を算出した。結果,条件A('肉'を含む)では3.30万件が抽出されたが,肉の調味料や焼肉タレ,果肉,蟹肉,肉厚椎茸など肉でない物が混在した。条件B('肉'を含まないが'牛,鶏または鳥),豚'を含む)では,各々6,139件,37,565件,36,388件が抽出された。条件CはA,B以外で肉と認識できる表現で,ミンチ,カルビ,ササミ,手羽,とんとろが6,868件,条件Dで'合挽'を含むデータ(送り仮名の揺らぎを含む)が595件抽出された。これらから重複を除外し,PSが数値化できたのは50,141件で,PSがグラム表記だったのは30,103件であった。PSの平均/中央値は豚85/75g,牛91/80g,鶏88/75gであった。PSの分布は3種類とも二峰性であった。管理栄養士が肉をコード化する場合,成分表の名称と食品番号(例:乳用肥育牛肉/かた/脂身つき/生,No.11030)で区別するが,一般人が牛の種類を区別するのは和牛,黒豚などのブランドを示す場合であり,料理に用いる部位は曖昧で明確な区別なく,'肉'を含まない略称(手羽,合挽など)を多用する等の特徴があった。コーディングを自動化するには,食品や部位を整理したルールベースが必要であることが明らかになった。
|