研究課題/領域番号 |
19K12241
|
研究機関 | 龍谷大学 |
研究代表者 |
馬 青 龍谷大学, 理工学部, 教授 (30358882)
|
研究分担者 |
南條 浩輝 京都大学, 学術情報メディアセンター, 准教授 (50388162)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
キーワード | 非文法的表現 / 非構造化文書 / 用語抽出・獲得 / トピックモデル / 文書分類 / レビュー評価 / ツイート推定 / 個人化推薦 |
研究実績の概要 |
本事業は、快適なWeb利活用のための自然言語処理とそれを用いた支援基盤に関する研究を行うことを目的としている。 初年度では、外国人や子ども・高齢者などの非文法的表現から用語を取り出すための要素技術等に関する調査を推進した。また、非構造化文書からの用語抽出についても検討を進めた。用語がうかばない場合のWeb検索において、どのような表現が用いられるか、そこにどのような間違いが生じるかなどの把握については、調査を実施するためのデータ収集プラットフォーム(Web上で物の写真を見せそれを検索する際に用いる表現を書かせる)の構築を推進した。 初年度ではまた、本事業の中核をなす、快適なWeb利活用基盤構築を目指す研究を、以下の各々の具体的なテーマで推進した。(1)Yahoo!知恵袋を代表としたQ&Aサイトへの投稿者支援として、トピックモデルを用いた質問文の自動分類とキーワード抽出に関する研究を行った。その中でも特にハイブリッド手法を提案し、高精度な質問文分類を実現することができた。(2)日本最大のコスメ・美容の総合サイト@cosmeの利用者支援として、化粧品の個人化推薦手法を開発した。推薦に、肌質や年齢といったユーザ情報とブランドなどの商品情報に加え、レビューテキストから美白や保湿などに関する感性評価を機械学習により抽出し用いた。実験により提案手法の有効性を確認した。(3)SNSをバイアスの少ない情報源と考え、ツイートに着目し政党支持率を予測する手法を提案した。実験結果では、マスメディアの出した政党支持率と同様の変化が確認できた。本手法により、従来の世論調査への大幅な人員・コスト削減が可能と考える。 上記研究成果は国際会議論文1編と今年3月に行われた言語処理の全国大会で3編の論文として発表した。なお、国際会議論文のほうはachievement awardを受賞した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
初年度研究計画にあった不自然表現・非構造化文書からの用語抽出・獲得の本格的な研究開始は、研究計画を立てた当初の予想に反し、その年度に研究室への新大学院生の入学が叶わなかったため、本格的な研究開始が次年度にずれ込んでしまった。しかし一方、初年度研究計画されていた外国人や子ども・高齢者などの非文法的表現から用語を取り出すための要素技術等に関する調査(研究実績の二段落目参照)や、本事業の中核をなす、快適なWeb利活用基盤構築を目指す研究(研究実績の三段落目参照)については研究を着実に進展させることができた。
|
今後の研究の推進方策 |
初年度に実施予定の研究テーマの一部が予定通りに実施できなかったため、次年度にて、研究代表者、研究分担者、2名の大学院生でチームを構成して総力で研究に取り組む予定である。三年度目以降は、二年度目に得られた成果を初年度から研究を推進してきた各種Web利活用の支援に取り込む予定である。
|
次年度使用額が生じた理由 |
新型コロナウイルスの影響で学会開催がオンライン化になり、当初予定していた旅費関係の費用が不要となり、次年度使用額が生じた。
この次年度使用額を次年度のディープランニングシステムの購入に充てる予定である。
|