2020 Fiscal Year Research-status Report
自然言語処理技術を用いた快適なWeb利活用支援に関する研究
Project/Area Number |
19K12241
|
Research Institution | Ryukoku University |
Principal Investigator |
馬 青 龍谷大学, 先端理工学部, 教授 (30358882)
|
Co-Investigator(Kenkyū-buntansha) |
南條 浩輝 京都大学, 学術情報メディアセンター, 准教授 (50388162)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 個人化推薦 / レビュー評価 / 診療支援 / 非文法的表現 / 非構造化文書 / 用語抽出 / 情報抽出 / 機械学習 |
Outline of Annual Research Achievements |
本事業は、快適なWeb利活用のための自然言語処理とそれを用いた支援基盤に関する研究を行うことを目的としている。 本年度では研究計画に沿って、引き続き提案研究に必要な言語データの収集・コーパスの構築、GPU高速計算機の導入とそれらへの各種機械学習ツールの組み込みなどの研究環境の整備を行った。 本年度ではまた、本事業の中核をなす、快適なWeb利活用基盤構築を目指す研究を、以下の各々の具体的なテーマで推進した。(1)日本最大のコスメ・美容の総合サイト@cosmeの利用者支援として、初年度に開発した類似ユーザのレビューテキストから抽出した情報に基づく化粧品の個人化推薦手法に改良を加え、性能向上を図った。(2)見出し語と説明文が明確に分かれていない、非構造化文書(テキスト)からの用語抽出の手法を提案し、GPUを用いた深層学習モデルの構築を推進した。用語抽出の評価実験を推進しており、成果を報告予定である。(3)症状から診療科を決定する機械学習による診療支援システムの開発を開始し、機械学習手法を提案した。小規模な評価実験で提案手法の有効性を確認した。(4)外国人や子供の快適なWeb利活用(検索のための入力)を支援する一環として、誤りを含んでいる可能性がある入力文から本来意図したと思われる入力文を生成(誤り訂正)する機械学習手法を提案し、GPUを用いた深層学習モデルの構築を推進した。(5)大規模なテキストデータから有用な情報を抽出し、それを整理する表やそれらの概念ネットワークを生成する手法を提案した。Wikipediaなどを対象とした評価実験を行い、提案手法の有効性を確認した。 上記研究成果は国際会議論文1編と今年3月に行われた言語処理学会の年次大会で2編の論文として発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究室に新規メンバーが複数加わったことにより、研究計画に沿った研究を円滑に実施することができ、研究をおおむね順調に進展させることができた。 一方、BERTなど最新の機械学習手法を効果的に利用するためにはGPU高速計算機の導入や、それら機械学習ツールのGPU移植など、高速計算処理を実現する研究環境の構築が必須であった。このような環境構築はあまり経験がなかったため、たいへんな苦戦を強いられ、予想以上に時間を費やしてしまった。
|
Strategy for Future Research Activity |
研究はすでに軌道に乗り、研究環境も整ったので、今後は研究計画に沿って、研究を強力に進めていく予定である。 また、研究環境・研究ツールに関する最新動向や関連研究分野の最新成果を常にサーベイし、そこから得た知見で研究環境・研究手法をタイムリーにアップデートして行く予定である。
|
Causes of Carryover |
新型コロナウイルスの影響で学会開催がオンライン化になり、当初予定していた旅費関係の費用が不要となった。また、計画していたディープランニング用GPU高速計算機は、大学の予算で購入することができ、その購入にかかる費用が不要となった。以上の理由で次年度の使用額が生じた。 次年度以降は、本格的な評価実験の進展に伴う計算環境の増強、大規模実験の補助やユーザデータの収集にかかる人件費・謝金、オンライン学会への参加費用や論文投稿費用などに、研究費を有効活用していく予定である。
|