研究課題/領域番号 |
19H01118
|
研究種目 |
基盤研究(A)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
中区分61:人間情報学およびその関連分野
|
研究機関 | 東京工業大学 |
研究代表者 |
岡崎 直観 東京工業大学, 情報理工学院, 教授 (50601118)
|
研究分担者 |
荒牧 英治 奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (70401073)
|
研究期間 (年度) |
2019-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
44,980千円 (直接経費: 34,600千円、間接経費: 10,380千円)
2023年度: 6,240千円 (直接経費: 4,800千円、間接経費: 1,440千円)
2022年度: 8,580千円 (直接経費: 6,600千円、間接経費: 1,980千円)
2021年度: 10,400千円 (直接経費: 8,000千円、間接経費: 2,400千円)
2020年度: 11,310千円 (直接経費: 8,700千円、間接経費: 2,610千円)
2019年度: 8,450千円 (直接経費: 6,500千円、間接経費: 1,950千円)
|
キーワード | 自然言語処理 / 意味解析 / 議論マイニング / SNS分析 / 知識獲得 |
研究開始時の研究の概要 |
SNSから収集した人々の発言や意見を分析し、その議論構造を明らかにする研究に取り組み、議論マイニング研究の新展開を目指す。この目標に向けて、SNSテキストの高度な言語解析、常識的な知識の自動獲得、知識を活用した言語の理解・推論といった基盤研究を進める。これらの基盤研究は、コンピュータが常識的な知識を獲得・活用しながら言語の理解・推論を行うという人工知能の長年の課題への突破口につながる。さまざまな人間の価値観が混在している状況下での合意形成・世論形成のメカニズムの解明や、国民総動員の健全な議論の支援を見据え、ウェブ上の意見を集約・構造化を行うシステムを構築する。
|
研究実績の概要 |
研究項目1では、大規模言語データから学習した単語埋め込みを、人間が構築した知識に適応させることで、意味を捉える性質を改善できるだろうか、という問いに取り組んだ。具体的には、語義間の意味関係を教師信号として、文脈依存型単語埋め込みおよび語義埋め込み同士の距離を調節する手法を提案した。提案手法を語義曖昧性解消タスクで評価したところ、知識ベース語義曖昧性解消の最高精度を達成した。本研究成果は言語処理学会年次大会で発表したところ、優秀賞との評価を得た。 研究項目2では、ソーシャルメディアの自然言語処理プラットフォームの構築を進めた.これは(1)Twitterテキストからの位置情報推定,(2)想定発信先(テキストの読み手の想定)の推定,(3)発言による炎上のリスク(侮辱や名誉毀損などの訴訟リスク)の推定といったソーシャルメディアを利活用するために有益な情報を付与するシステムを統合したものである.それぞれのシステムについては言語処理学会年次大会にて発表を行った.特に,(2)は,企業賞を受賞するなど評価を得た. 研究項目3では、研究項目2の成果と統合するため、画像や動画とテキストの両方を入力して推論するアーキテクチャの研究に取り組んだ。複数文および複数画像から成るマルチモーダル文書を理解するシステムの構築を目指し、文書内における画像を意味的に望ましいテキストに割り当てる新たなタスクImage-to-Text Matching (ITeM)を提案した論文が自然言語処理というジャーナル論文に採択された。また、動画とテキストの両方を入力して翻訳を行うデータセットに対して、動画から与えられる知識が機械翻訳に与える影響を調べた研究は、Journal of Information Processingというジャーナル論文に採択された。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究プロジェクトは4年目が経過し、雑誌論文や国際会議などの査読付きの論文発表が増えてきている。また、本報告書には含めていないが、現段階で2023年度の成果として査読付き論文の発表が3件予定されている。また、2022年度の成果を言語処理学会第29回年次大会で発表したところ、優秀賞およびスポンサー賞を受賞するなど、本プロジェクトの研究成果の対外的な評価も高まっている。このように、残り1年間で成果をまとめていく目途がたっているため、本プロジェクトは順調に進展していると考える。
|
今後の研究の推進方策 |
2023年度は本プロジェクトの最終年度であるので、研究成果を査読付きジャーナルや国際会議で発表するのはもちろんのこと、本プロジェクトで開発した言語資源やソフトウェアの公開、実社会での応用などに注力していく。昨年度の自然言語処理プラットフォーム技術はツイートを対象とし、スコアやカテゴリで出力するという共通の入出力を備えている。これをWebAPI化し、一般に研究利用可能なように実装する。なお、現在Twitter社のAPIの利用について、今後も継続的に利用可能かどうか見通しが立っていない。このため、Twitter以外のSNSへの対応も検討し、継続的に利用可能な実装とし、公開に向けて準備を進める。 なお、2023年11月末にリリースされたChatGPT以来、生成系AIの研究開発が過熱している。生成系AI、特に大規模言語モデルは人間を代替する存在になりつつあり、幅広い分野の広範囲な分野の転換点になり得る。現状では、大規模言語モデルはタスクに特化したモデルに性能面で及ばないという見方が大勢であるが、大規模言語モデルの中に蓄積されている常識的な知識を引き出したり、大規模言語モデルの推論能力を検証する研究が増えてくると思われる。2023年度は大規模言語モデルを本プロジェクトに応用することについて、検討をさらに進めたい。
|