2022 Fiscal Year Annual Research Report

常識的知識を活用した言語理解・推論に基づく議論マイニングの新展開

Research Project

Project/Area Number	19H01118
Research Institution	Tokyo Institute of Technology
Principal Investigator	岡崎直観東京工業大学, 情報理工学院, 教授 (50601118)
Co-Investigator(Kenkyū-buntansha)	荒牧英治奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (70401073)
Project Period (FY)	2019-04-01 – 2024-03-31
Keywords	自然言語処理
Outline of Annual Research Achievements	研究項目1では、大規模言語データから学習した単語埋め込みを、人間が構築した知識に適応させることで、意味を捉える性質を改善できるだろうか、という問いに取り組んだ。具体的には、語義間の意味関係を教師信号として、文脈依存型単語埋め込みおよび語義埋め込み同士の距離を調節する手法を提案した。提案手法を語義曖昧性解消タスクで評価したところ、知識ベース語義曖昧性解消の最高精度を達成した。本研究成果は言語処理学会年次大会で発表したところ、優秀賞との評価を得た。研究項目2では、ソーシャルメディアの自然言語処理プラットフォームの構築を進めた．これは（１）Twitterテキストからの位置情報推定，（２）想定発信先（テキストの読み手の想定）の推定，（３）発言による炎上のリスク（侮辱や名誉毀損などの訴訟リスク）の推定といったソーシャルメディアを利活用するために有益な情報を付与するシステムを統合したものである．それぞれのシステムについては言語処理学会年次大会にて発表を行った．特に，（２）は，企業賞を受賞するなど評価を得た．研究項目3では、研究項目2の成果と統合するため、画像や動画とテキストの両方を入力して推論するアーキテクチャの研究に取り組んだ。複数文および複数画像から成るマルチモーダル文書を理解するシステムの構築を目指し、文書内における画像を意味的に望ましいテキストに割り当てる新たなタスクImage-to-Text Matching (ITeM)を提案した論文が自然言語処理というジャーナル論文に採択された。また、動画とテキストの両方を入力して翻訳を行うデータセットに対して、動画から与えられる知識が機械翻訳に与える影響を調べた研究は、Journal of Information Processingというジャーナル論文に採択された。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本研究プロジェクトは4年目が経過し、雑誌論文や国際会議などの査読付きの論文発表が増えてきている。また、本報告書には含めていないが、現段階で2023年度の成果として査読付き論文の発表が3件予定されている。また、2022年度の成果を言語処理学会第29回年次大会で発表したところ、優秀賞およびスポンサー賞を受賞するなど、本プロジェクトの研究成果の対外的な評価も高まっている。このように、残り1年間で成果をまとめていく目途がたっているため、本プロジェクトは順調に進展していると考える。
Strategy for Future Research Activity	2023年度は本プロジェクトの最終年度であるので、研究成果を査読付きジャーナルや国際会議で発表するのはもちろんのこと、本プロジェクトで開発した言語資源やソフトウェアの公開、実社会での応用などに注力していく。昨年度の自然言語処理プラットフォーム技術はツイートを対象とし、スコアやカテゴリで出力するという共通の入出力を備えている。これをWebAPI化し、一般に研究利用可能なように実装する。なお、現在Twitter社のAPIの利用について、今後も継続的に利用可能かどうか見通しが立っていない。このため、Twitter以外のSNSへの対応も検討し、継続的に利用可能な実装とし、公開に向けて準備を進める。なお、2023年11月末にリリースされたChatGPT以来、生成系AIの研究開発が過熱している。生成系AI、特に大規模言語モデルは人間を代替する存在になりつつあり、幅広い分野の広範囲な分野の転換点になり得る。現状では、大規模言語モデルはタスクに特化したモデルに性能面で及ばないという見方が大勢であるが、大規模言語モデルの中に蓄積されている常識的な知識を引き出したり、大規模言語モデルの推論能力を検証する研究が増えてくると思われる。2023年度は大規模言語モデルを本プロジェクトに応用することについて、検討をさらに進めたい。

Research Products
(11 results)

All 2023 2022

All Journal Article (2 results) (of which Peer Reviewed: 2 results, Open Access: 2 results) Presentation (8 results) (of which Int'l Joint Research: 2 results, Invited: 2 results) Book (1 results)

[Journal Article] ITeM: Image-to-Text Matching for Multimodal Documents2022
- Author(s)
  Muraoka Masayasu, Okazaki Naoaki, Kohita Ryosuke, Ishii Etsuko
- Journal Title
  
  Journal of Natural Language Processing
  
  Volume: 29 Pages: 1198～1232
- DOI
  10.5715/jnlp.29.1198
- Peer Reviewed / Open Access
[Journal Article] Why Videos Do Not Guide Translations in Video-guided Machine Translation? An Empirical Evaluation of Video-guided Machine Translation Dataset2022
- Author(s)
  Yang Zhishen, Hirasawa Tosho, Komachi Mamoru, Okazaki Naoaki
- Journal Title
  
  Journal of Information Processing
  
  Volume: 30 Pages: 388～396
- DOI
  10.2197/ipsjjip.30.388
- Peer Reviewed / Open Access
[Presentation] 埋め込み表現の意味適応による知識ベース語義曖昧性解消2023
- Author(s)
  水木栄, 岡崎直観
- Organizer
  言語処理学会第29回年次大会 (NLP2023)
[Presentation] ツイート発言の座標またはグリッドの予測基盤の開発2023
- Author(s)
  大西駿太朗，矢田竣太郎，若宮翔子，荒牧英治
- Organizer
  言語処理学会第29回年次大会 (NLP2023)
[Presentation] 誰に向けた発言か？：ツイートの指向性推定2023
- Author(s)
  清基英則，劉康明，矢田竣太郎，若宮翔子，荒牧英治
- Organizer
  言語処理学会第29回年次大会 (NLP2023)
[Presentation] 権利侵害と不快さの間：日本語人権侵害表現データセット2023
- Author(s)
  久田祥平，若宮翔子，荒牧英治
- Organizer
  言語処理学会第29回年次大会 (NLP2023)
[Presentation] オンライン議論の過熱と感情的投稿に関するダイナミクス2023
- Author(s)
  小林将大，矢田竣太郎，若宮翔子，荒牧英治
- Organizer
  第15回データ工学と情報マネジメントに関するフォーラム (DEIM2023)
[Presentation] ExtraPhrase: Efficient Data Augmentation for Abstractive Summarization2022
- Author(s)
  Mengsay Loem, Sho Takase, Masahiro Kaneko, and Naoaki Okazaki
- Organizer
  Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies: Student Research Workshop (NAACL SRW)
- Int'l Joint Research
[Presentation] Towards controllable, faithful, and explainable text generation2022
- Author(s)
  Naoaki Okazaki
- Organizer
  Advances in Data Science and AI Conference 2022 (ADSAI 2022)
- Int'l Joint Research / Invited
[Presentation] 近傍の事例を活用したニューラル言語生成2022
- Author(s)
  岡崎直観
- Organizer
  NAIST DSC NLP Seminar 2022 Summer
- Invited
[Book] IT Text 自然言語処理の基礎2022
- Author(s)
  岡﨑直観、荒瀬由紀、鈴木潤、鶴岡慶雅、宮尾祐介
- Total Pages
  320
- Publisher
  オーム社
- ISBN
  978-4-274-22900-8

2022 Fiscal Year Annual Research Report

常識的知識を活用した言語理解・推論に基づく議論マイニングの新展開

Principal Investigator

岡崎 直観 東京工業大学, 情報理工学院, 教授 (50601118)

Current Status of Research Progress

Reason

Research Products

[Journal Article] ITeM: Image-to-Text Matching for Multimodal Documents2022

Author(s)

Journal Title

DOI

[Journal Article] Why Videos Do Not Guide Translations in Video-guided Machine Translation? An Empirical Evaluation of Video-guided Machine Translation Dataset2022

Author(s)

Journal Title

DOI

[Presentation] 埋め込み表現の意味適応による知識ベース語義曖昧性解消2023

Author(s)

Organizer

[Presentation] ツイート発言の座標またはグリッドの予測基盤の開発2023

Author(s)

Organizer

[Presentation] 誰に向けた発言か？：ツイートの指向性推定2023

Author(s)

Organizer

[Presentation] 権利侵害と不快さの間：日本語人権侵害表現データセット2023

Author(s)

Organizer

[Presentation] オンライン議論の過熱と感情的投稿に関するダイナミクス2023

Author(s)

Organizer

[Presentation] ExtraPhrase: Efficient Data Augmentation for Abstractive Summarization2022

Author(s)

Organizer

[Presentation] Towards controllable, faithful, and explainable text generation2022

Author(s)

Organizer

[Presentation] 近傍の事例を活用したニューラル言語生成2022

Author(s)

Organizer

[Book] IT Text 自然言語処理の基礎2022

Author(s)

Total Pages

Publisher

ISBN

岡崎直観東京工業大学, 情報理工学院, 教授 (50601118)