研究課題/領域番号 |
21H03497
|
研究機関 | 名古屋大学 |
研究代表者 |
佐藤 理史 名古屋大学, 工学研究科, 教授 (30205918)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | 自然言語処理 / 発話文 / 表現文型 |
研究実績の概要 |
本年度は以下の研究を行なった。 (1)発話文表現文型辞書の整理・改良:辞書エントリを記述するための文末フレームを新たに導入した。これと連動して、文末の文型を、(a)中核的意味を担う部分、(b)いわゆる助動詞の類、(c)終助詞の類と文末記号、の3つの部分に分けて記述する方式に変更し、 (a)97種類、(b)87種類、(c)75種類に整理した。同時に、発話意図と接続形式の関係を整理した。 (2)小説発話に対する意図付与:発話文表現文型辞書の発話意図の抜本的見直しの準備として、現実の小説の発話に対してその意図を付与することを試みた。その結果、現在の辞書ではカバーできていない発話意図が存在することが明らかになった。 (3)複数の手掛かりを利用した話者推定:実際の小説に現れる発話(セリフ)の話者を自動推定する新しい方法として、口調に基づく推定方法を開発した。まず、既存小説から抽出したセリフを10種類の口調に分類する分類器をBERTをファインチューンングして構成する。そして、その出力層の直前の層を口調ベクトルとみなす。実際の話者推定では、推定対象話者の少量のセリフからその話者の代表口調ベクトルを作成し、ベクトルの類似度に基づきて話者を決定する。さらに、この方法と、地の文からの話者候補生成を組み合わせた話者推定システムを実現した。このシステムでは、地の文に基づく話者候補生成で候補が1名に絞れたセリフを使って各話者の代表口調ベクトルを求め、口調に基づく話者推定を適用する。主要登場人物を対象とした話者推定実験では、79%の推定精度が得られた。 (4)小説発話文データベースの状況:これまで発話(セリフ)のみを対象に電子化していたが、(3)の実験に必要になったため、地の文を含む全文を電子化するように方針を変更し、3冊の小説に対してこの作業を完了した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
(1)発話文表現文型辞書に関しては、辞書エントリの記述の改良を行い、全体の見通しがよくなったが、発話意図に横断的に観察される言語特徴を整理するところまでは至らなかった。この部分は、特定の人物の発話のスタイルに一貫性をもたらすという意味で重要であり、今後の整理が必要である。 (2)発話文生成機構に関しては、上記辞書の整理に手間取り、昨年度からは大きな進展がなかった。ただし、発話生成モジュールは、新しい辞書の記述形式に対応するように修正してあり、辞書のエントリを指定することによって、多様な文末形式の発話を生成することはできる。 (3)小説テキストを対象とした発話の話者推定に関しては、大きな進展があった。日本語の小説は、英語の小説と比較して、話者が地の文で明示されない場合が多い。この課題に対して、口調を利用した話者推定は、十分に機能する。さらに、地の文に現れる手がかりを併用することにより、あらかじめ訓練例を用意しなくとも、話者推定が可能となった。 これらをまとめると、全体としては若干遅れているという状態である。
|
今後の研究の推進方策 |
最終年度の2023年度は、以下のことに取り組む (1)発話文表現文型辞書の改良:発話意図に横断的に観察される言語特徴を整理して話者依存性が高い言語特徴のグループを洗い出し、可能であれば選択リストの形式にまとめる。 (2)話者の人物像を反映した発話文生成機構の実現:表現文型辞書を利用して、話者の人物像、発話内容、発話意図の3つを入力から、話者の人物像を反映した発話文を生成する機構を実現する。これは、2021年度に試作したシステムを再検討・再構成する形で進める。これと平行する形で、話者の人物象の代わりに、特定のキャラクタの数十件規模の発話サンプルを与え、そこからキャラクタの口調ベクトルを計算し、それを直接利用してキャラクタらしい発話を生成する方式も検討する。 (3)小説の会話文の話者推定の高度化:小説テキストを入力として、そこに現れる会話文の話者(登場人物のひとり)を推定する方法の高度化に取り組む。2022年度は、主要登場人物の発話のみを対象として80%弱の推定精度を達成したが、本年度は、推定対象発話をすべての発話にも広げ、推定話者に「主要登場人物以外の人物(other)」も含める問題設定で、どの程度の精度が達成できるかを調べる。2022年度は、主要登場人物のリストは外から与えられるものとしたが、余力があれば、小説テキストから主要登場人物の検出にも取り組み、外部入力なしで小説テキストの会話文に話者を付与するシステムの実現を目指す。
|