2016 Fiscal Year Research-status Report
修辞・物語構造のデータベース化による人文テキストの計量的分析基盤の構築
Project/Area Number |
26730168
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
村井 源 東京工業大学, リベラルアーツ研究教育院, 助教 (70452018)
|
Project Period (FY) |
2014-04-01 – 2018-03-31
|
Keywords | 物語論 / 計量文献学 / デジタル・ヒューマニティーズ / 自然言語処理 |
Outline of Annual Research Achievements |
物語文における会話文箇所等の,言動主体に関する記述が非常に省略されやすい場合においても,物語中の各場面において誰が何をしたのかを特定し命題として抽出するために,主体推定のための基本的なアルゴリズムの検討およびJAVAプログラムへの実装を行った.構築した主体推定プログラムにおいては,物語テキストを場面に区切り,地の文からその場面に登場する主体(人物等)を推定し,地の文の語り手の推定、各会話文の語り手と聞き手の推定,会話文中での代名詞の対象の推定などを実装した.また日本語に特有の上下関係の明示的な表現を利用し,主体を指し示す語彙の上下関係から主体の上下関係を推定し(例:社長と社員が登場すれば社長が社員より立場が上と推定可能),これらと会話文中での言動の上下関係(例:誰が誰に「命令」するか)のパターンと敬語の利用パターンからマッチングを行って省略された主体の推定も行った. また,主体推定プログラムにおいて必要となる主体語彙辞書の属性要素(性別,年齢,職業などの各要素の詳細化)の拡張を行った. さらに,会話文における主体推定の精度を向上させるため,会話文における特徴的な文体と主体の属性の関係性の基礎的なデータを得るために,現代日本語書き言葉均衡コーパスにおける日本語の物語文に該当するテキストからランダムサンプリングした会話文100サンプル中の5632発話発話に対して人手での属性(話者,聴者,性別,年齢,相手との関係,職業等)のタグ付けを行った.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
人手による物語・修辞構造のデータベースの作成という当初の目的を達成し,自動的な物語構造の特定と抽出の領域にまで現在研究を進められているため.
|
Strategy for Future Research Activity |
会話文における文体のパターンと属性の関係を計量的に分析し,主体語彙推定の精度向上を図るとともに一般的な日本語の物語文におけるキャラクターと文体の関係性を明らかにする.
|
Causes of Carryover |
研究代表者所属変更に伴い年度末での残額調整が困難であったため
|
Expenditure Plan for Carryover Budget |
次年度の消耗品等の費用として利用
|