2021 Fiscal Year Research-status Report
A Cognitive Linguistic Analysis of Discourse Logic Patterns Using Corpora of Spoken English
Project/Area Number |
18K00670
|
Research Institution | Doshisha University |
Principal Investigator |
長谷部 陽一郎 同志社大学, グローバル・コミュニケーション学部, 教授 (90353135)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | 構文文法 / 認知言語学 / 英語話し言葉コーパス / 談話結合子 / 談話論理構造 |
Outline of Annual Research Achievements |
本研究は英語プレゼンテーションのコーパスと検索システムを構築するとともに、それらを用いて英語の話し言葉における談話論理構造のパターンを分析するものである。2021年度には次の成果があった。
第1に本研究で開発しているシステム TED Corpus Search Engine(TCSE)の大規模なアップデートを行った。本システムでは、TED Talksの英語プレゼンテーションのトランスクリプトに品詞解析と統語解析を行い、言語研究や言語教育に資する英語話し言葉コーパスの検索を可能にしている。本年度は、これまで内部で使用していたEnjuに替えて、spaCyを用いた構成に変更するための作業を行った。これにより全体的な性能を向上するとともに、今後、複数の重要な機能追加を行うことが可能になった。例えば、固有表現の抽出や、詳細な文法構造および文脈構造の表示である。現時点では旧システムが稼働しているが、2022年度には新システムを公開できる見込みである。
第2に上記の開発で得られた知見と実際のシステムの利用を通じ、談話論理構造パターン分析の一環として、談話における構文の構造と役割を「構成性」、「線条性」、「記号性」という3つの観点から考察した。構文の構成性とは、対応関係、依存関係、詳述関係に基づき、複数の構文パターンが互いに重ね合わされる仕組みと関係する。線条性は、逐次的な処理の中で「状態」を保持する仕組みと関係する。記号性とは場面とは切り離された記号体を「発話場面」に接地させるための仕組みに関係する。談話の構造をこうした多元的な観点から考察するためには、断片的なデータの集積でなく、論理構造の流れを持ったテクストの大規模なデータベースが必要であり、そのためにTCSEが大きく貢献できることがわかった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究で目標とする英語プレゼンテーションのコーパスと検索システムTCSEの開発に関しては、上述の通り2021年度に大規模なシステムのアップデートを行った。品詞解析・統語解析のための内部ソフトウェアを変更したことで、様々な部分での調整の必要が生じた。また、このアップデートにより可能になる複数の新機能を実装する作業を新規に予定することになった。
本研究課題の目的の達成のために、システムの大規模なアップデートを行わず、すでに実現している機能を用いて論理構造パターンの分析に努めるという方向性もあり得た。しかしながら、今回、大量の開発作業が必要になるアップデートの実施に踏み切ったのは、TCSEの安定的な維持と今後の発展可能性を重視したためである。これまで使用していた品詞解析・統語解析のためのソフトウェアであるEnjuは更新が行われておらず、使用に際して現在の計算機環境(サーバー環境)を大きく変更できないことが明らかになった。これは本研究課題の成果を継続的に公開するにあたり大きな障害となる。また、近年の自然言語処理技術の向上で、現在利用可能な同種の別ソフトウェアには様々な付加機能があり、本システムの性能と利便性を大幅に向上させられることがわかった。こうしたことから本年度は多くのコードを書き換える作業が発生した。また、新たな機能を実装するための基盤となる仕組みづくりが必要となった。
以上のように、本研究の進捗は予定に対してやや遅れている状況である。そこで科学研究費補助金の補助事業期間について1年間の延長を申請し、その承認を受けている。
|
Strategy for Future Research Activity |
2022年度には、TCSEを今後も安定的に利用可能で、かつ現バージョンよりも高機能なシステムとして公開するべく、さらなる開発を実施する。なお、TCSEには国内外から多くのアクセスがあり、利用者による研究成果も公開されつつあるため、システムのリプレースにあたっては既存のユーザー(多くは言語学と言語教育の研究者)にとってなるべく不都合が生じない方策を講じたい。
システムの詳細を記したドキュメンテーションの作成も必要である。現在は旧バージョンの仕様を解説した文書を英語でのみ公開しているが、英語と日本語で新システムに基づいた文書にアップデートすることを予定している。また、検証可能で具体的なデータに基づいた談話論理構造パターンについての分析を国際学会や論文の形で発表するための作業を進めていく。
|
Causes of Carryover |
2021年度に参加予定であった学会への渡航ができなくなったことで次年度使用額が生じた。2022年度にはシステムのさらなる開発やドキュメンテーションの充実のために必要な執行を行う予定である。
|