研究課題/領域番号 |
14J09745
|
研究機関 | 東北大学 |
研究代表者 |
周 振 東北大学, 大学院国際文化研究科, 特別研究員(DC2)
|
研究期間 (年度) |
2014-04-25 – 2016-03-31
|
キーワード | ツリーバンク / 統語解析 / 意味解析 / 中国語 / 動詞連続構文 / 結果構文 / アノテーション / 依存関係 |
研究実績の概要 |
中国語の動詞連続構文および結果構文に関して、統語・意味情報を付加した中国語コーパス (ツリーバンク) の構築という一般的観点にもとづいて、その解析法を考察した。 中国語の動詞連続構文は表層構造が同じように見えても異なる言語情報を伝えるものが多い。このような特別な構文を解析するために、本研究では、まず先行研究を参考にして、それに対して七つの下位カテゴリーを与えた。さらに、文を構成する要素の間の同一指示関係に留意し各下位カテゴリーに対して適切な統語解析を各々付与した。これによって、精度の高い論理意味表示を行い、従来の解析ではなかなか捉えられない中国語の動詞連続構文における統語・意味情報が得られるようになった。 一方、中国語の結果構文は文の構成要素の間の統語・意味関係が非常に複雑なため、これらを形式的に捉えることは従来のやり方では困難である。従って、本研究では、結果構文の深層構造に着目し文頭および文末に来る第一名詞句と述語動詞との意味関係を基にして、中国語の結果構文を七つの種類に分けてそれぞれ統語解析および意味処理を行った。これによって、要素間の同一指示関係や否定の作用域などに関する従来の解析方法ではなかなか捉えられない言語情報が得られるようになり、中国語の結果構文に関する考察をこれまでにない深さにおいて行うことが出来るようになった。 中国語の各構文の解析法を決めていくと同時に、ツリーバンク形式変換プログラム(Penn Treebank 式から Penn Historical Corpora 式まで)の開発も進めている。これによって、統語コーパスの変換(統語解析木の形式変換)を半自動的に行うための言語の差を超えた一般的な手法を提案し、今後様々な使用目的に対応できる基本データの提供が可能になる。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究の用いるアノテーション方式は強力で汎用性が高いものである。それを使うと、統語・意味解析を行う際に直面する様々な課題(長距離依存関係の確定や否定の作用域の操作など)を解決することが出来る。それだけでなく、今までの研究を通して、本研究におけるアノテーション方式がすでに定着した。今後研究が進むにつれて、それに対してある程度の調整を行う必要もあるが、ツリーバンク構築作業の根幹をなすプラットフォームがすでに完成したと思われる。 また、動詞連続構文および結果構文は、中国語を対象とするアノテーション作業の難点が代表できるもっとも典型的な文法項目である。その考察を行うことによって、ほかの中国語構文の解析に示唆を与えることが出来るので、今後の研究がより効率的に進められると考える。 さらに、ツリーの形式変換を行うための手順が今の段階ではすでに決定したため、今後新たな文法項目に関する解析法が決まるたびに、それをプログラム化する作業も比較的に容易に出来ると思われる。
|
今後の研究の推進方策 |
今後、本研究のアノテーション方式を用いて、中国語の“把”構文や受身構文など、他の構文の解析を決定していくと同時に、アノテーション方式自体に関する修正も行いたい。また、各構文の解析に関する論文化も続けていきたい。 このように、より多くの中国語構文に触れることによって、中国語ツリーバンクの解析マニュアルもより熟成するものになれる。一方、研究の進むにつれて、アノテーションの中心も単一の文法項目しか含まない言語データからより一般的なものに移る。 さらに、SCT開発者のButler氏と協力し、SCTを実装した意味処理システムの出力をチェックすることによって、ツリーバンク形式変換プログラムおよび中国語ツリーバンクの解析マニュアルに対する評価と修正も同時に行う。
|