2018 Fiscal Year Research-status Report
Project/Area Number |
18K12440
|
Research Institution | Tohoku University |
Principal Investigator |
周 振 東北大学, 国際文化研究科, GSICSフェロー (00792938)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | ツリーバンク / 統語解析 / 名詞句 / 主語 / 主題 / 存現表現 |
Outline of Annual Research Achievements |
今年度は主に中国語のデータベースの構築に取り組んでいた。 今まで決めてきた中国語の句、節、構文の解析方針を再検討しつつ、アノテーションの一貫性の保持に力を入れた上で、解析済のデータに対して修正を行った。また、新しいデータのアノテーションも進めていた。例えば、中国語版Wikipediaに載せてある“秦始皇(始皇帝)”という条目を解析した。この条目には、707文(24, 505語)あまりの中国語データが含まれており、そのほとんどは平均30語を超えた長文である。ハードルの高い解析を挑戦することによって、本研究で採用されているアノテーション方針がさらに磨かれ、その実用性と信頼性が検証されつつ一層上昇できたと考えられる。なお、その成果の一部を二本の論文にまとめた。その一本は、まだ『中国語学 第265号』に投稿中だが、もう一本の「統語・意味情報付きコーパスの開発に関する研究:中国語名詞句の解析について」という論文は、『国立国語研究所論集 第17号』での掲載が決まった。 また、コーパスの中のデータをより外国語教育という目的を重んじるものに変換するためのプログラムを作成するために、外国語教育の視点から中国語の各構文に関する再考察も行った。その一例として、中国語の存在表現が挙げられる。本研究は、従来中国語の学習者を困らせてきた存在表現をめぐる様々な問題(例えば、“有”と“在”の相違、存在表現における各構成要素の文法成分の決定、場所を示すために方位詞を追加する制限の強弱、など)を、中国語という大きな枠組みの中でシステマティックに考察した。これによって、中国語の存在表現の特徴がより一般的に捉えられただけでなく、それと他の文法事項との関連性や共通性も視野に入れられるようになった。なお、その成果の一部は、中国語教育学会第16回全国大会および言語科学会第20回年次国際大会で発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究は、これまで中国語の句、節、構文の解析についての研究成果を多く蓄積してきた。これにより、中国語の長文をはじめとする各種のデータを論理的でシステムティックにアノテーションしていくための土台が構築できつつあると考えられる。その下で、今後コーパスのデータの安定的な増加が予測されます。 アノテーションしたデータの量が多くなるにつれて、構文解析器の精度も少しずつ向上している。本研究は、構文解析器を経過した初歩的な統語解析の結果を修正するのに大量の時間と労力を投入してきた。今後この傾向に何か根本的な改善をもたらすことができるとは到底予期しないが、パーザーの精度の向上が手修正の手間の軽減につながるということは確実だと考えられる。このプラスの循環がこれからも続いていくと思われる。 研究代表者は外国語教育の現場で中国語教育に関する経験を積み重ねている。中国語学習者がいったい何を求めているのかということについての自分なりの認識を深めていると同時に、学習者のニーズに応えられるデータはどのようなものであるべきかという課題についての研究代表者自身の見解も成熟している。これは今構築しているデータベースの実用性の向上につながっていると考えられる。 研究代表者は去年の10月から国立国語研究所の共同研究員になった。今後、その機関拠点型共同研究プロジェクト「統語・意味解析コーパスの開発と言語研究」のメンバーからの本格的な協力と支援が期待できる。
|
Strategy for Future Research Activity |
今後これまでの解析方針をさらに磨き続け、旧データに対する修正と新データに対するアノテーションを行っていく。また、外国語教育という視点からの中国語の各表現に関する再考察も同時に進めていく。データの蓄積がある程度の量に達したら、ユーザーインターフェイスの開発に取り組む予定である。 課題としては、研究代表者の現在の身分(GSICSフェロー)では、科学研究費を使ってアノテーターを雇うことが簡単にできないとこの前大学側から伝えられた。データの量を増やしていくことが本研究にとって肝心だが、アノテーション作業を実際に実施しているのが研究代表者一人だけであるという現状を変えない限り、データの量の大幅な増加が期待しにくいと思われる。今後アノテーターの安定的な雇用を実現できるよう積極的に大学側と相談・交渉していくつもりだが、もしやはり無理があるようだったら、許可できる範囲内において研究計画の適度の修正を検討する可能性もある。
|
Causes of Carryover |
研究代表者の現在の身分(GSICSフェロー)では、科学研究費を使ってアノテーターを雇うことが簡単にできないと大学側から伝えられた。従って、今年度は人件費の分を他の項目に分け合ったが、計算に少しずれが生じ、その結果次年度使用額がわずかながら残っていた。 次年度はアノテーターの安定的な雇用を実現できるよう積極的に大学側と相談・交渉し、その結果に合わせて経費を計画的に使用していきたい。
|