2017 Fiscal Year Research-status Report
Project/Area Number |
16K02727
|
Research Institution | Toyohashi University of Technology |
Principal Investigator |
神崎 享子 豊橋技術科学大学, 情報メディア基盤センター, 特任准教授 (00450693)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 複合動詞 / 類義表現 / 意味別 / コーパス / 自動抽出 / 動詞と動詞句 / 動詞の意味体系 |
Outline of Annual Research Achievements |
本研究では「動詞+動詞」型の語彙的複合動詞と類義的な動詞表現との意味的関連性を統計的データからとらえる研究である。複合動詞の多義と意味別類義表現を大規模webコーパスデータから抽出し、次年度の複合動詞と関連する動詞あるいは動詞句表現を結ぶ意味的・文脈的特徴を明らかにするためのデータを作成した。 成果については平成28年度、平成29年度には、コーパスから統計的に複合動詞と類似度の高い表現を抽出する手法と自動抽出された表現を精査した。類義表現を自動抽出する複合動詞は国立国語研究所から公開されている「複合動詞レキシコン」に登録されている2700語である。平成28年度には、京都大学が公開する5億文のwebコーパスから約1800語ほどの複合動詞に対して類義表現を自動的に抽出し、さらに複合動詞の多義についても自動的に獲得した。平成29年度には、さらに100億文のwebコーパスを対象にして同手法を試みた。コーパスを増やすと1300語ほどの複合動詞に対して類義表現が抽出され、複合動詞の数が減少した。複合動詞の数の増減はあるが、それぞれの複合動詞ごとに異なる数のクラスタ(ここでは多義の数に相当)を得られ、分類された類義表現なども合わせて評価を行った。自動抽出に対する評価は大体60%ほどの精度であった。複合動詞ごとの意味別類義表現のリストを使って、平成30年度の、複合動詞と動詞句表現との意味的関連性の考察を行う。 意義と重要性については、平成29年度は、100億文の大規模なコーパスから、それぞれの複合動詞の意味別類義表現リストを得られた。抽出手法と複合動詞の多義と類義表現の精査であるが、これまでに得た結果は次年度で行う分析のベースになるもので重要なプロセスである。また大量のデータが利用できる昨今、実際の用法から客観的データで抽出する方法を提案することは副産物としての一つの意義があると考える。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
webデータからなるべく多くの正確な複合動詞の類義表現を抽出するために、平成29年度は手法の試行錯誤を行った。平成30年度の分析の基盤データとなるため、少しでも精度を向上させ、多くの妥当そうな類義表現を獲得することを試みた。平成29年度は、前年度の5億文から100億文のコーパスを使った。どちらも京都大学が構築したwebコーパスである。データが大きくなると処理時間もかかるため研究が少し遅れている。しかし、現在、すでに100億文からの抽出結果を得ている。その結果、類義表現が抽出できた複合動詞が、1700語から1300語に減少した。結果を比較し評価のよい方を、最終年度の分析の基盤とするデータとして使う。
|
Strategy for Future Research Activity |
最終年度は、これまでの2年間かけて大規模webコーパスから抽出し精査した複合動詞とその多義別類義表現を用いて分析を行う。しかし大規模なデータであっても、データの偏りなどでうまく抽出できない場合もあるので、評価の結果、妥当と判断されるデータに対して、複合動詞とその類義表現について、分析を行う。 平成30年度には、これまでに自動獲得した複合動詞の多義と抽出した類義表現のリストをつかって、複合動詞と類義表現との意味的関連性や関係を持つ場合の文脈的特徴、また、分類語彙表などを使って動詞の体系の中での位置付けについて、考察を行う。
|
Causes of Carryover |
データ分析のための評価作業や最終年度の研究発表の際の旅費等で使用予定。
|