2016 Fiscal Year Research-status Report
Project/Area Number |
16K02727
|
Research Institution | Toyohashi University of Technology |
Principal Investigator |
神崎 享子 豊橋技術科学大学, 情報メディア基盤センター, 特任准教授 (00450693)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 複合動詞 / 類義動詞句表現 / 統計的手法 / 多義別類義表現分類 |
Outline of Annual Research Achievements |
本研究の目的は、定量的な調査から複合動詞と動詞(句)表現との意味的関係をとらえると共に、動詞表現の中での位置づけについて分析するものである。本研究の意義としては、複合動詞という動詞の組み合わせから構成される表現は句との関連性が高いが、これまで客観的にデータから単純語だけでなく動詞句表現をとらえ、広く複合動詞との意味的関連性をとらえる研究はなかった。平成28年度はコーパスから約2700語の複合動詞に対する類義表現をリスト化し、複合動詞と類義表現との共通する意味特徴を分析するという計画であった。そのために、コーパスから統計的手法を用いて複合動詞の句を含めた類義表現を抽出する作業を行った。まず京都大学が作成した2億文のwebコーパスから、頻出する40語の複合動詞を取り出し、それらの複合動詞と動詞(句)表現とその共起名詞を抽出した。そして共起名詞を属性として複合動詞と動詞表現語句をベクトル化し、コサイン類似度により類似度を求め、さらにクラスタリング手法を用いて、各複合動詞の多義別に類義表現を自動分類した。結果的に40語の複合動詞ごとに数の異なる意味クラスタ(各複合動詞ごとの多義)と、各クラスタに含まれる類義表現を求めた。そして、国立国語研究所から公開されている『複合動詞レキシコン』と比較評価を行い、60~70%前後ほどの精度で複合動詞の多義ごとのクラスタとそこに含まれる類義表現を得た。本研究については、2017年9月の日中自然言語処理共同研究促進会議と、3月の言語処理学会の全国大会において発表を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
平成28年度はコーパスから約2700語の複合動詞の類義表現リストを作成し、類義的な動詞句から複合動詞の意味分析を行い、平成29年度は国立国語研究所の『分類語彙表』と比較し動詞体系の中の複合動詞表現の位置付けについて考察する、そして平成30年度は論文化という計画である。その中で、まず平成28年度は、複合動詞類義表現リストを作成したが、実験的に40語の複合動詞を対象に行った。予想以上にうまく複合動詞ごとに多義別の類義表現を取得できたのだが、データの取得に失敗している部分や、初期設定、他手法との比較、現在の手法の改良など、結果の精度をあげるために改良を進めてところである。 手法が確立すれば2700語の複合動詞の類義表現を抽出するのは早いので、なるべく人的時間的労力を省くために工夫する。早急に手法を確定して2700語の複合動詞類義表現リストを完成させる予定である。進捗としては少し遅れ気味である。
|
Strategy for Future Research Activity |
手法早急に確定して複合動詞類義表現リストを完成させる予定である。対象とする複合動詞の中には実際の使用では低頻度語もあるので、2700語すべてを対象にできない可能性もあるが、客観的調査のできる複合動詞を対象に、人手による精査で類義表現リストを作成して分析する。各複合動詞の類義動詞句表現リストの作成と平行して、処理の終了した単語から類義動詞句表現をもとにした複合動詞の意味分析を行い今年度前半に完了する、後半では「分類語彙表」との対応付けを行い、動詞体系の中での複合動詞や動詞句表現がどうのように、単純動詞と補完関係にあるのかを分析する予定である。最終年度は、複合動詞の類義表現語句との関係、動詞体系の中での位置づけの二つの観点から日本語動詞表現についてのまとめを行う。
|
Causes of Carryover |
平成28年度は複合動詞の類義表現リストの作成の段階で、対象とする複合動詞の一部である40語の自動抽出で終了したため、購入する物品や、類義表現リスト精査のための人件費等が繰り越された。
|
Expenditure Plan for Carryover Budget |
自動抽出手法確立後、予定通り、すべての対象とする複合動詞に対してデータをとり、また外部に類義表現リストの評価と作成を行ってもらう。今年度は、その関係で物品購入、人件費・謝金、そして論文化のための図書購入、学会参加や発表等などでの旅費の予算を使用する予定である。
|