2016 Fiscal Year Research-status Report
Project/Area Number |
15K16053
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
進藤 裕之 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (20734784)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 複単語表現 / 構文解析 / 言語コーパス |
Outline of Annual Research Achievements |
平成28年度は,27年度に引き続き複単語表現のコーパス作成と,複単語表現の解析手法に関する研究を行った. まず,コーパス作成に関しては,英語だけでなく日本語の機能的複単語表現の辞書収集とコーパスアノテーションについて検討を行った.英語に関しては,これまでに機能表現となる複単語表現を中心にコーパス構築を行ってきたが,より網羅性を高めるために,動詞および形容詞となりうる複単語表現の辞書収集およびコーパスアノテーションを実施する準備を進めている.更に,これまで無視されてきた,"a great number of~"のような,複単語表現の中に修飾語(この場合,"great")が入り込む場合について,コーパスから事例を収集してアノテーションを行う準備を進めている.このような非連続となる複単語表現は,コーパス作成に多大なコストがかかるため,アノテーションを全て人手で行うのではなく,計算機を利用して半自動的にコーパスアノテーションを行う等の工夫が必要になると考えられる. 次に,複単語表現の解析手法に関しては,これまでのように文を入力として複単語表現の位置を同定するだけでなく,複単語表現の同定と構文解析とを同時に行う手法を提案し,それぞれ独立に実施するよりも高精度であることを実証した.この実験には,昨年度までに我々が構築した英語の複単語表現のコーパスを用いている.今後は,上記で述べた非連続パターンとなる複単語表現を許容するモデルを提案し,なるべく少ない計算量で動作するアルゴリズムを開発する必要がある.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成28年度に実施予定であった,コーパス作成と,複単語表現の同定と構文解析を同時に行う手法の提案について,どちらも計画通りに研究が進捗している.コーパス作成に関しては,さらに網羅性を高めるため,動詞や形容詞および非連続パターンに拡大していく準備を進めている.複単語表現の解析手法に関しては,当初期待した通り,構文解析と同時に実行することで精度が向上することを実証することができた.
|
Strategy for Future Research Activity |
今後は,前年度に引き続き複単語表現のコーパス・辞書作成を中心に進めていく.また,作成したコーパスや辞書は,LDCなどの言語リソースを配布する組織から世界へ公開し,それが広く使われるように整備していく必要があるため,論文だけでなく,成果物を今後も利用される言語リソースにしていくための作業も行っていく予定である.
|