• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2012 年度 実施状況報告書

大規模コーパスを使用した日本語複合動詞データベース構築法に関する基礎研究

研究課題

研究課題/領域番号 23652098
研究機関大阪大学

研究代表者

今井 忍  大阪大学, 日本語日本文化教育センター, 准教授 (20294176)

キーワード複合動詞 / 日本語 / データベース
研究概要

今年度は、1)データベース作成方法の具体的な手順に関する考察、2)今年度に公表された2種類の複合動詞データベース(「Webデータに基づく複合動詞データベース」「複合動詞レキシコン」、いずれも国立国語研究所のホームページからアクセス可能)の検討を行った。
1)については、小規模なテキストデータを使って複数の方法でデータ抽出を行った。その結果、形態素解析と係り受け解析によって複合動詞全体の格支配の抽出はある程度自動化できるものの、人手によるデータのチェックを行わなければ十分なデータが得られないことが分かった。また、表記上、一語として扱われるもの(「認める」「率いる」など)をどのように扱うかについても問題が生じることが分かった。2)に関して言えば、「Webデータに基づく複合動詞データベース」は格解析の手順について参照すべき点が多いことが分かったが、動詞の組み合わせが限られている点、受身・使役の形式が含まれない点に問題があると考えられる。また、「複合動詞レキシコン」については、格支配だけでなく意味情報を含んでいる点で本研究の目的に合致するものであるが、収録されている形式が限られており様々な動詞の組み合わせを網羅的に抽出するものではないことがわかった。また、これらのデータベースはいずれも特定のコーパスから一回的に抽出されたものであり、本稿が目的とする抽出の手順そのものの構築とは目的が異なることも分かった。

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

複合動詞の構成要素の網羅的組み合わせを抽出することにやや困難があることが判明し、その解決方法を考察するのにやや時間がかかったため、当初の予定からやや遅れている。また、ヴォイスを含む形式の扱いについても考察に時間がかかっている。

今後の研究の推進方策

自然言語処理を専門とする研究者に協力を仰ぎたいと考えている。すでに、そのような研究者との非公式的な談話を始めており、今年度は共同で作業を行う予定である。

次年度の研究費の使用計画

次年度は最終年度に当たるため、データベースの構築方法について具体的な成果を得たい。そのために、自然言語処理を専門とする研究者との打ち合わせを行う。また、成果を公開するための費用も必要となる。

URL: 

公開日: 2014-07-24  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi