2012 Fiscal Year Research-status Report
大規模コーパスを使用した日本語複合動詞データベース構築法に関する基礎研究
Project/Area Number |
23652098
|
Research Institution | Osaka University |
Principal Investigator |
今井 忍 大阪大学, 日本語日本文化教育センター, 准教授 (20294176)
|
Keywords | 複合動詞 / 日本語 / データベース |
Research Abstract |
今年度は、1)データベース作成方法の具体的な手順に関する考察、2)今年度に公表された2種類の複合動詞データベース(「Webデータに基づく複合動詞データベース」「複合動詞レキシコン」、いずれも国立国語研究所のホームページからアクセス可能)の検討を行った。 1)については、小規模なテキストデータを使って複数の方法でデータ抽出を行った。その結果、形態素解析と係り受け解析によって複合動詞全体の格支配の抽出はある程度自動化できるものの、人手によるデータのチェックを行わなければ十分なデータが得られないことが分かった。また、表記上、一語として扱われるもの(「認める」「率いる」など)をどのように扱うかについても問題が生じることが分かった。2)に関して言えば、「Webデータに基づく複合動詞データベース」は格解析の手順について参照すべき点が多いことが分かったが、動詞の組み合わせが限られている点、受身・使役の形式が含まれない点に問題があると考えられる。また、「複合動詞レキシコン」については、格支配だけでなく意味情報を含んでいる点で本研究の目的に合致するものであるが、収録されている形式が限られており様々な動詞の組み合わせを網羅的に抽出するものではないことがわかった。また、これらのデータベースはいずれも特定のコーパスから一回的に抽出されたものであり、本稿が目的とする抽出の手順そのものの構築とは目的が異なることも分かった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
複合動詞の構成要素の網羅的組み合わせを抽出することにやや困難があることが判明し、その解決方法を考察するのにやや時間がかかったため、当初の予定からやや遅れている。また、ヴォイスを含む形式の扱いについても考察に時間がかかっている。
|
Strategy for Future Research Activity |
自然言語処理を専門とする研究者に協力を仰ぎたいと考えている。すでに、そのような研究者との非公式的な談話を始めており、今年度は共同で作業を行う予定である。
|
Expenditure Plans for the Next FY Research Funding |
次年度は最終年度に当たるため、データベースの構築方法について具体的な成果を得たい。そのために、自然言語処理を専門とする研究者との打ち合わせを行う。また、成果を公開するための費用も必要となる。
|