大規模なコーパスを用いた機械学習による名詞句の項構造解析
Project/Area Number |
08J09545
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 国内 |
Research Field |
Linguistics
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
小町 守 Nara Institute of Science and Technology, 情報科学研究科, 特別研究員(DC2)
|
Project Period (FY) |
2008 – 2009
|
Project Status |
Completed (Fiscal Year 2009)
|
Budget Amount *help |
¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2009: ¥500,000 (Direct Cost: ¥500,000)
Fiscal Year 2008: ¥500,000 (Direct Cost: ¥500,000)
|
Keywords | 自然言語処理 / 機械学習 / コーパス / 大規模データ / 半教師あり学習 / ブートストラッピング法 / 国際研究者交流 / アメリカ / 項構造解析 / かな漢字変換 |
Research Abstract |
本年度は、本研究のベースとなった事態性名詞の述語項構造解析の研究に関して、構文パターンと既存の項構造解析モデルを組み合わせた手法をまとめた論文が出版された。しかしながら、年次計画1年目の後半に予定していた大規模なコーパスからリソースを自動構築する研究が理論面においても実践面においても発展を見せ、研究計画を変更したために、本研究の2年度目に予定していた名詞句の自動項構造解析は実施しなかった。以下では研究計画を変更したあとの研究について述べる。 本年度の研究上の貢献は2つある。1つ目は、1年度目においてグラフ理論に基づく自然言語処理における半教師あり手法(ブートストラッピング)について行った研究をまとめ、発表したことである。グラフ理論的観点からブートストラッピングを解析した研究はこれまでになく、ブートストラッピングに内在する問題点を理論的に明らかにした一方、リンク解析で用いられている手法を自然言語処理にも適用し、語義曖昧性解消のタスクで高い性能が得られることを示した。さまざまなヒューリスティックを用いるブートストラッピングと比較して、使用時に決めなければならない変数の数が少ないため、扱いが容易であることも提案手法の利点の一つである。 2つ目は、ヤフー研究所との共同研究により、検索クリックスルーログをコーパスとした意味カテゴリ辞書の自動構築の研究を行い、検索クリックスルーログが意味カテゴリの獲得に有用な情報抽出源であることを示した。また、日本最大規模のウェブデータを対象として、並列分散環境でも実行できるようなスケーラブルなアルゴリズムを提案し、有効性を示した。 また、本年度は年次計画で予定していた統計的機械翻訳への応用に替え、3ヶ月アメリカ合衆国Apple Inc.に渡航し、統計的自然言語処理(統計的かな漢字変換)に関する研究を行った。
|
Report
(2 results)
Research Products
(11 results)
-
-
-
-
[Presentation] Learning Semantic Categories from Clickthrough Logs2009
Author(s)
Mamoru Komachi, Shimpei Makimoto, Kei Uchiumi, Manabu Sassano
Organizer
Joint conference of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing
Place of Presentation
シンガポール(国:シンガポール)
Year and Date
2009-08-04
Related Report
-
-
-
-
-
-
-