Project/Area Number |
19024075
|
Research Category |
Grant-in-Aid for Scientific Research on Priority Areas
|
Allocation Type | Single-year Grants |
Review Section |
Science and Engineering
|
Research Institution | NTT Communication Science Laboratories |
Principal Investigator |
塚田 元 NTT Communication Science Laboratories, 協創情報研究部, 主任研究員 (10396145)
|
Co-Investigator(Kenkyū-buntansha) |
磯崎 秀樹 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 主幹研究員 (00396144)
渡辺 太郎 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, リサーチスペシャリスト (90395038)
藤野 昭典 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 研究主任 (50396157)
鈴木 潤 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 社員 (80396150)
須藤 克仁 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 社員 (00396152)
|
Project Period (FY) |
2007 – 2008
|
Project Status |
Completed (Fiscal Year 2008)
|
Budget Amount *help |
¥9,400,000 (Direct Cost: ¥9,400,000)
Fiscal Year 2008: ¥4,700,000 (Direct Cost: ¥4,700,000)
Fiscal Year 2007: ¥4,700,000 (Direct Cost: ¥4,700,000)
|
Keywords | 自然言語処理 / 統計的機械翻訳 / 機械学習 / 識別学習 / 半教師あり学習 / 高次元素性 / 分散計算環境 / 言語情報解析 |
Research Abstract |
本年度は、(1)階層的な句に基づく翻訳手法の高度化(須藤,渡辺,塚田)、および(2)半教師あり学習に基づく言語情報解析法の研究(鈴木,藤野,磯崎)の二つの課題に取り組んだ。 研究課題(1)として,本年度はNTTの研究費によって開発した高次元素性を活用した翻訳手法を,評価型ワークショップIWSLT2008のタスクで評価した.昨年度も高次元素性を活用するアプローチでIWSLT2007に参加したが,今年は文脈情報を含むより高度な素性の活用を検討した.昨年度は翻訳デコーダと密に結合した学習器によって,高次元素性を扱ったが今年より柔軟な素性の扱いを優先し,翻訳結果を再順序付けする学習器で高次元素性を扱うアプローチをとった.最終的に、中英チャレンジタスクにおいて,我々は他チームの1/10〜1/100の量の学習データ(対訳コーパス)で、11チーム中,3位相当の成績を達成することができた. 研究課題(2)としては,昨年度考案した「半教師あり学習法」による固有表現抽出器などのスケーラビリティの確認をさらなる大規模学習データで確認した.昨年度は10億語を超える学習データを利用した実験を行い,その成果は今年度ACL-2008に採録されたが,今年度はデータをさらに増やして40億語近いデータでも実験を行った.その結果,性能がさらに向上することを確認した.この他,NTTの研究費で考案した半教師あり学習に基づく文書分類法を、公開データ(報道記事,NTCIRタスク)で評価し,有効性を確認した.
|
Report
(2 results)
Research Products
(8 results)