2013 Fiscal Year Research-status Report
Project/Area Number |
25730136
|
Research Category |
Grant-in-Aid for Young Scientists (B)
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
NEUBIG Graham 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (70633428)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 機械翻訳 / 訳選択 / 自然言語処理 / 機械学習 / 評価尺度 |
Research Abstract |
本年度は、機械翻訳における訳選択の精度向上に向けた調査とシステム構築に取り組み、主に3つの研究成果があった。 1つ目の成果は、実験のベースとなる翻訳システムの構築である。人手により構築されたルールベース機械翻訳(RBMT)の知見を統計的機械翻訳(SMT)に取り入れるために、RBMTと類似した形のSMTシステムが必要となる。これを実現するために、文の構造を利用したSMTシステムを構築し、オープンソースソフトとして公開した。また、システムの実験的評価において、文の構造を英日・日英機械翻訳に直接取り入れることで、既存の翻訳手法を大幅に上回る翻訳精度を実現できた。 2つ目の成果は、SMTに用いる対訳データの小規模化に関する研究である。データを小規模化することにより、本研究の目標であるモデルの小規模化を実現することができるが、単純にデータをランダムに選択すると大幅な精度低下が起こり得る。そこで、大量のデータの中から、頻繁に起こる対訳パターンを特定し、この対訳パターンを確実にカバーするデータを選択する手法を確立した。この対訳データを学習に利用することで、精度の低下を防ぎながらモデルを小規模化できることを、実験的評価により確認した。 3つ目の成果は、訳選択の根拠を自動的に発見するのに欠かせない自動評価尺度の調査である。調査の結果、既存の評価尺度の問題を特定し、訳選択の正確性を正しく評価できる新たな評価尺度の確率の重要性を明らかにした。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
25年度の目標である「人間の訳選択の根拠に関する調査」に関しては、対外発表に至っていないが、データの収集と初期の分析を完了している。この分析で得られた知見に基づいて、訳選択誤りの分類が確立しつつあり、この分類に基づいてさらにデータを作成してもらう予定である。 25~26年度の目標である「訳選択の根拠の自動発見技術の開発」に関しては、基礎的な学習アルゴリズムを開発し、小規模なデータに対して確認済みである。また、ルールベース翻訳の知見を人手で統計翻訳に取り入れた実験も行っている。 26年度以降の目標である「訳選択の根拠を考慮した翻訳システムの構築」に関しては、ベースとなる構文情報を用いた翻訳システムの構築が完了した。訳選択の根拠を自動的に発見する技術の開発をこの枠組みと同時に開発しており、すぐに適応可能である。 このことから、25年度の目標は未完成な部分がある一方、26年度以降の目標は大幅に前倒しに進んでいることから、研究はおおむね順調に進んでいると言える。
|
Strategy for Future Research Activity |
26年度の予定として主に3つの課題に取り組む予定である。 まず、「人間の訳選択の根拠に関する調査」に関しては、25年度に考案した誤りの分類に基づいて、大規模なデータを作成する予定である。このデータ作成が終了してから、分析を行い、翻訳誤りと見なされる条件について考察を行う。また、誤りと見なされない翻訳の揺れを許しながら、誤りと見なされる翻訳の揺れを許さない翻訳ルール獲得枠組みを考案する。 また、「訳選択の根拠の自動発見技術の開発」に関しては、25年度に開発した学習アルゴリズムを大規模データで利用できるように拡張するとともに、前述の考察の結果を取り入れたルールを学習する枠組みを考案する。特に、RBMTシステムに利用されている情報(例えば、動詞の訳出を選択する時の項のカテゴリー)に着目する。 最後に、「訳選択の根拠を考慮した翻訳システムの構築」に関しては、25年度にベースとなるシステムが完成されたため、訳選択の根拠の自動発見技術が完成すれば、すぐに実環境の翻訳実験も実行可能である。
|
Expenditure Plans for the Next FY Research Funding |
平成25年度の目標の1つであった誤り情報付きコーパスの作成が主な原因である。その理由として(1)小規模コーパスに同様のアノテーションを行った際、アノテーション基準の詳細を検討する必要があることが発覚したこと (2)一部平成26年度に予定していたシステムの作成が思ったより早く平成25年度に行うことになったことが挙げられる。 現在、アノテーション基準は完成しており、コーパスの作成を業者に発注しているため、これに当たる作業にかかる費用を繰越分で満てる予定である。
|
Research Products
(6 results)