2017 Fiscal Year Annual Research Report
文書構造と言語表現の対応づけによる多言語文書作成方式の構築と評価
Project/Area Number |
17H06733
|
Research Institution | Nagoya University |
Principal Investigator |
宮田 玲 名古屋大学, 工学研究科, 助教 (70804300)
|
Project Period (FY) |
2017-08-25 – 2019-03-31
|
Keywords | 文書構造化 / 機械翻訳応用 / 制限言語 / プリエディット / 自治体情報 |
Outline of Annual Research Achievements |
本研究の目的は、効果的な情報伝達を可能とする文書構造と言語表現を解明し、機械翻訳システムを用いた多言語文書作成方式を構築・検証することである。具体的には、(1)書くべき内容とその順序を決める上で指針となる文書構造を設計すること、(2)文書構造内の要素に応じた言語表現のパターンを同定し、ルール化すること、(3)自動的に多言語版を生成するための機械翻訳前処理・後処理手法を構築し、その有効性を検証することである。対象データは主に自治体の生活情報・観光情報・災害情報とし、言語は日本語・英語を扱う。本年度は主に以下の研究を行った。 ・研究データの整備:これまで収集していた自治体の生活情報に関するコーパスを拡張する形で、WebサイトやPDFの文書から日英対訳のデータを追加した。生活情報データ約1万5000文対に対して、文書内位置情報(本文/見出し/箇条書きなど文書中の位置に関する情報)を整備した。また観光情報(主に地域の文化財や宿泊に関する情報)に関する日英対訳データも収集した。 ・文書の構造化:既に構築済の「手続き型」文書(住民登録の仕方や転出届けの出し方など)の構造を参考にしつつ、「概念型」(特定の制度や用語の説明)と「参照型」(他の情報源への誘導)の文書の構造化を進めた。 ・機械翻訳が困難な言語表現の整理:日英翻訳を対象に、近年主流となりつつあるニューラル機械翻訳の翻訳エラーを分析しながら、翻訳困難箇所の同定と書き換え方法の考案を行った。約80タイプの翻訳困難表現を同定し、それらの一部については、自動的に検出する方法及び自動的に翻訳しやすい形に書き換える方法を検討した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
・研究データの整備:PDFからのデータの抽出に時間を要したが、生活情報や観光情報については、十分な量のデータが集まり、文書へのアノテーションも概ね完了している。災害情報は一過性のものが多く収集がやや遅れているため、次年度も継続的に収集作業を行う。 ・文書の構造化:「手続き型」の文書に比べて、「概念型」の文書は、書かれる内容が多様で統一的な構造で定式化することが難しいことが判明した。現時点では構造化が完了していないものの、もう一段階概念のクラスを絞って整理するなど構造化への見通しは立っている。 ・機械翻訳が困難な言語表現の整理:当初の予定より大幅に進んでおり、文書構造との対応付けや自動検出・書き換え手法の検討も部分的に行っている。また特定言語表現の自動検出のためのモジュールを整えており、ルールの追加などは容易に行える状態である。
|
Strategy for Future Research Activity |
今後は主に以下の作業を行う。 ・文書要素内の言語表現パターンの定義:各文書要素に応じて、言語表現パターンを整理する。特に文末表現(例:~する、~しましょう、~してください)に注目し、望ましい表現パターンを定義する。まずは日本語を対象に作業を進め、続いて英語でも同様の手続きでパターンの抽出・定義を行う。 ・文書品質の評価:第一年度で設計した文書構造が実際に読み手の理解を促進するものであるかを検証するため、作成した文書品質(日本語)を評価する。タスクベースの文書評価プロトコルを採用する。 ・翻訳前処理・後処理手法の構築:これまでは主に前処理による翻訳結果のコントロールを検討していたが、後処理手法も検討し、最適な方法を選択する。また機械翻訳システムを用いた前処理・後処理の有効性の検証を行う。
|
Research Products
(5 results)