2020 Fiscal Year Research-status Report
日英・英日パラレルコーパスの整備と検索システムの開発およびその活用法
Project/Area Number |
20K00692
|
Research Institution | Kobe Gakuin University |
Principal Investigator |
仁科 恭徳 神戸学院大学, グローバル・コミュニケーション学部, 准教授 (00572778)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | パラレルコーパス / 和英辞典 / 翻訳研究 |
Outline of Annual Research Achievements |
2020年度は主たる研究課題であるパラレルコーパスのオンライン検索システム開発の根幹となる合計9種の既存のパラレルコーパス(Tatoeba日英対訳コーパス:20万対、日英対訳文対応付けデータ:12万対、ロイター日英記事対応付けデータ:7万対、大規模オープンソース日英対訳コーパス:102万対、Wikipedia日英京都関連文書対訳コーパス:44万対、日英法令対訳コーパス:26万対、SCoRE用例コーパス:1万対、日英サブタイトルコーパス:280万対、TED Talk日英コーパス:52万対)の再整備にできる限り努めた。 特に、各パラレルコーパスのフォーマットを統一するためにテキスト処理を施し,英語には品詞情報、日本語には形態素情報を付与した。そして、blacklab query toolを用いて全文検索のインデックスを作成した。詳しくは、テクスト処理として、テクストのクリーニング、エンコーディングの統一(UTF8)、フォーマットの統一、センテンスIDの付与を施した。また、品詞情報・形態論情報を付与した。まず、英文に関しては、Stanford POS Taggerを用いて、表層形、レマ、品詞など品詞に関する情報を付与した。また、日本語に関しては形態素解析器Janomeを使用し、表層形、語彙素、品詞に関する形態論の情報を付与した。 同時にパラレルコーパス研究を進める上で必要となる書籍や論文などの文献収集、和英辞典や国語辞典、日本語関連辞書の収集や調査に努めた。また、当該課題の基礎研究並びに本システム完成後に実施するその活用研究の資料収集に努めた。さらに、和英辞典に関しては具体的な計量調査を実施し、その結果を学術学会で発表し、学術誌に論文として掲載された。 パラレルコーパスの再整備に関しては来年度以降も進める予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究計画書どおりに進んでいることから、概ね順調に研究が進んでいると言える。
|
Strategy for Future Research Activity |
計画通りに本研究は進行しているため、引き続き研究を遂行すべく努めたい。ただし、パラレルコーパスの再整備については、想定以上の労力を必要としているため、本研究課題(および配当されている予算)だけで完成させることのできる検索システムには限界があることも分かってきた。具体的には、本研究課題では構築予定であった13種のパラレルコーパスのうち、利用料などが発生しない9種のコーパスのみを扱うこと、その労力から今回は日英方向のみの検索システム開発に努めるなど、研究が進むにつれて様々な制約や予算・時間上の課題も見えてきた。よって、本研究課題を達成した後も引き続き、当初の計画を成し遂げるべく、研究を続ける予定である。
|