研究課題/領域番号 |
23K28378
|
補助金の研究課題番号 |
23H03689 (2023)
|
研究種目 |
基盤研究(B)
|
配分区分 | 基金 (2024) 補助金 (2023) |
応募区分 | 一般 |
審査区分 |
小区分90020:図書館情報学および人文社会情報学関連
|
研究機関 | 東京大学 |
研究代表者 |
宮田 玲 東京大学, 大学院教育学研究科(教育学部), 講師 (70804300)
|
研究分担者 |
藤田 篤 国立研究開発法人情報通信研究機構, ユニバーサルコミュニケーション研究所先進的音声翻訳研究開発推進センター, 主任研究員 (10402801)
阪本 章子 関西大学, 外国語学部, 教授 (40964705)
香川 璃奈 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (10824675)
|
研究期間 (年度) |
2023-04-01 – 2027-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
17,810千円 (直接経費: 13,700千円、間接経費: 4,110千円)
2026年度: 3,120千円 (直接経費: 2,400千円、間接経費: 720千円)
2025年度: 4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
2024年度: 5,200千円 (直接経費: 4,000千円、間接経費: 1,200千円)
2023年度: 5,070千円 (直接経費: 3,900千円、間接経費: 1,170千円)
|
キーワード | 翻訳資源 / 機械翻訳 / 自治体支援 / 文書アーカイブ / 翻訳メモリ / 翻訳テクノロジー / 多言語用語集 |
研究開始時の研究の概要 |
本研究では、自治体による住民向けの多言語情報発信を支援するために、自治体横断的に利用できる翻訳資源を構築し、公開する。 翻訳資源は、翻訳文書アーカイブ(各種の情報を付与し、整理した対訳文書の集合)、拡張翻訳メモリ(内容・スタイル・用語を統制し、テンプレート化した対訳文の集合)、統制対訳用語集(標準的な表記を定めた対訳用語集)の3つから構成され、文書・文・用語の各レベルでのテキストの再利用と統制を可能とする。また、翻訳資源を訓練データとして活用した機械翻訳を実装する。構築した翻訳資源は、多面的に評価・検証した 上で、その利用ツール・ガイドとともに公開する。
|
研究実績の概要 |
2023年度は、以下の研究を進めた。 (1)自治体文書の基礎データの収集:日本の自治体ウェブサイトを広く対象として、自動で対訳文書候補を収集した。データを収集できた自治体のうち、都道府県2団体、市4団体、町4団体、村2団体の計12団体を選定し、主な対象とした。 (2)自治体向け現状把握アンケートの準備:大阪府吹田市と連携して、自治体における翻訳業務の課題や機械翻訳等の翻訳テクノロジーの活用に関するニーズを調査するためのアンケートを作成した。 (3)翻訳資源の構築:(a)愛知県名古屋市から提供を受けた多言語対訳文書を整理して、クリエイティブコモンズライセンス(CC BY)で公開した。(b)令和6年能登半島地震の被災者支援ポータルサイト(https://aidfor.ishikawa-pref.supportnavi.jp)で提供されるテキストから災害分野の日本語用語を人手で抽出し、多言語(英・中・韓・越・葡)に翻訳した。(c)一般公開されている自治体情報テンプレートである「ユニバーサルメニュー標準テンプレート」の一部を対象に、英語翻訳版を作成した。 (4)機械翻訳研究用データの構築:(3)で構築した名古屋市の対訳文書データをベースとして用いて、(a)機械翻訳文と人手後編集文のデータセット(MTPEdocs)、(b)原文と機械翻訳文に対する単語レベル翻訳品質推定ラベル付きデータセット(QEdatasetJaEn)、(c)機械翻訳文と後編集文の対をプリミティブな編集操作の系列に分解したデータセット(DecomposedMTPE)を作成し、いずれもクリエイティブコモンズライセンス(CC BY-NC-SA)で公開した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
当初の予定では、2023年度は主に、(1)研究基礎データとなる自治体分野の大規模な対訳文書の構築、(2)自治体向けの基礎調査アンケートの実施、(3)翻訳文書アーカイブ・拡張翻訳メモリの構築を進める予定であった。いずれも進展があったが、(a)当初予定していた学生の雇用を中心とする人的作業体制が研究代表者の異動により利用できなくなったこと、(b)アンケートの実施に関する自治体との調整に時間を要したこと、(c)データの権利関係の確認・処理に時間を要したことから当初の計画に遅れが生じた。しかし一方で、次年度以降の課題でもある機械翻訳研究用データの構築など先行して進めることができ、研究期間全体としては大きな遅れは生じていないと判断し、「やや遅れている」の評価とした。なお、当初の計画にはなかったが、令和6年能登半島地震における被災者支援ポータルサイトの多言語化プロジェクトに携わった。ポータルサイトに翻訳資源を搭載した機械翻訳の導入がなされるなど、社会的な成果還元に関する進展が見られた。
|
今後の研究の推進方策 |
2023年度の積み残し課題である、基礎データの構築・整備、自治体向け基礎調査アンケート・インタビューの実施を行った上で、基本的には、研究計画調書にしたがって研究を進める。 2024年度の重点的な課題は、(1)翻訳資源(翻訳文書アーカイブ、拡張翻訳メモリ、統制対訳用語集)の構築と拡張、(2)翻訳資源活用ツールの設計を行う。(1)に関して、これまでの翻訳資源構築の経験をガイドライン化することで、効率的かつ統制のとれた作業の推進を目指す。また、自治体から提供を受けるデータだけでなく、一般公開されている「ユニバーサルメニュー標準テンプレート」を活用することで、翻訳資源の網羅性を高める。(2)に関して、自治体での聞き取り調査の結果をふまえ、現場で必要とされる翻訳資源活用ツールの要件を定義し、プロトタイプの作成を行う。 また、研究課題の遂行と並行して、関連分野の研究者や自治体との連携を一層強化するために、各種学会・研究会での発表や広報活動を積極的に行う。
|