2021 Fiscal Year Annual Research Report
Compiling a Japanese-English Collocation Dictionary for English Production Using Large-scale Corpora
Project/Area Number |
18H00693
|
Research Institution | Kyushu University |
Principal Investigator |
内田 諭 九州大学, 言語文化研究院, 准教授 (20589254)
|
Co-Investigator(Kenkyū-buntansha) |
石井 康毅 成城大学, 社会イノベーション学部, 教授 (70530103)
工藤 洋路 玉川大学, 文学部, 教授 (60509173)
Danny Minn 北九州市立大学, 基盤教育センター, 准教授 (60382412)
ハズウェル クリストファー 九州大学, 言語文化研究院, 准教授 (90536088)
赤野 一郎 京都外国語大学, 外国語学部, 名誉教授 (50104633)
内田 聖二 奈良大学, その他部局等, 特別研究員 (00108416)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 和英連語辞書 / コロケーション / コーパス / フレーズ / CEFR |
Outline of Annual Research Achievements |
本研究の目的は、発信型の和英連語辞書の基盤を構築することである。従来の和英辞書は「単語」を基礎単位として編纂されているが、本研究では「連語」を基礎単位とする。日本語の大規模コーパスから高頻度語の連語を抽出し、用例としての適切なものに修正した上で、日英対訳を実施する。 この目的を達成するため、2021年度は、(1)これまでに収集・英訳したフレーズの整理、(2)不足していると考えられる情報の補充、(3)ウェブサイトおよび検索システムの構築を進めた。 (1)前年度までに連語表現を約16,000件収集し、英訳を進めてきたが、これらを精査し、加筆修正および不要な項目の削除を行った。その結果、最終的には約15,000フレーズを選定し、これらから約450の見出し語を生成した。 (2)データの精査中に「名詞+見出し語(名詞)」あるいは「見出し語(名詞)+名詞」のパターン(予約時間、医療技術、集合時間などの複合名詞)において、格を軸とした用例(予約時間を~、医療技術が~、集合時間に~など)が十分ではないことが明らかになった。そこで最新の自然言語処理の技術を使って生成確率の高い文を作成し(「医療技術が発展した現代においても、…」等)、そこから連語表現(「医療技術が発展する」等)を抽出して英訳を行った。これにより約1,200フレーズを補充し、辞書のカバー率を高めることができた。 (3)ウェブ公開のためにサイトを作成し、データベースの設計等の見直しを行った。ウェブサイトはシンプルで使いやすいインターフェイスになるようにデザインした。また、データベース中には検索性を高めるために見出し語のふりがなやカテゴリーなども付与した。今後、最終的な調整が完了次第、公開する予定である。
|
Research Progress Status |
令和3年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和3年度が最終年度であるため、記入しない。
|
Remarks |
公開準備中
|
Research Products
(17 results)
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
[Book] 英語教育のエビデンス2021
Author(s)
亘理 陽一, 草薙 邦広, 寺沢 拓敬, 浦野 研, 工藤 洋路, 酒井 英樹
Total Pages
220
Publisher
研究社
ISBN
978-4327411053
-