2010 Fiscal Year Annual Research Report
Project/Area Number |
20500149
|
Research Institution | National Institute of Information and Communications Technology |
Principal Investigator |
山本 博史 近畿大学, 理工学部, 教授 (00395013)
|
Keywords | アライメント / 多言語化 / 半教師あり学習 / 固有名詞 / 確率付き制約 |
Research Abstract |
(1) 単語アライメントに対する構文木の利用 20年度は構文構造をアライメントの際の制約として用い、アライメントとして許されるかどうかの2値情報として利用した。21年度はこの制約を前後のタグに依存した確率付きのものに拡張することにより、アライメント精度を向上させることができた。本年度は、さらに日本語特有の係り受けにおける制約であるHead-Final制約を英日翻訳に導入することにより、翻訳元言語である英語の単語の位置が日本語では入れ替わるかどうかの制約に用いた。日本語では係り受け関係における係り元と係り先の位置関係において、必ず係り先の位置が後ろになるという制約がある。一方英語ではこのような制約はない。従って、英語において係り先の位置が後ろであれば、日本語と同じ語順になり、前であれば語順が逆転すると言う制約を導入することができる。 (2) 単語アライメント評価コーパスの作成 単語のアライメントは内用語間では対応が明確であることが多いが、機能語間では必ずしも明快とは言えない場合が多い。従って、何らかの基準で機能語間のアライメントを定義しなければ、アライメント精度の評価がうまくできない。このため、本年度はアライメントや統計翻訳で最も広く用いられている評価セットであるMTO8の英中評価コーパスに対し、アライメントを行い、標準となるアライメント精度評価コーパスとして用いることができるようにした。これにより、他組織における研究結果と公平な評価を行うことができるようになり、今後の研究の大きな助けになると考えられる。
|
Research Products
(1 results)