2012 Fiscal Year Research-status Report
Webからの能動的候補獲得による専門用語対訳辞書の自動拡張
Project/Area Number |
24650122
|
Research Category |
Grant-in-Aid for Challenging Exploratory Research
|
Research Institution | The University of Tokyo |
Principal Investigator |
影浦 峡 東京大学, 教育学研究科(研究院), 教授 (00211152)
|
Co-Investigator(Kenkyū-buntansha) |
竹内 孔一 岡山大学, 自然科学研究科, 講師 (80311174)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 専門語彙 / Webクローリング / 対訳抽出 / 語彙ネットワーク |
Research Abstract |
以下の2つを行った。 (1) 語彙の構造を反映した語彙成長モデルの構築:(a) 語彙が拡大したときにどのような語基が用いられどのように新語基が導入されるかを予測する数理モデルを用いて、語種に着目し、語彙が拡張されたときに新たに生まれる語の候補範囲を語構成要素の成長という観点から効率的に絞り込む記述モデルを専門語彙6分野に対して具体的に構築するとともに、(b) 個々の用語を頂点、共通語構成要素の存在を辺とする語彙ネットワークを定義し、その構造モデルを構築した。また、語構成要素を頂点、用語中での共起関係を辺とした語構成要素ネットワークを定義し、それに基づき、語構成要素の重要度をネットワークの中心性の観点から記述した。これは、応用としての用語対訳候補生成において用語性を考えるために利用可能であることが明らかになった。 (2) 用語対訳候補獲得のための Web クローラーの開発:(a) 検索エンジンapiを用いて英日のドメインコーパスをWebから収集するシステム、(b) 語彙集合に対してhead-modifier対を抽出して二部グラフを構成しKernighan-Linアルゴリズムにしたがってグラフを分割した上で直積を取って複合専門用語候補を生成するメカニズム、(c) 英日二言語対応で生成した複合専門用語候補の存在の有無を(a)で収集した英日のドメインコーパスでチェックし、同一文書内での共起も考慮して重み付け対訳候補を候補度の高い順に表示するシステムを開発し、4分野に対して人手て評価を行った。 (3) (1)で得られた知見を対訳候補語の生成に用いるために必要な条件を(2)のシステムの出力に対する人手での評価を通して検討し、特に概念の一般性と特定性という属性を、語構成要素ネットワークにおける語構成要素の次数中心性及びEigenvector中心性によって捉える可能性を検討した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
第一年度の目標は、(a) 語彙成長モデルの構築と具体的な専門語彙の記述、(b) 専門語彙の候補生成を利用したWebクローラーの開発、(c) 専門語彙データの整備、の3点であった。 (c)の専門語彙データの整備は研究の基本的な前提であり、予定通り『言語処理学辞典』、『図書館情報学用語辞典』 、一連の『学術用語集』、三省堂『グランドコンサイス英和辞典』の分野タグを用いて取り出した各分野の専門用語集に加え、経済学関係及び法学関係の用語集を整備した。 (a) の語彙成長モデルについては、語彙の成長モデルと語彙ネットワーク及び語構成要素ネットワークを用いた語彙の構造モデルの双方を確立し、複数分野の実際の専門語彙データに適用して特徴の記述を行った。ただし、成長モデルと構造モデルを構造モデルを中心に統合する点については、課題が残っている。 (b) の専門語彙の候補生成を利用したWebクローラーの開発については、対訳専門語彙見出しからの言語及び処理リソースに依存しないhead-modifier二部グラフの構成法の開発、候補語生成の組み合わせ爆発を抑えるためのグラフ分割手法の取り込み、候補語の検証のための分野依存コンパラブルコーパスのクローリングを含め、基本的な専門語彙主導専門用語クローラの雛形をすべて実装した。 以上から、語彙成長モデルと語彙構造モデルの統合に課題は残るものの、用語データの整備及びクローラーの実装開発は当初予定通り進めただけでなく、第2年度以降の展開も含め、当初の研究計画調書に記述した内容に先んじて研究が進んでいる。
|
Strategy for Future Research Activity |
基本的に、第一年度はほぼ当初予定通りに進んでいるため、第二年度以降も、当初研究計画方針に変更を加えることなく進める予定である。 すなわち、第二年度は、モデルを精緻化するとともにクローラーと接続し、モデルによる語彙成長の予測を起点として能動的にクローラーが用語をクローリングするメカニズムを開発する。モデルについては、第一年度に各言語ごとに構築した語彙成長モデルを二言語間で対応付けることにより、語彙成長モデルにさらなる構造的制約を課し、能動的候補の探索対象をモデルから予測する際にその範囲をさらに絞り込めるようにする。モデルとクローラーの接続は、(a) 基本シード語彙からクローラーで収集した用語候補のうちモデルに合致するものを選択する、(b) モデルが予測する拡張語彙の特徴に合致した対訳用語候補をクローラーにより能動的に収集する、という二つのかたちで実現する。この際、モデルの精緻化と分析的な評価のために内部評価用データを追加構築する。 第二年度・第三年度は、成長モデルの精緻化、クローラーのチューニング、対訳語彙拡張の評価を繰り返しながら手法の精度を実用レベルに高める。第三年度には、理論・応用の双方で研究をまとめ、社会還元を図る。理論面では、語彙成長モデルに反映されている見出し語集合の特徴を整理することで、見出し語の選択と見出し語集合の確定に関して辞書編集者が持っている暗黙知の一部を明示的に定式化する。応用面では、シードとなる対訳語彙を与えると自動的に語彙を拡張するシステムをウェブ上で一般公開し、実用に供するとともに、フィードバックを得る枠組みを作る。 付加的な研究課題としては、語構成要素ネットワーク上で与えられた語構成要素の特性を用語候補の適格性評価にどのように用いるかというものがあり、これは研究を進める中に取り込んで取り組んでいく。
|
Expenditure Plans for the Next FY Research Funding |
(a) 現在、ウェブクローリングに関する成果を国際会議に投稿中であり、その発表に海外旅費を用いる。また、研究打合せのため代表者と分担者それぞれが国内旅費を用いる。国内会議での発表も予定しており、そのための旅費も予定する。 (b) 我々が開発している手法は既往のいわゆる用語対訳抽出手法と視点も理論的な背景も目的も実際には異なり、また手法そのものも大きく異なるが、それでも我々の手法の現実的な応用における位置づけを見極めるためには既往の手法との比較評価が必要となる。そのため、既往手法との比較評価に人件費を使う。 (c) 英語での論文執筆のための英文校正、国際会議及び論文誌への投稿に用いる。
|
Research Products
(2 results)