1999 Fiscal Year Annual Research Report
大規模コーパスから日本語表現の構造知識自動を獲得するためのプログラムの研究開発
Project/Area Number |
09558035
|
Research Institution | Tottori University |
Principal Investigator |
池原 悟 鳥取大学, 工学部, 教授 (70283968)
|
Co-Investigator(Kenkyū-buntansha) |
白井 諭 ATP音声翻訳通信研究所, 第3研究室, 室長
|
Keywords | N-gram統計 / 類似文検索 / コロケーション / 名詞句 / 重文・複文 / 係り受け構造 |
Research Abstract |
N-gram統計手法を応用した日本語表現パターンの自動抽出として、今年度は、(1)複数の名詞から構成される表現(名詞句)、(2)複数の同士から構成される表現(重文/複文)の2種類の表現に目標を合わせた表現抽出を行うため、縮退させる単語の種類を適切に選択する方法を考えた。 具体的には、(1)では、連鎖型共起表現抽出法を使うこととし、原文に対して、単純置き換えと再起的置き換えの2種類の置き換え方法を考えた。単純置き換えは、名詞、接頭接尾辞、連体詞、形容詞、形容動詞をそれぞれ特定の記号に置き換えるもので、再起的置き換えは、単純置き換えを行った結果が記号の連鎖となったとき、それを一つの記号に縮退させるものである。実験結果によれば、名詞句の構造をより鮮明にクローズアップさせるには、再起置き換えが適していることが分かった。 (2)では、ごみの抽出を抑制する観点と重文・複文の文型を判断する観点から見ると、連鎖型共起表現抽出法では、動詞、助動詞、接続助詞、形式名詞、副詞、句読点など以外を記号に置き換える方法、離散型共起表現抽出法でも、ほぼ同種の置き換えが、適切だとわかった。 また、大規模コーパスから、係り受け構造に着目して構造的類似文を発見する方法として、以下の3ステップからなるアルゴリズムを開発した。 (1)DB文の中から、入力文とタイプの一致し、出現順序が一致する文節を最も多く含む文を抽出する。 (2)抽出されたDB文の文節のうち、係り受けペアを構成しない文節を削除する。 (3)残されたDB文の中で、入力文と対応する係り受けペア数が最大となる組を発見する。
|
-
[Publications] 池原悟: "機械翻訳について--機械翻訳のしくみと今後の展望"人文学と情報処理. No.21. 54-59 (1999)
-
[Publications] 荒木哲郎: "N-gramを用いた対話文の言い直し表現の検出法"言語処理学会論文誌. vol.6・No.2. 23-41 (1999)
-
[Publications] 池原悟: "日本語名詞句に対する意味的構造規則の自動獲得"第4回LACA研究会. 1-10 (1999)
-
[Publications] 池原悟: "日英表現意味辞書の共同開発の提案-対象認識法に基づく言語表現の意味類型化を目指して-"電子環境と語学教育シンポジュム. 1-4 (2000)
-
[Publications] 浅野順平: "名詞の意味を介した複合連体節の構造解析について"自然言語処理学会第6回年次大会. (1999)