1999 Fiscal Year Annual Research Report
Project/Area Number |
09680393
|
Research Institution | GIFU UNIVERSITY |
Principal Investigator |
池田 尚志 岐阜大学, 工学部, 教授 (10232183)
|
Co-Investigator(Kenkyū-buntansha) |
兵藤 安昭 岐阜大学, 工学部, 助手 (50293543)
|
Keywords | 全文検索 / 係り受け関係 / 構文解析 / 文節解析 / 近接条件 / 日本語 |
Research Abstract |
本年度の研究では、全文検索のための基礎となる日本語文解析の精度、特に文節解析の精度を向上させることを中心に研究した。また、オートマトンを用いた複合語の解析法についても検討を進めた。文節解析法に関しては、単語間の接続規則ないし接続確率に基づく従来の方法に換えて、基本的に(ほとんど)全ての機能語列を辞書に登録してしまう長単位機能語辞書による全く新しい考え方による方法の可能性について研究した。これが可能であれば、接続の良否を計算によって判断する必要は基本的に無くなり、辞書データ上で個々の機能語列毎に個別に調整すればよいことになって、精度向上を期待できる。新聞記事5年分を解析して調査した結果、実際に現れた機能語列は異なり数で約52,000個、うち頻度上位2,600個で総述べ数の99.0%を、また頻度上位27,000個で総述べ数の99.9%をカバーしているという結果が得られた。この結果から、前述の方法に関する見通しが得られ、長単位機能語列の登録と、従来の短単位の機能語の登録とのハイブリッド方式による方法を現在開発中である。今後、辞書に登録する長単位の機能語列を個別に調整確認する作業が必要となる。
|
-
[Publications] 兵藤安昭: "あいまいさを許すロバストな係り受け解析システム"言語処理学会第5回年次大会論文集. 23-28 (1999)
-
[Publications] 兵藤安昭: "文節単位のコストに基づく日本語文節解析システム"言語処理学会第5回年次大会論文集. 502-504 (1999)
-
[Publications] 若田光敏: "日本語長文の係り受け解析"情報処理学会自然言語処理研究会論文集. NL130-9. 65-72 (1999)
-
[Publications] 池田尚志: "大規模データによる自然言語処理とRDBの活用"電気関係学会東海支部連合大会シンポジウム論文集. 557-558 (1999)
-
[Publications] 村上裕: "大規模データにおける文節機能語列の調査と長単位機能語辞書"情報処理学会第59回全国大会論文集. 2335-2336
-
[Publications] 兵藤安昭: "文節機能語列の数え上げと文節解析"電子情報通信学会言語理解とコミュニケーション研究会. NLC99-19. 1-6 (1999)
-
[Publications] 村上裕: "文節解析における誤り個所の検出について"言語処理学会第6回年次大会論文集. (予定). (2000)
-
[Publications] 兵藤安昭: "文節解析のための長単位機能語辞書"言語処理学会第6回年次大会論文集. (予定). (2000)