研究課題/領域番号 |
15017217
|
研究種目 |
特定領域研究
|
配分区分 | 補助金 |
審査区分 |
理工系
|
研究機関 | 東京大学 |
研究代表者 |
中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)
|
研究分担者 |
吉田 稔 東京大学, 情報基盤センター, 助手 (40361688)
田中 久美子(石井 久美子) 東京大学, 情報基盤センター, 助教授 (10323528)
黒橋 禎夫 東京大学, 大学院・情報理工学系研究科, 助教授 (50263108)
|
研究期間 (年度) |
2003
|
研究課題ステータス |
完了 (2003年度)
|
配分額 *注記 |
5,000千円 (直接経費: 5,000千円)
2003年度: 5,000千円 (直接経費: 5,000千円)
|
キーワード | 画像・文章・音声等認識 / 情報基礎 / 人工知能 / ユーザインタフェース / ディレクトリ情報検索 |
研究概要 |
この研究では,Web新聞記事と携帯端末向け新聞記事の対応付けコーパスを対象に次の研究を行った。 (1)まず携帯記事の文とWeb記事の記事対応付けを行い、サンプル調査では100%の精度で対応付けできる方法を用いて記事対応をつけた。次に携帯記事とWeb記事における文同士の対応を、出現する名詞の一致度に着目する方法で行い、93%の精度で対応付けることに成功した。この結果、88,333組の文対応コーパスを抽出した。 (2)上記のコーパスを用いて帯端末向け新聞記事で頻繁に使われる短縮された簡潔な表現をWeb新聞記事から生成するための言い換えパターンの抽出を行った。本年度は特に携帯記事の文末での出現頻度が38%の割合であるサ変名詞で終了する名詞止めがWeb記事においてどのような表現であるかを抽出する言い換え抽出を行った。サンプルデータでは抽出された言い換えのうち最も順位の高いもので90%、3位までの言い換えで60%の精度で抽出できることが分かった。この言い換えデータは記事に要約や縮約を自動化するための言語資源として使える。 (3)昨年度から続けているWeb記事の自動要約を引き続き行った。本年度はWeb記事と携帯記事の対応コーパスを教師データとしてSVMを用いた学習によって削除する部分を決める方法を実験した。この結果、いくつかの分野で精度の向上が見られた。 (4)Web上のデータを利用する以下の多言語用例検索ツール:Kiwiシステムについて引き続き改善、評価実験を行った。日英仏の3言語でこのシステムを使って用例検索する方法と検索エンジンを使う方法を比較し、正解率で30%程度の上昇が見られることが分かった。
|