Research Abstract |
1) 形態論的制約を用いたオンライン未知語獲得 情報を表現・伝達する最小単位は語であり,特に日本語のように分かち書きされない言語においては語の認識が計算機による言語処理の出発点となる.一方,ウェブには森羅万象に関するテキストが存在し,口語的表現,創造的表現,新語などが常に生産されており,その動的認識が重要となる.そこで,形態論的制約,すなわち,ある品詞の語がどのような後続文字列とともに出現するかをあらかじめ学習しておき,これを用いて少数の出現から動的に未知語を獲得する手法を考案し,実験によりその有効性を確認した 2) 同一文抽出に基づく類似ページの検出と分類 ウェブを計算機のための知識獲得の源泉とする場合も,ウェブの情報を人間のために整理・組織化する場合にも,ウェブにおける情報のコピーの取り扱いが重要な問題となる.そこで,1億規模のウェブアーカイブに対して,ミラーページ,引用ページ,スパムページ,盗作ページなどを,文の重複率,リンク,URL類似度などの手がかりから検出・分類する手法を考案した. 3) PLSIを用いたウェブ検索結果の要約 検索結果をリスト形式で提示する既存の検索エンジンは,誘導型のクエリに対しては有効であるが,調査型のクエリに対しては満足な結果を得るのが難しい.そこで,PLSIによって検索結果をサブトピックに分割し,各サブトピックの内容を網羅的に表す要約文を選択・表示するシステムを構築し,ユーザ評価によってその有効性を確認した.
|