2010 Fiscal Year Annual Research Report
古今東西の全言語を対象にしたテキストマイニングに関する研究
Project/Area Number |
22500140
|
Research Institution | Shonan Institute of Technology |
Principal Investigator |
鈴木 誠 湘南工科大学, 工学部・情報工学科, 准教授 (80339796)
|
Keywords | 多言語処理 / 機械学習 / モデル化 / テキストマイニング / 文書自動分類 / N-gram |
Research Abstract |
今年度は、交付申請書に記載した「(1)処理対象となる言語の拡張」と「(2)基礎理論の構築」の2点について主に研究を進めた。 はじめに(1)については、その研究成果を2件の英語の論文にまとめ、査読付きの国際学会であるSMC2010とISITA2010にてそれぞれ発表した。前者は、文書検索モデルとして古くから存在する"ベクトル空間モデル"に基づき、条件付確率を用いた新たなテキスト分類における数理モデルと分類手法を提案した。そして、ベンチマークのデータである英語の新聞記事Reuters-21578と、日本語のCD-毎日新聞2002を利用して実験を行うことにより、提案モデルの有効性を示した。さらに後者は、SMC2010で発表した手法に改良を加え、英語と台湾語を実験データとして用いて、提案方式の評価実験を行った。特に、英語のReuters-21578に対しては94.5%という高い精度で分類できることが確認できた。 次に(2)について述べる。現在、早稲田大学にて連携研究者の方々と定期的に研究会を開催しており、日本経営工学会論文誌の論文はその研究会における成果である。テキスト分類問題においては、個々の単語の出現頻度は非常に少なく、多くの単語の出現頻度がゼロとなってしまうというスパースネスの問題がある。すなわち,このベクトル空間上で一つの文書を表す点は、ゼロを多くの要素に持つベクトルで表現される。しかし「このような状況で文書どうしの距離による分類がある程度の分類性能を示すのは何故か」という疑問については依然として経験的な解釈が与えられているのみであった。そこで、その理論的根拠を与えるため、この論文では各要素の出現頻度を有限に保ったまま、次元数を無限大とする新たな漸近論の概念を導入することにより、スパースな文書ベクトル間の距離について解析的な性能を示した。
|
Research Products
(5 results)
-
-
-
-
[Book] 確率統計学2010
Author(s)
須子統太, 鈴木誠, 浮田善文, 小林学, 後藤正幸
Total Pages
251
Publisher
オーム社
-