日本語の特性を利用した書誌データ,ウェブページ等のテキスト自動分類法の基礎的研究

Research Project

Project/Area Number	16700241
Research Category	Grant-in-Aid for Young Scientists (B)
Allocation Type	Single-year Grants
Research Field	情報図書館学・人文社会情報学
Research Institution	Surugadai University
Principal Investigator	石田栄美駿河台大学, 文化情報学部, 講師 (50364815)
Project Period (FY)	2004 – 2006
Project Status	Completed (Fiscal Year 2006)
Budget Amount *help	¥3,200,000 (Direct Cost: ¥3,200,000) Fiscal Year 2006: ¥700,000 (Direct Cost: ¥700,000) Fiscal Year 2005: ¥700,000 (Direct Cost: ¥700,000) Fiscal Year 2004: ¥1,800,000 (Direct Cost: ¥1,800,000)
Keywords	テキスト自動分類 / 日本十進分類法 / Japan Marc / 目録データ / 自動分類 / 図書 / PDFファイル / 論文自動判定 / NACSIS-CAT / 基本件名標目表 / 相互マッピング / 書誌データ / 目録
Research Abstract	本研究は、図書の目録データやウェブページなどの日本語テキストを自動分類するシステムを開発することが目的である。本年度は、目録データを用いて、書名に日本十進分類法に基づく分類記号を付与する際に、複数の分類手法を組み合わせた分類手法の適用可能性について検討した。まず、テキスト自動分類の代表的な分類手法であるSupport Vector Machine(SVM)とナイーブベイズを用いた手法、さらに相対出現率による重み付けを用いた手法を用いて分類し、分類結果を分析した。その結果、それぞれの分類結果を段階的に採用することで、単独の手法で最も精度が高かった相対出現率手法を用いた場合よりも1.5%程度高い精度が得られることがわかった。精度向上のために更なる分析は必要であるが、分類手法にはそれぞれ特徴があり、分類結果を組み合わせることによって、各手法の弱点を補えることが明らかになった。各分類手法における精度を向上させれば、組み合わせる効果がより見込まれる。また、ウェブページに対する分類の一つとして、ウェブコンテンツ中からの日本語の学術論文のPDFファイルを判定するシステム構築を目指した。SVM、ナイーブベイズなど、多くの手法を用いて自動判定実験を行った。自動判定の手がかりとなる属性群としてはファイル中に出現する語と経験的なルール群を用いた。実験から、SVMでは高い精度、ナイーブベイズでは高い再現率が得られ、段階的な論文判定を行うことで、学術論文のPDFファイルの自動判定は実現可能であることが示唆された。さらに、52万件の未判定であるPDFファイル集合の自動判別を試みた。複数の分類手法によって学術論文であると判定されたファイルをプーリングし、各々の手法の性能比較を行った結果、プーリングによる評価について一定の有効性が示された。

Report

(3 results)

Research Products
(15 results)

All 2007 2006 2005 2004

All Journal Article (14 results) Book (1 results)

[Journal Article] プーリング手法を用いた学術論文の自動判別実験2007
- Author(s)
  池内淳, 安形輝, 石田栄美, 野末道子, 宮田洋輔, 上田修一
- Journal Title
  
  情報処理学会情報学基礎研究会報告 Vol. 2007,No. 34
  
  Pages: 33-40
- NAID
  110006277695
- Related Report
  2006 Annual Research Report
[Journal Article] 複数の分類手法の組み合わせによる図書自動分類の可能性2007
- Author(s)
  石田栄美
- Journal Title
  
  2007年度日本図書館情報学会春季研究集会発表要綱
  
  Pages: 55-58
- Related Report
  2006 Annual Research Report
[Journal Article] テキスト自動分類の概要2006
- Author(s)
  石田栄美
- Journal Title
  
  情報の科学と技術 Vol. 56,No. 10
  
  Pages: 469-474
- Related Report
  2006 Annual Research Report
[Journal Article] 日本語学術論文PDFファイルの自動判定2006
- Author(s)
  安形輝, 池内淳, 石田栄美, 野末道子, 久野高志, 上田修一
- Journal Title
  
  Library and Information Science No. 56
  
  Pages: 43-63
- NAID
  120001256788
- Related Report
  2006 Annual Research Report
[Journal Article] NDCの階層構造を利用した図書の自動分類の試み2006
- Author(s)
  宮田洋輔, 石田栄美, 神門典子, 上田修一
- Journal Title
  
  2006年度日本図書館情報学会春季研究集会発表要綱
  
  Pages: 51-54
- Related Report
  2006 Annual Research Report
[Journal Article] エビデンスベーストライブラリアンシップの再検討2006
- Author(s)
  三根慎二, 國本千裕, 汐崎順子, 宮田洋輔, 林佐和子, 石田栄美, 倉田敬子, 上田修一
- Journal Title
  
  第54回日本図書館情報学会研究大会発表要綱
  
  Pages: 13-16
- Related Report
  2006 Annual Research Report
[Journal Article] オープンアクセスを想定した日本語学術論文ファイルの自動判定2006
- Author(s)
  安形輝, 石田栄美, 池内淳, 久野高志, 野末道子, 上田修一
- Journal Title
  
  情報処理学会情報学基礎研究報告 FI-82 DD-55 Vol.2006, No.33
  
  Pages: 55-62
- NAID
  110004687617
- Related Report
  2005 Annual Research Report
[Journal Article] 目次と帯を用いた図書の自動分類2006
- Author(s)
  石田栄美, 宮田洋輔, 神門典子, 上田修一
- Journal Title
  
  情報処理学会情報学基礎研究報告 FI-82 DD-55 Vol.2006, No.33
  
  Pages: 85-92
- NAID
  110004687107
- Related Report
  2005 Annual Research Report
[Journal Article] 日本十進分類法と基本件名標目の相互マッピング2005
- Author(s)
  石田栄美
- Journal Title
  
  文化情報学(駿河台大学文化情報学部紀要) Vol.12, No.1
  
  Pages: 1-11
- Related Report
  2005 Annual Research Report
[Journal Article] 眼球運動からみた子どもの絵本の読みと理解2005
- Author(s)
  三根慎二, 汐崎順子, 國本千裕, 石田栄美, 倉田敬子, 上田修一
- Journal Title
  
  2005年度日本図書館情報学会春季研究集会発表要綱
  
  Pages: 55-58
- Related Report
  2005 Annual Research Report
[Journal Article] 日本語PDFファイルを対象とした学術論文の自動判定2005
- Author(s)
  石田栄美, 池内淳, 安形輝, 久野高志, 野末道子, 上田修一
- Journal Title
  
  2005年日本図書館情報学会,三田図書館・情報学会合同研究大会発表要綱
  
  Pages: 165-168
- NAID
  40020684926
- Related Report
  2005 Annual Research Report
[Journal Article] 分類記号と件名標目の相互マッピング2004
- Author(s)
  石田栄美, 神門典子, 上田修一
- Journal Title
  
  第52回日本図書館情報学会研究大会発表要綱
  
  Pages: 117-120
- Related Report
  2004 Annual Research Report
[Journal Article] 文体からみた学術的文献の特徴分析2004
- Author(s)
  石田栄美, 安形輝, 野末道子, 久野高志, 池内淳, 上田修一
- Journal Title
  
  2004年度三田図書館・情報学会研究大会発表論文集
  
  Pages: 33-36
- NAID
  40020684966
- Related Report
  2004 Annual Research Report
[Journal Article] 子どもは絵本をどう読むのか:眼球運動からみた読書独立期児童の絵本の理解2004
- Author(s)
  汐暗順子, 國本千裕, 三根慎二, 石田栄美, 倉田敬子, 上田修一
- Journal Title
  
  2004年度三田図書館・情報学会研究大会発表論文集
  
  Pages: 25-28
- Related Report
  2004 Annual Research Report
[Book] 図書館・情報学研究入門「第3章 3.4 テキスト自動分類」2005
- Author(s)
  三田図書館・情報学会編
- Total Pages
  226
- Publisher
  勁草書房
- Related Report
  2005 Annual Research Report

日本語の特性を利用した書誌データ,ウェブページ等のテキスト自動分類法の基礎的研究

Principal Investigator

石田 栄美 駿河台大学, 文化情報学部, 講師 (50364815)

¥3,200,000 (Direct Cost: ¥3,200,000)

Report

Research Products

[Journal Article] プーリング手法を用いた学術論文の自動判別実験2007

Author(s)

Journal Title

NAID

Related Report

[Journal Article] 複数の分類手法の組み合わせによる図書自動分類の可能性2007

Author(s)

Journal Title

Related Report

[Journal Article] テキスト自動分類の概要2006

Author(s)

Journal Title

Related Report

[Journal Article] 日本語学術論文PDFファイルの自動判定2006

Author(s)

Journal Title

NAID

Related Report

[Journal Article] NDCの階層構造を利用した図書の自動分類の試み2006

Author(s)

Journal Title

Related Report

[Journal Article] エビデンスベーストライブラリアンシップの再検討2006

Author(s)

Journal Title

Related Report

[Journal Article] オープンアクセスを想定した日本語学術論文ファイルの自動判定2006

Author(s)

Journal Title

NAID

Related Report

[Journal Article] 目次と帯を用いた図書の自動分類2006

Author(s)

Journal Title

NAID

Related Report

[Journal Article] 日本十進分類法と基本件名標目の相互マッピング2005

Author(s)

Journal Title

Related Report

[Journal Article] 眼球運動からみた子どもの絵本の読みと理解2005

Author(s)

Journal Title

Related Report

[Journal Article] 日本語PDFファイルを対象とした学術論文の自動判定2005

Author(s)

Journal Title

NAID

Related Report

[Journal Article] 分類記号と件名標目の相互マッピング2004

Author(s)

Journal Title

Related Report

[Journal Article] 文体からみた学術的文献の特徴分析2004

Author(s)

Journal Title

NAID

Related Report

[Journal Article] 子どもは絵本をどう読むのか:眼球運動からみた読書独立期児童の絵本の理解2004

Author(s)

Journal Title

Related Report

[Book] 図書館・情報学研究入門「第3章 3.4 テキスト自動分類」2005

Author(s)

Total Pages

Publisher

Related Report

石田栄美駿河台大学, 文化情報学部, 講師 (50364815)