2010 Fiscal Year Annual Research Report

代表性を有する現代日本語書籍コーパスの構築

Planned Research

Project Area	Compilation of a balanced corpus of written Japanese: Infrastructure for the coming Japanese linguistics
Project/Area Number	18061007
Research Institution	The National Institute for Japanese Language
Principal Investigator	山崎誠大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (30182489)
Co-Investigator(Kenkyū-buntansha)	丸山岳彦大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 助教 (90392539) 柏野和佳子大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (50311147) 山口昌也大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 助教 (30302920) 小椋秀樹大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (00321547) 小沼悦大学共同利用機関法人人間文化研究機構国立国語研究所, 管理部研究推進課, 専門職員 (00311150)
Keywords	均衡コーパス / 書き言葉 / 代表性 / 書籍 / サンプリング / XML / 形態素解析 / 著作権処理
Research Abstract	1.年度当初には『現代日本語書き言葉均衡コーパス』の主要な部分を占める書籍コーパス(24320サンプル、約6500万語)のサンプリングを完了したが、著作権処理での拒否による減少を補うため、減少したNDC層に対してサンプルの補填を行い、各層の均衡を確保した。 2.文庫化などにより、サンプルを取得した書籍の刊行年とサンプルの初出年とが異なる場合があったものについて初出年を調査し、書誌情報を充実させた。 3.形態素解析用辞書UniDicの整備拡充については、構築中のデータの解析結果から未登録語を採録し、年度当初の語彙素数18万4千・書字形28万7千に対して、語彙素数21万・書字形33万まで増補した。 4.形態論情報を考慮した公開用XMLフォーマットを策定し、従来の文字ベースのXMLとの整合性を図った。また、外注の過程で発生した誤入力の効率的な修正を行った。 5.機械学習用に精度の高い解析を行う「コアデータ」については、ブログ10万語の短単位での整備を行い、短単位のすべてのデータが完成した。また,コア全体に対して長単位による解析・人手修正及び文節境界の付与をほぼ完了した。 6.著作権処理は、2011年3月末時点で、書籍(生産実態+流通実態+ベストセラー)の処理対象サンプル数24,150に対し、著作権者へ連絡済みのものが21,744サンプル(約90%)、そのうち許諾が得られたものが15,703サンプルである。連絡が取れた場合を母数とした許諾率は約72%である。 7.サンプリング、電子化、形態論情報付与の各構築作業に関するノウハウをまとめた報告書を2冊ずつ、計6冊刊行した(平成23年2月)。 8.「モニター公開データ」の利用者に対するアンケートを実施し、利用実態を分析した。

Research Products
(28 results)

All 2011 2010 Other

All Journal Article (4 results) (of which Peer Reviewed: 2 results) Presentation (16 results) Book (6 results) Remarks (2 results)

[Journal Article] 漢字の使用実態-表外訓・表外字の使用について2011
- Author(s)
  小椋秀樹
- Journal Title
  
  国文学解釈と鑑賞
  
  Volume: 76 Pages: 67-75
[Journal Article] 現代日本語書き言葉における修辞ユニット分析の適用性の検証-「書き言葉らしさ・話し言葉らしさ」と脱文脈化言語・文脈化言語の関係-2011
- Author(s)
  佐野大樹, 小磯花絵
- Journal Title
  
  機能言語学研究
  
  Volume: 6 Pages: 59-81
- Peer Reviewed
[Journal Article] Yahoo!知恵袋における質問の修辞ユニット分析-脱文脈化-文脈化の程度による分類-2011
- Author(s)
  田中弥生
- Journal Title
  
  信学技報
  
  Volume: NLC2010-33 Pages: 13-18
[Journal Article] ブログにおける評価表現の使い分けの特徴-アプレイザル理論からみた評価基準と表現の直接性/間接性の関係-2010
- Author(s)
  佐野大樹
- Journal Title
  
  計量国語学
  
  Volume: 27-7 Pages: 249-269
- Peer Reviewed
[Presentation] An Approach toward Register Classification of Book Samples in the Balanced Corpus of Contemporary Written Japanese2010
- Author(s)
  Wakako Kashino, Manabu Okumura
- Organizer
  24th Pacific Asia Conference on Language, Information and Computation (PACLIC24)
- Place of Presentation
  東北大学
- Year and Date
  2010-11-06
[Presentation] 国語辞典に「古い」と注記される語の現代書き言葉における使用傾向の調査2010
- Author(s)
  柏野和佳子, 奥村学
- Organizer
  第88回人文科学とコンピュータ研究会発表会
- Place of Presentation
  国立国語研究所
- Year and Date
  2010-10-30
[Presentation] 形態素解析辞書「中古和文UniDic」とその活用例2010
- Author(s)
  小木曽智信, 小椋秀樹, 近藤明日子, 須永哲也
- Organizer
  日本語学会2010年度秋季大会
- Place of Presentation
  愛知大学豊橋キャンパス
- Year and Date
  2010-10-24
[Presentation] 『現代日本語書き言葉均衡コーパス』(BCCWJ)を利用した語彙研究の進展2010
- Author(s)
  山崎誠
- Organizer
  北京日本学研究センター創立25周年記念シンポジウム
- Place of Presentation
  北京外国語大学
- Year and Date
  2010-10-17
[Presentation] 話し言葉にみられる「から」「ので」の音調2010
- Author(s)
  田頭(谷口)未希, 丸山岳彦
- Organizer
  第24回日本音声学会全国大会
- Place of Presentation
  國學院大學渋谷キャンパス
- Year and Date
  2010-10-10
[Presentation] An Annotation Scheme for Syntactic Unit in Japanese Dialog2010
- Author(s)
  Maruyama, Takehiko, Katsuya Takanashi, Nao Yoshida
- Organizer
  The 5th Workshop on Disfluency in Spontaneous Speech, and The 2nd International Symposium on Linguistic Patterns in Spontaneous Speech
- Place of Presentation
  東京大学本郷キャンパス
- Year and Date
  2010-09-26
[Presentation] テキストにおける多義語の意味実現の傾向2010
- Author(s)
  山崎誠
- Organizer
  計量国語学会第54回大会
- Place of Presentation
  大正大学
- Year and Date
  2010-09-11
[Presentation] 社会科学と文学の「あとがき」における文体的特徴の相違2010
- Author(s)
  田中弥生
- Organizer
  計量国語学会第54回大会
- Place of Presentation
  大正大学
- Year and Date
  2010-09-11
[Presentation] 現代日本語コーパスにおける文字処理2010
- Author(s)
  高田智和
- Organizer
  第4回人間文化研究情報資源共有化研究会
- Place of Presentation
  国立国語研究所
- Year and Date
  2010-09-10
[Presentation] 異なる媒体における「QA」の文体的特徴-書籍とWebを比較して-2010
- Author(s)
  田中弥生
- Organizer
  社会言語科学会第26回大会
- Place of Presentation
  大阪大学豊中キャンパス
- Year and Date
  2010-09-04
[Presentation] メディア別外字表現の実態-『現代日本語書き言葉均衡コーパス』収録サンプルより2010
- Author(s)
  西部みちる, 小林正行, 大島一, 柏野和佳子
- Organizer
  ことば工学研究会(第35回)
- Place of Presentation
  神奈川大学横浜キャンパス
- Year and Date
  2010-08-28
[Presentation] 「直接的な語り」という表現スタイルをもつ書籍テキストの人手抽出の試み2010
- Author(s)
  柏野和佳子
- Organizer
  ことば工学研究会(第35回)
- Place of Presentation
  神奈川大学横浜キャンパス
- Year and Date
  2010-08-28
[Presentation] コーパス収録上問題となるネット表現-Yahoo!知恵袋データを対象に-2010
- Author(s)
  大島一, 西部みちる, 小林正行, 柏野和佳子
- Organizer
  ことば工学研究会(第35回)
- Place of Presentation
  神奈川大学横浜キャンパス
- Year and Date
  2010-08-27
[Presentation] A Web-based Support System for Writing Various Compositions in Japanese Language2010
- Author(s)
  Masaya YAMAGUCHI, Hisako TANAHASH
- Organizer
  The 15th Symposium on Japanese Language Education in Europe
- Place of Presentation
  University of Bucharest
- Year and Date
  2010-08-26
[Presentation] 「病院の言葉」の類型の推測とモデル化-『現代日本語書き言葉均衡コーパス』における語の使用度数を用いた一考察-2010
- Author(s)
  佐野大樹, 田中牧郎, 丸山岳彦
- Organizer
  日本言語学会第140回大会
- Place of Presentation
  筑波大学
- Year and Date
  2010-06-20
[Presentation] Design, Compilation, and Preliminary Analyses of Balanced Corpus of Contemporary Written Japanese2010
- Author(s)
  Maekawa, Kikuo, Makoto Yamazaki, Takehiko Maruyama, Masaya Yamaguchi, Hideki Ogura, Wakako Kashino, Toshinobu Ogiso, Hanae Koiso, Yasuharu Den
- Organizer
  7th International Conference on Language Resources and Evaluation (LREC2010)
- Place of Presentation
  Mediterranean conference centre, Valleta, Malta
- Year and Date
  2010-05-20
[Book] 『現代日本語書き言葉均衡コーパス』におけるサンプリングの原理と応用2011
- Author(s)
  丸山岳彦, 他
- Total Pages
  92
- Publisher
  大学共同利用機関法人人間文化研究機構国立国語研究所
[Book] 『現代日本語書き言葉均衡コーパス』に含まれるサンプルおよび書誌情報の設計と実装2011
- Author(s)
  丸山岳彦, 他
- Total Pages
  154
- Publisher
  大学共同利用機関法人人間文化研究機構国立国語研究所
[Book] 『現代日本語書き言葉均衡コーパス』における電子化テキストの構築2011
- Author(s)
  西部みちる, 他
- Total Pages
  396
- Publisher
  大学共同利用機関法人人間文化研究機構国立国語研究所
[Book] 『現代日本語書き言葉均衡コーパス』における電子化フォーマット ver.2.22011
- Author(s)
  山口昌也, 他
- Total Pages
  166
- Publisher
  大学共同利用機関法人人間文化研究機構国立国語研究所
[Book] 『現代日本語書き言葉均衡コーパス』形態論規程集第4版(上)2011
- Author(s)
  小椋秀樹, 他
- Total Pages
  132
- Publisher
  大学共同利用機関法人人間文化研究機構国立国語研究所
[Book] 『現代日本語書き言葉均衡コーパス』形態論規程集第4版(下)2011
- Author(s)
  小椋秀樹, 他
- Total Pages
  228
- Publisher
  大学共同利用機関法人人間文化研究機構国立国語研究所
[Remarks]
- URL
  http://www.tokuteicorpus.jp/
[Remarks]
- URL
  http://www.ninjal.ac.jp/kotonoha/

2010 Fiscal Year Annual Research Report

代表性を有する現代日本語書籍コーパスの構築

Principal Investigator

山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (30182489)

Research Products

[Journal Article] 漢字の使用実態-表外訓・表外字の使用について2011

Author(s)

Journal Title

[Journal Article] 現代日本語書き言葉における修辞ユニット分析の適用性の検証-「書き言葉らしさ・話し言葉らしさ」と脱文脈化言語・文脈化言語の関係-2011

Author(s)

Journal Title

[Journal Article] Yahoo!知恵袋における質問の修辞ユニット分析-脱文脈化-文脈化の程度による分類-2011

Author(s)

Journal Title

[Journal Article] ブログにおける評価表現の使い分けの特徴-アプレイザル理論からみた評価基準と表現の直接性/間接性の関係-2010

Author(s)

Journal Title

[Presentation] An Approach toward Register Classification of Book Samples in the Balanced Corpus of Contemporary Written Japanese2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 国語辞典に「古い」と注記される語の現代書き言葉における使用傾向の調査2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 形態素解析辞書「中古和文UniDic」とその活用例2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 『現代日本語書き言葉均衡コーパス』(BCCWJ)を利用した語彙研究の進展2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 話し言葉にみられる「から」「ので」の音調2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] An Annotation Scheme for Syntactic Unit in Japanese Dialog2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] テキストにおける多義語の意味実現の傾向2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 社会科学と文学の「あとがき」における文体的特徴の相違2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 現代日本語コーパスにおける文字処理2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 異なる媒体における「QA」の文体的特徴-書籍とWebを比較して-2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] メディア別外字表現の実態-『現代日本語書き言葉均衡コーパス』収録サンプルより2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 「直接的な語り」という表現スタイルをもつ書籍テキストの人手抽出の試み2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] コーパス収録上問題となるネット表現-Yahoo!知恵袋データを対象に-2010

Author(s)

Organizer

山崎誠大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (30182489)

[Book] 『現代日本語書き言葉均衡コーパス』形態論規程集第4版(上)2011

[Book] 『現代日本語書き言葉均衡コーパス』形態論規程集第4版(下)2011