2003 Fiscal Year Annual Research Report
Project/Area Number |
15300046
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
松本 裕治 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (10211575)
|
Co-Investigator(Kenkyū-buntansha) |
投野 由紀夫 明海大学, 大学院・応用言語学研究科, 助教授 (10211393)
浅原 正幸 奈良先端科学技術大学院大学, 情報科学研究科, 助手
乾 健太郎 奈良先端科学技術大学院大学, 情報科学研究科, 助教授 (60272689)
大谷 朗 大阪学院大学, 情報学部, 講師 (50283817)
橋本 喜代太 大阪女子大学, 人文社会学部, 助教授 (50278818)
|
Keywords | 品詞タグ付け / 文字列検索 / 単語検索 / KWIC / コーパス / タグ付きコーパス |
Research Abstract |
日本語および英語の品詞タグ付けや固有表現抽出を行うツールを開発するとともに,それらの解析結果を格納し,検索を行うためのシステムの基本設計と実装を行った.本年は検索ツールの設計と実装を重点的に行い,次のような機能をもつシステムを作成して,年度末に一般公開した. 1.品詞タグ付けされたテキストを関係データベースに格納する機能. 2.文字列検索機能:格納されたテキストの任意の文字列を対象にコーパス全体を検索し,検索対象文字列を中心として結果を文単位で表示する機能. 3.単語列検索機能:格納されたテキストを任意の単語列を対象に検索する機能.この際,単語がもつ任意の属性(出現形,読み,発音,階層構造付きの品詞,活用型,活用形)を部分的に指定して検索することができる.結果は,対象となった単語列を中心に,文単位で表示される. 4.単語の任意の属性や前後の文脈を指定して,コーパス全体から単語の出現頻度を求める機能.出現頻度は,単語がもつ任意の属性を単位として計算することができる. 5.単語検索結果の前後の文脈中に現れる他単語との共起出現数を求める機能.共起頻度は,単語の任意の属性を指定して計算することができる. これらの機能の洗い出しや検索要求の記述,具体的な検索手法を議論するため,年度内に大阪,奈良,東京で合計9回の全体会合をもった.また,個別の問題については,学会などの機会に一部のメンバーが会合を開いて相談を行った.公開したシステムは,Microsoft Windows上で動作可能であり,広く言語研究者に供することが可能になった.対象言語としては,日本語と英語が利用可能となった.
|
Research Products
(5 results)
-
[Publications] 中川 哲治, 工藤 拓, 松本 裕治: "Support Vector Machineを用いた形態素解析と修正学習法の提案"情報処理学会論文誌. 44・5. 1354-1367 (2003)
-
[Publications] Masayuki Asahara, Yuji Matsumoto: "Filler and disfluency identification based on morphological analysis and chunking"Proceedings of ISCA & IEEE Workshop on Spontaneous Speech Processing and Recognition. 163-166 (2003)
-
[Publications] Masayuki Asahara, Yuji Matsumoto: "Japanese named entity extraction with redundant morphological analysis"Proc.Human Language Technology and North American Chapter of Association for Computational Linguistics. 4. 8-15 (2003)
-
[Publications] 工藤拓, 松本裕治: "部分木に基づくマルコフ確率場と言語解析への適用"情報処理学会研究報告,自然言語処理/情報学基礎. 157. 33-40 (2003)
-
[Publications] 松本裕治, 他8名: "タグ付きコーパスの格納/検索ツール「茶器」"言語処理学会第10回年次大会論文集. 10. 405-408 (2004)