顶部
收藏

中文信息处理教程

“十一五”国家规划教材

作者:
宋继华 杨尔弘 王强军
定价:
29.00元
ISBN:
978-7-04-031896-8
版面字数:
370千字
开本:
特殊
全书页数:
283页
装帧形式:
平装
重点项目:
“十一五”国家规划教材
出版时间:
2011-07-28
读者对象:
高等教育
一级分类:
计算机/教育技术类
二级分类:
计算机科学与技术专业课程

  本书是普通高等教育“十一五”国家级规划教材,是编者依据自身的教学实践,在学习、吸收、借鉴前辈经验的基础上归纳、提炼而成的中文信息处理教材。书中比较系统地介绍了本学科领域的基本原理、方法和应用技术。
  全书共8章,按中文信息处理的语言单位层级——汉字、词语、句子、篇章依次展开。内容包括:导论、汉字的信息处理、词的信息处理、句子的信息处理、句子语义表达与分析、中文信息处理的基础资源、文本分析与处理、中文信息处理评测。
  本书的特色是简明、实用,逻辑性强,可读性好,注重引导学生动手解决实际问题。每章都附有习题,并给出了大部分习题的参考答案。
  本书可作为高等学校计算机、信息管理等专业本科生和研究生的教材,也可供从事中文信息处理研究和应用的科技工作者参考。
  • 第1章 导论
    • 本章概览
    • 知识结构图
    • 1.1 基本概念
      • 1.1.1 学科由来
      • 1.1.2 学科定位
    • 1.2 研究内容
    • 1.3 难点分析
      • 1.3.1 歧义
      • 1.3.2 语法
    • 1.4 研究路线
    • 1.5 习题
  • 第2章 汉字的信息处理
    • 本章概览
    • 知识结构图
    • 2.1 基础知识
      • 2.1.1 汉字的形、音、义
      • 2.1.2 汉字的字频和字量
      • 2.1.3 汉字的编码
    • 2.2 交换码和内码
      • 2.2.1 ASCII
      • 2.2.2 编码框架:ISO/IEC 2022
      • 2.2.3 GB2312
      • 2.2.4 BIG5
      • 2.2.5 ISO/IEC10646和Unicode
      • 2.2.6 GBK
      • 2.2.7 GB18030
      • 2.2.8 编程务实
    • 2.3 汉字的输入
      • 2.3.1 键盘输入
      • 2.3.2 字形识别
      • 2.3.3 语音识别
    • 2.4 汉字的输出
    • 2.5 中文编码的前沿课题
      • 2.5.1 古籍数字化
      • 2.5.2 《通用规范汉字表》
      • 2.5.3 少数民族文字
    • 2.6 习题
  • 第3章 词的信息处理
    • 本章概览
    • 知识结构图
    • 3.1 基础知识
      • 3.1.1 概率论基础
      • 3.1.2 信息论基础
      • 3.1.3 n元语法模型
      • 3.1.4 语法模型的性能评价
    • 3.2 自动分词
      • 3.2.1 汉语词的界定
      • 3.2.2 自动分词方法
      • 3.2.3 未登录词的识别
    • 3.3 词性标注
      • 3.3.1 词性标注概述
      • 3.3.2 基于统计的词性标注方法
      • 3.3.3 基于规则的词性标注方法
    • 3.4 命名实体识别
      • 3.4.1 命名实体识别介绍
      • 3.4.2 中文命名实体的定义和标准
      • 3.4.3 中文命名实体识别方法
    • 3.5 习题
  • 第4章 句子的信息处理
    • 本章概览
    • 知识结构图
    • 4.1 形式语言基础
      • 4.1.1 形式语言理论
      • 4.1.2 自动机理论
    • 4.2 短语结构语法
      • 4.2.1 汉语短语结构语法
      • 4.2.2 分析算法
      • 4.2.3 实用策略
    • 4.3 依存语法
      • 4.3.1 依存句法理论
      • 4.3.2 分析算法
    • 4.4 句法理论探索
      • 4.4.1 Chomsky语法理论
      • 4.4.2 广义短语结构语法
      • 4.4.3 链语法
      • 4.4.4 范畴语法
    • 4.5 习题
  • 第5章 句子语义表达与分析
    • 本章概览
    • 知识结构图
    • 5.1 格语法
      • 5.1.1 基本思想
      • 5.1.2 格的分类
      • 5.1.3 格的判断
      • 5.1.4 用格语法生成句子
      • 5.1.5 汉语格语法
    • 5.2 概念依存理论
      • 5.2.1 基本模型
      • 5.2.2 语义推理
      • 5.2.3 脚本法
    • 5.3 概念层次网络(HNC)
    • 5.4 语义本体
    • 5.5 习题
  • 第6章 中文信息处理的基础资源
    • 本章概览
    • 知识结构图
    • 6.1 语料库概述
      • 6.1.1 语料库发展历史
      • 6.1.2 语料库属性
    • 6.2 典型中文语科库介绍
      • 6.2.1 北京大学计算语言学研究所《人民日报》标注语料库
      • 6.2.2 清华大学汉语树库
      • 6.2.3 哈尔滨工业大学汉语依存树库
      • 6.2.4 中国台湾“中央研究院”语料库
      • 6.2.5 国家语言文字工作委员会语料库
      • 6.2.6 山西大学语料库
    • 6.3 典型中文语言知识库资源介绍
      • 6.3.1 北京大学计算语言学研究所综合型语言知识库
      • 6.3.2 知网
      • 6.3.3 中国台湾“中央研究院”中文词汇网络
      • 6.3.4 概念层次网络
      • 6.3.5 汉语框架网知识库
    • 6.4 中文语言资源联盟
    • 6.5 习题
  • 第7章 文本分析与处理
    • 本章概览
    • 知识结构图
    • 7.1 文本分类
      • 7.1.1 文本表示
      • 7.1.2 文本分类算法
    • 7.2 信息检索
      • 7.2.1 常用的检索模型
      • 7.2.2 搜索引擎
    • 7.3 问答系统
      • 7.3.1 问答系统概述
      • 7.3.2 系统构成
      • 7.3.3 典型问答系统介绍
    • 7.4 信息抽取
      • 7.4.1 信息抽取概述
      • 7.4.2 系统的基本构成及关键技术
    • 7.5 自动文摘
      • 7.5.1 自动文摘概述
      • 7.5.2 基于统计的机械文摘
      • 7.5.3 基于意义的理解文摘
    • 7.6 习题
  • 第8章 中文信息处理评测
    • 本章概览
    • 知识结构图
    • 8.1 评测概述
      • 8.1.1 评测的意义
      • 8.1.2 评测的过程
    • 8.2 系列评测介绍
      • 8.2.1 NIST系列评测
      • 8.2.2 ACL-SIGHAN系列评测
      • 8.2.3 863技术测评
      • 8.2.4 中文信息学会评测
    • 8.3 各领域技术评测介绍
      • 8.3.1 中文分词和词性标注评测
      • 8.3.2 词义消歧评测
      • 8.3.3 句法分析评测
      • 8.3.4 文本分类器性能评估
      • 8.3.5 信息检索系统的评测
      • 8.3.6 问答系统评测
      • 8.3.7 信息抽取评测
      • 8.3.8 自动文摘评测
    • 8.4 习题
  • 部分习题参考答案
  • 参考文献

相关图书