Chinese Word Segmentation Basic Concepts

中文分词总结之基本概念讲解篇。

什么是中文分词

首先，分词（Word Segmentation）是指将连续的自然语言文本，按照一定的规则，切分出具有语义合理性和完整性的词汇序列的过程。
而中文分词（Chinese Word Segmentation），是指将一个汉字序列进行切分，得到一个个单独的词。因为在汉语中，词是承担语义的最基本单位，切词是文本分类、情感分析、信息检索等众多自然语言处理任务的基础。
词性标注（Part-of-speech Tagging）是为自然语言文本中的每一个词汇赋予一个词性的过程，这里的词性包括名词、动词、形容词、副词等等。命名实体识别（Named Entity Recognition，NER）又称作“专名识别”，是指识别自然语言文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。

中文分词与英文分词的区别

中文分词与英文分词有很大的不同。
以英文为代表的拉丁语系语言，以空格作为天然的分隔符。每一个单词就是一个词。
计算机可以简单的按照空格和标点符号，将其分为独立的词。并且，每个词的含义也基本确定。

    原始文本：Hello, Henry. Good morning.
    分词结果：Hello  ,  Henry  .  Good  morning  .

而中文是以汉字为基本的单位，词语之间没有明显的区分标记。现代汉语中双字和多字词居多，一个字不再等同于一个词。
让计算机将其切分为独立的有意义的词，并且，切分后的结果，要保留原始语句的含义，比较困难。

    原始文本：早上好亨利，我们一起去吃早餐吧。
    分词结果：早上  好  亨利  ，  我们  一起  去  吃  早餐  吧  。

中文分词方法和算法

为了让计算机能够对中文进行分词，我们引入一定的分词策略和算法，将待分析的中文语句进行正确的处理。以下，列举四大类分词方法，每种分词方法中包含多种分词的算法。

一、基于规则的分词方法
二、基于统计的分词方法
三、基于理解的分词方法

一、基于规则的分词方法

基于规则的分词方法，又称为机械分词方法。该方法是按照一定的策略将待分析的中文文本，与一个“充分大的”机器词典中的词进行匹配。若在词典中找到某个字符串，则匹配成功，识别出该词。
因此，该方法也叫字符串匹配分词。该方法有三个要素：分词词典、文本扫描顺序和匹配原则。其中，文本的扫描顺序有正向、逆向和双向。匹配原则主要有最大匹配、最小匹配、逐词匹配和最佳匹配。

1.1 规则分词方法的特点
逆向匹配的切分精度略高与正向匹配，遇到歧义现象也较少。
统计结果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245。这样的精度远远不能满足实际的需要。
实际使用的分词系统，都是把该分词方法作为一种初分手段，还需要通过利用各种其他的语言信息，来进一步提高分词的准确率。

1.2 规则分词方法的改进
一种方法是改进扫描方式，称为特征扫描或标志切分，优先在待分析字符串中识别和切分出一些带有明显特征的词，以这些词为断点，可将原字符串分为较小的串，再来进行分词，从而减少匹配的错误率
另一种方法是将分词和词类标志结合起来，利用丰富的词类信息，对分词决策提供帮助。并且在标注过程中又反过来对分词结果进行校验、调整，从而极大的提供切分的准确率。

二、基于统计的分词方法

统计分词的主要思想：词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此，可以对文本中相邻出现的各个字的组合，出现的频率进行统计。相邻两个汉字的互现信息，体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为该字的组合可能构成了一个词。
该方法只需对文本中的字组合频率进行统计，因而也叫统计取词方法。

2.1 统计分词方法的特点
统计分词有一定的局限性，会出现一些共线频率高，但是，不是组合词的情况。例如：“之一”、“有的”、“我的”等。并且对常用词的识别精度差，统计过程耗时。
实际应用中，会使用常用词词典进行串匹配分词，同时使用统计方法识别一些新的词。既可以发挥匹配分词切分速度快、效率高的特点，又结合上下文识别生词、自动消除歧义的优点。
该分词方法应用的统计模型有：N 元文法模型（N-gram）、隐马尔可夫（Hiden Markov Model, HMM）、最大熵模型(ME)、条件随机场模型(Conditional Random Fields, CRF)等。

2.2 统计分词方法的改进
基于统计机器学习的方法。首先给出大量已经分词的文本，利用统计机器学习模型，学习词语切分的规律（称为训练），从而实现对未知文本的切分。
这种方法充分利用了汉语组词的规律，进行分词。缺点是需要有大量预先分好词的文本库作为支撑，同时，训练过程中的时空开销很大。

三、基于理解的分词方法

通过让计算机模拟人对句子的理解，达到识别词的效果。
基本思想是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。
通常包括三个部分：分词系统、句法语义系统和总控系统。

3.1 理解分词方法的特点
在总控系统的协调下，分词子系统可以获得有关词、句子等的句法和语义信息，从而对分词歧义进行判断，即模拟了人对句子的理解过程。
这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复制性，难以将各种语言信息组织成机器可以直接读取的形式，因此，目前基于理解的分词系统还处于实验

中文分词中的难题

主要难题有歧义识别和新词识别。
歧义识别又分为交集型歧义和组合型歧义。例如：

  原始文本：乒乓球拍卖完了
  分词结果：乒乓球  拍卖  完  了
  歧义结果：乒乓球拍  卖  完  了

新词主要由于专有名词，如：人名、地名、机构名、商标名、简称、省略语等，未收录在分词词典中，导致程序很难正确切分。

新词识别
在总控系统的协调下，分词子系统可以获得有关词、句子等的句法和语义信息，从而对分词歧义进行判断，即模拟了人对句子的理解过程。
这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复制性，难以将各种语言信息组织成机器可以直接读取的形式，因此，目前基于理解的分词系统还处于实验

中文分词的应用领域

中文分词技术，在以下领域起到了关键性的作用

搜索引擎
机器翻译
智能客服
推荐算法

参考链接

中文分词算法总结
 中文分词原理及工具
 【中文分词】条件随机场 CRF

2018-06-26