1、什么是序列标注

序列标注是NLP中最基础的任务，应用十分广泛，如分词、词性标注、命名实体识别、关键词抽取、语义角色标注、槽位抽取等实质上都属于序列标注的范畴

2、标注体系

输入序列	世	达	/	S	A	T	A	9	1	5	1	1	数	显	式	游	标	卡	尺
输出序列	B-brand	I-brand	O	B-brand	I-brand	I-brand	I-brand	O	O	O	O	O	O	O	O	B-product	I-product	I-product	I-product

输入序列	世	达	/	S	A	T	A	9	1	5	1	1	数	显	式	游	标	卡	尺
输出序列	B-brand	E-brand	O	B-brand	I-brand	I-brand	E-brand	O	O	O	O	O	O	O	O	B-product	I-product	I-product	E-product

BMES 四位序列标注法（B-begin，M-middle，E-end，S-single）
B表示实体开头
M表示实体中间
E表示实体结尾
S表示单个字符，其本身就是一个实体

输入序列	世	达	/	S	A	T	A	9	1	5	1	1	数	显	式	游	标	卡	尺
输出序列	B	E	S	B	M	M	E	S	S	S	S	S	S	S	S	B	M	M	E

分词基本上是所有自然语言处理任务的基础，目的是让文本的内容变成一个个的单词或词组，便于转换为词向量。

中文分词与英文分词的不同：

对已经分词完成的句子，将句子中的所有词标记词性。这里的“词”对应的就是已分词的词序列中的词，节点的标签空间为词性标记空间如{名词,动词,形容词,… .} 。每个词最终都会打上词性标签

词性标注的难点：

相对于英文，中文缺少词语形态变化，不能从词的形态来识别词性
一词多词性很常见。统计发现，一词多词性的概率高达22.5%。而且越常用的词，多词性线性越严重，比如“研究”既可以是名字也可以是动词。
词性划分标准不统一。词类划分粒度和标记符号等，目前还没有一个广泛认可的统一标准。比如LDC词性标注预料中，将汉语一级词性分为33类，而北京大学语料库则将其划分为26类。词类划分标准和标记符号的不统一，以及分词规范的含糊，都给词性标注带来了很大的困难。jieba分词采用了使用较为广泛的ICTCLAS 汉语词性标注集规范。
未登录词问题。和分词一样，未登录词的词性也是一个比较大的课题。未登录词不能通过查找字典的方式获取词性，可以采用HMM隐马尔科夫模型等基于统计的算法## 命名实体识别

NER又称作专名识别，是自然语言处理中的一项基础任务，应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体，通常包括人名、地名、组织机构名、日期时间、专有名词等。

NER系统就是从非结构化的输入文本中抽取出上述实体，并且可以按照业务需求识别出更多类别的实体，比如产品名称、型号、价格等。因此实体这个概念可以很广，只要是业务需要的特殊文本片段都可以称为实体。

上述资讯来自网友投稿，如有侵犯了您的权益，请来信告诉我们：liujun100@vip.qq.com