在中文分词中,jiebe库是最为常见的,主要的原因还是它独特的支持分词模式如:精确模式、全模式、搜索引擎模式。也对应着三种方式,包括jieba.cut()方法、jieba.lcut()方法、jieba.cut_for_search()方法。下面就为大家实例操作这些分词模式,以及方法的使用,一起来了解下吧。
全模式:
importjieba seg_list=jieba.cut("南京市长江大桥欢迎你。",cut_all=True) print(type(seg_list),seg_list)
精确模式:
seg_list1=jieba.lcut("南京市长江大桥欢迎你。",cut_all=False) print(type(seg_list1),seg_list1)
搜索模式:
seg_list2=jieba.cut_for_search("南京市长江大桥欢迎你。") print(type(seg_list2),seg_list2) print("全模式:"+"/".join(seg_list)) print("精确模式:"+"/".join(seg_list1)) print("搜索引擎模式:"+"/".join(seg_list2))
输出结果:
<class'list'>['南京市','长江大桥','欢迎','你','。'] <class'generator'><generatorobjectTokenizer.cut_for_searchat0x000002E04D1C43C0> 全模式:南京/南京市/京市/市长/长江/长江大桥/大桥/欢迎/你/。 精确模式:南京市/长江大桥/欢迎/你/。 搜索引擎模式:南京/京市/南京市/长江/大桥/长江大桥/欢迎/你/。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论(0)