初步——PKUseg

2022年5月22日15:44:52 发表评论 2,178 views

安装:pip install pkuseg

北大的分词工具。

(1)多领域分词。新闻、科研、网络、医药、旅游、金融、工业。

(2)跟高的分词准确率

(3)支持用户自训练模型。支持用户使用全新的标注数据进行训练。

缺点,进行文件分词的时候速度略慢,内存CPU占用较高

#-*- coding:utf-8 -*-
import pkuseg
seg = pkuseg.pkuseg()
text = seg.cut('这是一段测试用的文本')
print(text)

seg_med = pkuseg.pkuseg(model_name='medicine')
text2 = seg_med.cut('我想买点杜仲和枸杞子以及苹果皮,还有菟丝子')
print('医药领域',text2)   #

# 词性标注
seg_med = pkuseg.pkuseg(model_name='medicine',postag=True)
text2 = seg_med.cut('我想买点杜仲和枸杞子以及苹果皮,还有菟丝子')
print('词性标注',text2)   #

# 文件分词
inpath = r"D:\win7远程\NLP 大数据人工智能自然语言处理\0630-中文标注-BIOES\day4\input.txt"
outpath = 'ddd.txt'
pkuseg.test(inpath,outpath)   # 有个坑,容易死机,CPU100%,内存飙升6个G







 

 

 

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: