初步——PKUseg | 编程电脑技术交流

2022年5月22日15:44:52 发表评论 2,462 views

安装：pip install pkuseg

北大的分词工具。

（1)多领域分词。新闻、科研、网络、医药、旅游、金融、工业。

（2）跟高的分词准确率

（3）支持用户自训练模型。支持用户使用全新的标注数据进行训练。

缺点，进行文件分词的时候速度略慢，内存CPU占用较高

#-*- coding:utf-8 -*-
import pkuseg
seg = pkuseg.pkuseg()
text = seg.cut('这是一段测试用的文本')
print(text)

seg_med = pkuseg.pkuseg(model_name='medicine')
text2 = seg_med.cut('我想买点杜仲和枸杞子以及苹果皮，还有菟丝子')
print('医药领域',text2)   #

# 词性标注
seg_med = pkuseg.pkuseg(model_name='medicine',postag=True)
text2 = seg_med.cut('我想买点杜仲和枸杞子以及苹果皮，还有菟丝子')
print('词性标注',text2)   #

# 文件分词
inpath = r"D:\win7远程\NLP 大数据人工智能自然语言处理\0630-中文标注-BIOES\day4\input.txt"
outpath = 'ddd.txt'
pkuseg.test(inpath,outpath)   # 有个坑，容易死机，CPU100%，内存飙升6个G

发表评论取消回复