pip install snownlp
个人感觉还是比较low的,可以仅作了解
特征、中文分词、词性标注、情感分析(买卖东西评价)、文本分类、拼音转换、繁体转简体、文本关键词提取、文本摘要提取
#-*- coding:utf-8 -*-
from snownlp import SnowNLP
textzh = '本人喜欢折腾,倒腾大数据和AI人工智能滴一些技术。'
textzh2 =" 加入来自世界各地的成千上万的学习者,他们通过我们的在线课程提高了英语听力技能。加入来自世界各地的成千上万的学习者,他们通过我们的在线课程提高了英语听力技能。"
snownlp_bus1 = SnowNLP(textzh)
snownlp_bus2 = SnowNLP(textzh2)
print('1sentence',snownlp_bus1.sentences)
print('2sentence',snownlp_bus2.sentences)
# 分词:
word_list = []
for sentence in snownlp_bus1.sentences:
word_list.append(SnowNLP(sentence).words)
print(word_list)
# 还行 折腾没识别出来 [['本人', '喜欢', '折', '腾'], ['倒腾', '大', '数据', '和', 'AI', '人工', '智能', '滴', '一些', '技术']]
# 词性标注:
tag_list = []
for sentence in snownlp_bus1.sentences:
tag_list.append(list(SnowNLP(sentence).tags))
for sentence in snownlp_bus2.sentences:
tag_list.append(list(SnowNLP(sentence).tags))
print(tag_list)
# 转换为拼音
print('pinyin',snownlp_bus2.pinyin)
# 简繁转换 略
# keywords Summary abstract
text = "SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。"
snow_pgh = SnowNLP(text)
print('key words',snow_pgh.keywords()) # key words ['库', '都', '写', 'unicode', '中文']
print('summary',snow_pgh.summary()) # 比较low的
