未分类 记一个Hive的Bug 描述: 从mysql用sqoop导入hive数据没有丢失,但是两边执行了同样的查询建表语句后,hive数据新表数据丢失了100多条,用sqoop将mysql生成的新表导入查看发现没有丢失数据,难道是h... 08月27日 593 views 发表评论 阅读全文
未分类 NLP——Word2Vec 看完了,感觉挺有意思,基本分析如下: 先读取,分词,去掉停用词,形成二维列表,交给Word2Vec去计算 最后调用相关函数,虽然不甚理想,但是比起之前的测试准确度提高到了70%左右 先上代码: #-*... 05月25日 532 views 发表评论 阅读全文
未分类 初步——PKUseg 安装:pip install pkuseg 北大的分词工具。 (1)多领域分词。新闻、科研、网络、医药、旅游、金融、工业。 (2)跟高的分词准确率 (3)支持用户自训练模型。支持用户使用全新的标注数据... 05月22日 2,168 views 发表评论 阅读全文
未分类 NLP初步——jieba pip install jieba jieba有一定识别新词的能力 #-*- coding:utf-8 -*- import jieba import jieba.analyse as ... 05月22日 4,448 views 发表评论 阅读全文
python-AI NLP初步——HanNLP pip install JPype1-0.7.0-cp37-cp37m-win_amd64 pip install pyhanlp 然后命令行import pyhanlp时,会有一个下载的过程 部分可... 05月21日 2,802 views 发表评论 阅读全文
未分类 NLP初步——SnowNLP pip install snownlp 个人感觉还是比较low的,可以仅作了解 (1)支持中文,受Textblob,没有用NLTK 特征、中文分词、词性标注、情感分析(买卖东西评价)、文本分类、拼音转... 05月21日 1,450 views 发表评论 阅读全文
未分类 NLP初步——TextBlob 安装 pip install textblob (1)处理文本数据的python库、功能:词性标注、名词短语抽取、情感分析、分类、翻译。 <pre>#-*- coding:utf-8 -*... 05月21日 611 views 发表评论 阅读全文
python-AI NLP初步——NLTK 安装相关库: conda install NLTK then import nltk # 调用 首次在python中执行nltk.download() 可以设置相关的下载地址 无法支持向... 05月21日 847 views 发表评论 阅读全文