秉承归零心态是学习编程必备态度的原则,这次scala也使用python的方法,把代码敲一遍,所以,就有了下面的....同样保留了试错的内容。 scala> var rdd1 = s...
Hive安装部署和相关操作
Hive安装环境准备 2.1 Hive安装地址 1)Hive官网地址: http://hive.apache.org/ 2)文档查看地址: https://cwiki.apache.org/confl...
记一个Hive的Bug
描述: 从mysql用sqoop导入hive数据没有丢失,但是两边执行了同样的查询建表语句后,hive数据新表数据丢失了100多条,用sqoop将mysql生成的新表导入查看发现没有丢失数据,难道是h...
CDH部署
安装分布式,标准:各机器能ping通各机器,且都能ssh对方,见hadoop分布式 小坑:快照还原不统一导致证书无法识别也无法覆盖,使用-f命令即可: ssh-copy-id -f bigdata16...
spark 配置和Word Count jar包
配置:解压,配置文件: 配置文件:conf/spark-env.sh export JAVA_HOME=/opt/module/jdk1.8.0_144 export SPARK_MASTER_HOS...
瞎折腾系列之mysql MR导致C盘空间不足
之前用distinct导致C盘爆满,现在随着使用量增长,C盘尾部写入特别慢,忍无可忍开始换位置: 解决方案: 重启服务,完事
sqoop导出的问题一个
报错: Caused by: java.sql.SQLException: Incorrect string value: '\xF0\xA7\x92\xBD\xE8\x9B...' for colu...
Sqoop入门
Sqoop原理 将导入或导出命令翻译成mapreduce程序来实现。 在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。 Sqoop安装 安装Sqoop的...
pandas连接和按时间排序
total_pd = pd.concat() # 按时间排序: total_pd = pd.to_datetime(total_pd, format='%Y%m%d-%H:%M:%S') total_...
NLP——Word2Vec
看完了,感觉挺有意思,基本分析如下: 先读取,分词,去掉停用词,形成二维列表,交给Word2Vec去计算 最后调用相关函数,虽然不甚理想,但是比起之前的测试准确度提高到了70%左右 先上代码: #-*...