spark算子初步 未分类

spark算子初步

秉承归零心态是学习编程必备态度的原则,这次scala也使用python的方法,把代码敲一遍,所以,就有了下面的....同样保留了试错的内容。   scala> var rdd1 = s...
阅读全文
记一个Hive的Bug 未分类

记一个Hive的Bug

描述: 从mysql用sqoop导入hive数据没有丢失,但是两边执行了同样的查询建表语句后,hive数据新表数据丢失了100多条,用sqoop将mysql生成的新表导入查看发现没有丢失数据,难道是h...
阅读全文
CDH部署 大数据

CDH部署

安装分布式,标准:各机器能ping通各机器,且都能ssh对方,见hadoop分布式 小坑:快照还原不统一导致证书无法识别也无法覆盖,使用-f命令即可: ssh-copy-id -f bigdata16...
阅读全文
Sqoop入门 未分类

Sqoop入门

Sqoop原理 将导入或导出命令翻译成mapreduce程序来实现。 在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。 Sqoop安装 安装Sqoop的...
阅读全文
NLP——Word2Vec 未分类

NLP——Word2Vec

看完了,感觉挺有意思,基本分析如下: 先读取,分词,去掉停用词,形成二维列表,交给Word2Vec去计算 最后调用相关函数,虽然不甚理想,但是比起之前的测试准确度提高到了70%左右 先上代码: #-*...
阅读全文