实测可以从1s降低到76ms scala> val df1 = spark.read.json("/testdata/emp.json") //需要上传到hdfs df1: org.apache...
spark-SQL连接Hive
server端(biddata166主机hive/conf目录下hive-site.xml): <configuration> <property> <name>h...
scala 日志统计代码 自定义分区 数据库连接
package customPartition0103 package customPartition0103 import org.apache.spark.rdd.RDD impor...
集群网关设置
重新检查并尝试备份一下网络配置顺便配置一下Linux和win7以及主机互通,结果忘了网关当时是怎么设置的了。。。后来找到了
记录一个bug
spark cache checkpoints mapPartitionsWithIndex aggregate
scala> var rdd1 = sc.textFile("hdfs://bigdata111:9000/spark/test_Cache.txt&quo...
scala两种环境备忘
IDEA环境: package wordcount import org.apache.spark.{SparkConf, SparkContext} object wordCountScala ex...
CDH部署
安装分布式,标准:各机器能ping通各机器,且都能ssh对方,见hadoop分布式 小坑:快照还原不统一导致证书无法识别也无法覆盖,使用-f命令即可: ssh-copy-id -f bigdata16...
Hbase Region 均衡设置
package hbaseapi; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.*; imp...
HbaseAPI编写
package hbaseapi; import com.google.inject.internal.util.$AsynchronousComputationException; import c...