未分类 spark表缓存 实测可以从1s降低到76ms scala> val df1 = spark.read.json("/testdata/emp.json") //需要上传到hdfs df1: org.apache... 06月19日 464 views 发表评论 阅读全文
未分类 spark-SQL连接Hive server端(biddata166主机hive/conf目录下hive-site.xml): <configuration> <property> <name>h... 06月19日 2,896 views 发表评论 阅读全文
未分类 scala 日志统计代码 自定义分区 数据库连接 package customPartition0103 package customPartition0103 import org.apache.spark.rdd.RDD impor... 06月16日 849 views 发表评论 阅读全文
大数据 spark cache checkpoints mapPartitionsWithIndex aggregate scala> var rdd1 = sc.textFile("hdfs://bigdata111:9000/spark/test_Cache.txt&quo... 06月15日 2,507 views 发表评论 阅读全文
未分类 scala两种环境备忘 IDEA环境: package wordcount import org.apache.spark.{SparkConf, SparkContext} object wordCountScala ex... 06月15日 452 views 发表评论 阅读全文
大数据 CDH部署 安装分布式,标准:各机器能ping通各机器,且都能ssh对方,见hadoop分布式 小坑:快照还原不统一导致证书无法识别也无法覆盖,使用-f命令即可: ssh-copy-id -f bigdata16... 06月14日 607 views 发表评论 阅读全文
未分类 Hbase Region 均衡设置 package hbaseapi; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.*; imp... 06月14日 2,079 views 发表评论 阅读全文
未分类 HbaseAPI编写 package hbaseapi; import com.google.inject.internal.util.$AsynchronousComputationException; import c... 06月14日 1,203 views 发表评论 阅读全文