博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
使用spark-sql-perf评测spark 2.0
阅读量:5983 次
发布时间:2019-06-20

本文共 1906 字,大约阅读时间需要 6 分钟。

hot3.png

文章分为四个部分讲述怎样使用spark官方评测工具评测spark 2.0 tpc ds支持情况

  1. 基础环境的安装
  2. davies/tpcds-kit 下载、编译、部署
  3. databricks/spark-sql-perf 下载、打包
  4. 运行TPCDS测试

基础环境的安装

刀片机:1台 126G内存 64核心 centos 7.2

virtualbox安装四台虚拟机(centos 7.2,16G内存,4核):master,worker1,worker2,worker3(centos下)

spark版本:2.0

hadoop版本:2.6

安装请参考:或者

安装后的截图

HDFS集群

Spark集群

davies/tpcds-kit 下载、编译、部署

简介

davies/tpcds-kit是用来生成测试数据的工具

下载

git clone

编译

任选一台机器(这里我们选择master)安装以下编译工具(默认软件里没有编译工具)

yum   install gcc gcc-c++ bison flex cmake ncurses-develcd    tpcds-kit/toolscp    Makefile.suite Makefile #复制Makefile.suite为Makefilemake             #运行make命令

接下来,拷贝tpcds-kit到所有机器的相同目录下(重要

scp  -r /目录/tpcds-kit root@worker1:/目录/tpcds-kit  #执行三次该命令复制到worker1,worker2,worker3

databricks/spark-sql-perf 下载、打包

下载

git clone

打包

使用sbt package打包的jar在使用时会出现依赖找不到情况,我们使用Intellij Idea导入该工程

修改sbt.build,更改scala版本为2.11.8 Scala版本

打包成jar包

设置Project Structure

step 1

设置Artifacts

step 2

Build

step 3

jar包不需要每个节点都有

运行TPCDS测试

更改spark.env中的driver内存限制

SPARK_DRIVER_MEMORY=8G #依具体情况而定

运行spark-shell

cd   spark-2.0.0-bin-hadoop2.6./bin/spark-shell --jars /jar包目录/spark-sql-perf.jar --num-executors 20 --executor-cores 2 --executor-memory 8G --master spark://master:7077

在spark-shell中运行测试

// 创建sqlContextval sqlContext=new org.apache.spark.sql.SQLContext(sc)import sqlContext.implicits._// 生成数据 参数1:sqlContext  参数2:tpcds-kit目录  参数3:生成的数据量(GB)val tables=new Tables(sqlCotext,"/目录/tpcds-kit/tools",1)tables.genData("hdfs://master:8020:tpctest","parquet",true,false,false,false,false);// 创建表结构(外部表或者临时表)// talbles.createExternalTables("hdfs://master:8020:tpctest","parquet","mytest",false)talbles.createTemporaryTables("hdfs://master:8020:tpctest","parquet")import com.databricks.spark.sql.perf.tpcds.TPCDSval tpcds=new TPCDS(sqlContext=sqlContext)//运行测试val experiment=tpcds.runExperiment(tpcds.tpcds1_4Queries)

在spark-shell中我们可以调用 _experiment.html_查看执行状态

HDFS上生成的数据截图

生成的数据

运行截图

运行截图

运行结果保存在spark/performance目录下

HDFS上的评测结果截图

评测结果

转载于:https://my.oschina.net/u/697744/blog/805428

你可能感兴趣的文章
C#继承使用实例
查看>>
【jQuery日期处理】两个时间大小的比较
查看>>
linux下判断网络是否连接
查看>>
duplicate symbols for architecture arm64 (Xcode error)
查看>>
C++ 匿名对象产生场景
查看>>
Hibernate中Session的get和load
查看>>
jQuery操作checkbox的全选,反选,radio,select取值
查看>>
oracle保存小数点前为"0"的问题
查看>>
数据库大型应用解决方案总结(转)
查看>>
一款着眼性能的轻量级Data Grid——WPF Table View
查看>>
从一个登录页面浅淡MVVM(一)
查看>>
数据库中字符长度和C#代码中字符长度
查看>>
java xml 四种解析
查看>>
强烈推荐50套令人惊叹的免费图标
查看>>
返回已用编号、缺号分布字符串的处理示例.sql
查看>>
牢骚遍地————关于头发
查看>>
Salesforce.com + AutoCAD WS集成研究集锦
查看>>
PHP正则: 邮件地址匹配
查看>>
返回一个表
查看>>
字体大宝库:50款精美的免费细英文字体资源【下篇】
查看>>