spark入门知识和job任务提交流程-创新互联-乐山大橙子建站

新闻中心

这里有您想知道的互联网营销解决方案

spark入门知识和job任务提交流程-创新互联

spark是Apache开源社区的一个分布式计算引擎，基于内存计算，所以速度要快于hadoop.

下载

地址spark.apache.org
站在用户的角度思考问题，与客户深入沟通，找到龙华网站设计与龙华网站推广的解决方案，凭借多年的经验，让设计与互联网技术结合，创造个性化、用户体验好的作品，建站类型包括：网站设计、成都网站建设、企业官网、英文网站、手机端网站、网站推广、空间域名、虚拟主机、企业邮箱。业务覆盖龙华地区。

安装

复制一台单独的虚拟机，名c
修改其ip，192.168.56.200
修改其hostname为c，hostnamectl set-hostname c
修改/etc/hosts加入对本机的解析
重启网络服务 systemctl restart network
上传spark安装文件到root目录
解压spark到/usr/local下，将其名字修改为spark

本地运行模式

使用spark-submit提交job

cd /usr/local/spark
./bin/spark-submit --class org.apache.spark.examples.SparkPi ./examples/jars/spark-examples_2.11-2.1.0.jar 10000

使用spark-shell进行交互式提交

创建root下的文本文件hello.txt
./bin/spark-shell
再次连接一个terminal，用jps观察进程，会看到spark-submit进程
sc
sc.textFile("/root/hello.txt")
val lineRDD = sc.textFile("/root/hello.txt")
lineRDD.foreach(println)
观察网页端情况
val wordRDD = lineRDD.flatMap(line => line.split(" "))
wordRDD.collect
val wordCountRDD = wordRDD.map(word => (word,1))
wordCountRDD.collect
val resultRDD = wordCountRDD.reduceByKey((x,y)=>x+y)
resultRDD.collect
val orderedRDD = resultRDD.sortByKey(false)
orderedRDD.collect
orderedRDD.saveAsTextFile("/root/result")
观察结果
简便写法：sc.textFile("/root/hello.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortByKey().collect

使用local模式访问hdfs数据

start-dfs.sh
spark-shell执行：sc.textFile("hdfs://192.168.56.100:9000/hello.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortByKey().collect （可以把ip换成master，修改/etc/hosts）
sc.textFile("hdfs://192.168.56.100:9000/hello.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortByKey().saveAsTextFile("hdfs://192.168.56.100:9000/output1")

spark standalone模式

在master和所有slave上解压spark
修改master上conf/slaves文件，加入slave
修改conf/spark-env.sh，export SPARK_MASTER_HOST=master
复制spark-env.sh到每一台slave
cd /usr/local/spark
./sbin/start-all.sh
在c上执行：./bin/spark-shell --master spark://192.168.56.100:7077 (也可以使用配置文件)
观察http://master:8080

spark on yarn模式

另外有需要云服务器可以了解下创新互联scvps.cn，海内外云服务器15元起步，三天无理由+7*72小时售后在线，公司持有idc许可证，提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案，具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势，专为企业上云打造定制，能够满足用户丰富、多元化的应用场景需求。

分享标题：spark入门知识和job任务提交流程-创新互联
分享链接：http://lswzjz.com/article/gjgog.html