Articles of apache spark

在现有的Hadoop集群上安装Spark

我不是系统pipe理员,但可能需要执行一些pipe理任务,因此需要一些帮助。 我们有一个(远程)Hadoop集群,人们通常在集群上运行map-reduce作业。 我计划在群集上安装Apache Spark,以便可以使用群集中的所有机器。 这应该是可能的,我已经阅读http://spark.apache.org/docs/latest/spark-standalone.html “你可以运行Spark与你现有的Hadoop集群,只要启动它作为一个单独的服务在同一台机器上……” 如果你之前做过这个,请给我详细的步骤,以便可以创buildSpark群集。

Spark作为Linux服务

我负责将火花部署到生产环境中。 我通常用Ansible来pipe理一切。 我已经打包了zookeeper和kafka,可以将它们部署为linux服务,但Spark有问题。 它似乎没有设置作为服务启动/停止(指init.d服务)。 有人在群集模式下运行火花,你有安装启动/停止通过一个init.d脚本? 或者如何设定这个共识呢? 这是我以前已经尝试过的: spark init.d服务: #!/bin/bash SPARK_BASE_DIR=/opt/spark-2.0.0-bin-hadoop2.7 SPARK_SBIN=$SPARK_BASE_DIR/sbin PID='' if [ -f $SPARK_BASE_DIR/conf/spark-env.sh ];then source $SPARK_BASE_DIR/conf/spark-env.sh else echo "$SPARK_BASE_DIR/conf/spark-env.sh does not exist. Can't run script." exit 1 fi check_status() { PID=$(ps ax | grep 'org.apache.spark.deploy.master.Master' | grep java | grep -v grep | awk '{print $1}') if [ -n "$PID" ] […]

在Windows 7上运行Apache Spark

我试图在Windows 7上运行Apache Spark 。 起初,我已经通过msi安装了SBT ,然后通过7-zip将spark-1.0.0中的文件解压到程序文件中。 在命令行中,我写了以下内容: spark-directory: sbt/sbt assembly 经过几秒钟的处理,我得到如下错误: -server access error: connection timed out -could not retrieve jansi 1.1 -error during sbt execution: error retrieving required libraries -unresolved dependency, jansi 1.1 not found 你可以给我一些关于在Windows上运行Spark的build议吗? 我正在寻找正确的方法,因为我对这项技术是全新的。 问候。

Sparkconfiguration,SPARK_DRIVER_MEMORY,SPARK_EXECUTOR_MEMORY和SPARK_WORKER_MEMORY有什么不同?

我做了我的工作,阅读文档在https://spark.apache.org/docs/latest/configuration.html 在spark-folder / conf / spark-env.sh中: SPARK_DRIVER_MEMORY ,主内存(例如1000M,2G)(默认值:512 Mb) SPARK_EXECUTOR_MEMORY ,每个工作者的内存(例如1000M,2G)(默认值:1G) SPARK_WORKER_MEMORY ,设置多less记忆员工必须给予执行者(例如1000m,2g) 以上3个参数是什么关系? 据我所知,DRIVER_MEMORY是最大内存主节点/进程可以请求。 但是对于驱动程序来说,多机的情况如何呢? 1主机和2工人机器,工作机器也应该有一些内存可用于火花驱动? EXECUTOR_MEMORY和WORKER_MEMORY对我来说是一样的,只是名称不同,请问这个也可以解释一下吗? 非常感谢你。

Spark sbin /文件夹中的stop-all.sh不会停止所有的从属节点

您好我有独立模式下的Spark群集,也就是说,我有一个Spark-master进程和三个在我的笔记本电脑上运行的Spark-Slave进程(在同一台机器上的Spark群集)。 启动主站和从站只是在Spark_Folder / sbin / start-master.sh和Spark_Folder / sbin / stop-master.sh中运行脚本。 但是,当我运行Spark_Folder / sbin / stop-all.sh时,它只停止一个主服务器和一个服务器,因为我有三个从服务器运行,在运行stop-all.sh之后,我仍然有两个从服务器运行。 我深入到脚本“stop-slaves.sh”,发现如下: if [ "$SPARK_WORKER_INSTANCES" = "" ]; then "$sbin"/spark-daemons.sh stop org.apache.spark.deploy.worker.Worker 1 else for ((i=0; i<$SPARK_WORKER_INSTANCES; i++)); do "$sbin"/spark-daemons.sh stop org.apache.spark.deploy.worker.Worker $(( $i + 1 )) done fi 看来,这个脚本正在停止基于“SPARK_WORKER_INSTANCES”号码。 但是,如果我使用非数字名称启动一个slave,该怎么办呢? 还有任何想法,通过一次点击closures整个火花集群? (我知道运行“pkill -f spark *”可以工作) 非常感谢。

在Windows 10中设置星火

任何人都可以build议我一个很好的教程,在我的机器远程访问其中安装了hadoop的其他机器设置火花。

为什么开始stream式查询会导致“ExitCodeException exitCode = -1073741515”?

一直试图去适应新的结构化stream,但一旦我开始一个.writeStream查询,它一直给我下面的错误。 任何想法可能是什么原因造成的? 如果你在本地和HDFS之间分割检查点和元数据文件夹,最近我可以find一个持续的Spark错误,但是。 在Windows 10,Spark 2.2和IntelliJ上运行。 17/08/29 21:47:39 ERROR StreamMetadata: Error writing stream metadata StreamMetadata(41dc9417-621c-40e1-a3cb-976737b83fb7) to C:/Users/jason/AppData/Local/Temp/temporary-b549ee73-6476-46c3-aaf8-23295bd6fa8c/metadata ExitCodeException exitCode=-1073741515: at org.apache.hadoop.util.Shell.runCommand(Shell.java:582) at org.apache.hadoop.util.Shell.run(Shell.java:479) at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:773) at org.apache.hadoop.util.Shell.execCommand(Shell.java:866) at org.apache.hadoop.util.Shell.execCommand(Shell.java:849) at org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:733) at org.apache.hadoop.fs.RawLocalFileSystem$LocalFSFileOutputStream.<init>(RawLocalFileSystem.java:225) at org.apache.hadoop.fs.RawLocalFileSystem$LocalFSFileOutputStream.<init>(RawLocalFileSystem.java:209) at org.apache.hadoop.fs.RawLocalFileSystem.createOutputStreamWithMode(RawLocalFileSystem.java:307) at org.apache.hadoop.fs.RawLocalFileSystem.create(RawLocalFileSystem.java:296) at org.apache.hadoop.fs.RawLocalFileSystem.create(RawLocalFileSystem.java:328) at org.apache.hadoop.fs.ChecksumFileSystem$ChecksumFSOutputSummer.<init>(ChecksumFileSystem.java:398) at org.apache.hadoop.fs.ChecksumFileSystem.create(ChecksumFileSystem.java:461) at org.apache.hadoop.fs.ChecksumFileSystem.create(ChecksumFileSystem.java:440) at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:911) at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:892) at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:789) at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:778) […]

当启动spark-shell时,“已经注册了”WARN消息是什么?

我在windows下安装了spark / hadoop。 当我执行spark-shell,我得到这些“已经注册”的警告。 我不确定是否需要担心 C:\Users\Administrator\spark-2.2.0-bin-hadoop2.7\bin>spark-shell Using Spark's default log4j profile: org/apache/spark/log4j defaults.properties Setting default log level to "WARN". To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel). 17/09/24 14:29:15 WARN General: Plugin (Bundle) "org.datanucleus.store.rdbms" is already registered. Ensure you dont have multiple JAR versions of the same plugin in the classpath. The URL […]

如何将log4jconfiguration文件传递给Windows上的spark-submit?

我试图用spark-submit在windows中启动一个spark工作。 Spark应用程序工作正常,没有指定日志选项。 用下面的–driver-java-options : –driver-java-options "-Dlog4j.configuration=file:///d:/launch/log4j-spark.properties" 我收到错误消息: 该系统找不到指定的path。 我尝试了很多组合,但没有运气,请指教。 spark-submit –master local[*] –files D:\launch\log4j-spark.properties –jars D:\launch\spark-sql-kafka-0-10_2.10-2.1.0.jar \ –driver-java-options "-Dlog4j.configuration=file:///d:/launch/log4j-spark.properties" \ –class com.acheron.bi.pipeline.DataPipelineProcessor D:\launch\bi-master-pipeline-1.0-SNAPSHOT-jar-with-dependencies.jar –driver-java-options "-Dlog4j.configuration=file://./launch/log4j-spark.properties" \ –driver-java-options "-Dlog4j.configuration=log4j-spark.properties" \ 下面是包含代码的文件夹 D:\launch>dir Volume in drive D is Data Volume Serial Number is 52DE-C096 Directory of D:\launch 10/20/2017 10:06 AM <DIR> . 10/20/2017 10:06 AM <DIR> .. […]

在windows上启动启动

我正在学习Apache Spark。 我正在关注这本书 。 我下载了Apache Spark 1.5.1并解压缩到F:\ spark-1.5.1。 我用火花shell开始了它。 我每次都得到以下exception: 15/11/06 15:29:06 WARN Connection: BoneCP specified but not present in CLASSPATH (or one of dependencies) 15/11/06 15:29:21 WARN ObjectStore: Version information not found in metastore. hive.metastore.schema.verification is not enabled so recording the schema version 1.2.0 15/11/06 15:29:21 WARN ObjectStore: Failed to get database default, returning […]