Articles of apache spark

目录中的子目录数量?

如何在HDFS中查找指定目录下的子目录数量? 当我做hadoop fs -ls /mydir/ ,我得到一个Java堆空间的错误,因为目录太大,但我感兴趣的是该目录中的子目录的数量。 我试过了: gsamaras@gwta3000 ~]$ hadoop fs -find /mydir/ -maxdepth 1 -type d -print| wc -l find: Unexpected argument: -maxdepth 0 我知道该目录不是空的,因此0是不正确的: [gsamaras@gwta3000 ~]$ hadoop fs -du -s -h /mydir 737.5 G /mydir

winutils启动windows安装

我正在试图在Windows 10上安装Spark 1.6.1,到目前为止,我已经完成了以下操作… 下载的spark 1.6.1,解压到某个目录,然后设置SPARK_HOME 下载的scala 2.11.8,解压到某个目录,然后设置SCALA_HOME 设置_JAVA_OPTION envvariables 通过下载zip目录从https://github.com/steveloughran/winutils.git下载winutils,然后设置HADOOP_HOME envvariables。 (不知道这是不正确的,我不能克隆目录,因为权限被拒绝)。 当我去火花回家,运行bin \ spark-shell时, 'C:\Program' is not recognized as an internal or external command, operable program or batch file. 我一定是错过了一些东西,我不知道如何从Windows环境中运行bash脚本。 但希望我不需要明白只是为了得到这个工作。 我一直在关注这个人的教程 – https://hernandezpaul.wordpress.com/2016/01/24/apache-spark-installation-on-windows-10/ 。 任何帮助,将不胜感激。

为什么在Windows上使用“”“C:\ Program”不能识别为内部或外部命令的spark-shell失败?

运行下面的命令提示符时,屏幕截图中显示错误。 命令: c:\spark>spark-shell 错误: '""C:\Program' is not recognized as an internal or external command, operable program or batch file. 为什么?

Spark 2.0:绝对URI中的相对path(spark-warehouse)

我试图从Spark 1.6.1迁移到Spark 2.0.0,并且在尝试将csv文件读入SparkSQL时出现奇怪的错误。 以前,当我从pyspark的本地磁盘读取文件时,我会这样做: Spark 1.6 df = sqlContext.read \ .format('com.databricks.spark.csv') \ .option('header', 'true') \ .load('file:///C:/path/to/my/file.csv', schema=mySchema) 在最新版本中,我认为它应该是这样的: Spark 2.0 spark = SparkSession.builder \ .master('local[*]') \ .appName('My App') \ .getOrCreate() df = spark.read \ .format('csv') \ .option('header', 'true') \ .load('file:///C:/path/to/my/file.csv', schema=mySchema) 但是我得到这个错误,无论我尝试调整path有多less种不同的方式: IllegalArgumentException: 'java.net.URISyntaxException: Relative path in absolute URI: file:/C:/path//to/my/file/spark-warehouse' 不知道这只是Windows的一个问题,或者是我缺less的东西。 我很兴奋spark-csv软件包现在成为Spark的一部分,但我似乎无法再读取我的本地文件。 有任何想法吗?

火花发射:查找版本

我的环境是Windows 7,安装了scala 2.11.4(运行良好),Java 1.8 我已经试过了spark-1.2.0-bin-hadoop2.4和spark-1.2.1-bin-hadoop2.4,每次我把 bin\spark-shell.cmd 我刚刚从Windows中得到错误: find: 'version': No such file or directory else was unexpected at this time. 我在这里忽略了什么吗? 非常感谢。 更新:(来自spark-class2.cmd) C:\Users\spark-1.2.1-bin-hadoop2.4>for /F "tokens=3" %i in ('java -version 2>&1 | find "version"') do set jversi on=%i find: 'version': No such file or directory else was unexpected at this time. 如果我尝试java版本,它似乎在Java方面工作 C:\Users\spark-1.2.1-bin-hadoop2.4>java -version java […]

运行spark-shell之前编辑spark-env.sh的正确方法是什么?

我在我的本地Windows机器上运行火花。 我能够成功启动火花shell。 我想编辑驻留在conf /文件夹中的spark-env.sh文件。 将值添加到spark-env.sh文件的正确方法是什么? 例如,如果我想增加值SPARK_EXECUTOR_MEMORYvariables如何做到这一点? 在不同的可用答案之间出现混淆1. SPARK_EXECUTOR_MEMORY =“2G”2.导出

无法在RStudio中启动SparkR

经过漫长而艰难的SparkR安装过程,我遇到了SparkR的新问题。 我的设置 R 3.2.0 RStudio 0.98.1103 Rtools 3.3 Spark 1.4.0 Java Version 8 SparkR 1.4.0 Windows 7 SP 1 64 Bit 现在我尝试在R中使用下面的代码: library(devtools) library(SparkR) Sys.setenv(SPARK_MEM="1g") Sys.setenv(SPARK_HOME="C:/spark-1.4.0") sc <- sparkR.init(master="local") 我收到以下内容: JVM is not ready after 10 seconds 我也试图添加一些系统variables,如火花path或Javapath。 你有什么build议让我解决这个问题。 testing本地主机后,下一步就是在我运行的hadoop集群上开始testing。

Spark Windows安装Java错误

我继续从这个问题 – winutils的火花窗口安装 – 我知道这个线程 – 如何启动在Windows上的Spark应用程序(又名为什么火花失败,NullPointerException)? – ,但我还没有find任何解决我的问题呢。 我也知道,已经build议使用maven或sbt从源代码构buildspark。 我不想这样做,因为很多人不会从源头上build立火花,对他们来说工作得很好。 到目前为止,我已经设置了以下环境variables… set _JAVA_OPTIONS=-Xmx512M -Xms512M set _JAVA_OPTION=-Xmx512M -Xms512M set SPARK_HOME=C:\spark\spark161binhadoop26\bin set JAVA_HOME=C:\Program Files\Java\jdk1.8.0_51 ::this used to be C:\winutils, but I moved it based on a suggestion set HADOOP_HOME=C:\spark\spark161binhadoop26\bin ::the scala version here is 2.11.8 set SCALA_HOME=C:\scala\bin ::trying to get through the last warning. The one […]