Articles of r

使用R从基于Web的PDF中刮取信息

我正在尝试从以下基于Web的PDF中刮取文本信息: http : //www.cmegroup.com/delivery_reports/IssuesAndStopsReport.pdf 任何build议如何做到这一点? 我已经探索了没有太多运气的tm包(不认识path): > pdf.loader <- readPDF(control= list(text = "-layout")) > rr <- pdf.loader(elem=list(uri="http://www.cmegroup.com/delivery_reports/IssuesAndStopsReport.pdf"),language="en",id="id1") Error: Cannot handle URI 'http://www.cmegroup.com/delivery_reports/IssuesAndStopsReport.pdf'. Error: Cannot handle URI 'http://www.cmegroup.com/delivery_reports/IssuesAndStopsReport.pdf'. Warning messages: 1: In normalizePath(file) : path[1]="http://www.cmegroup.com/delivery_reports/IssuesAndStopsReport.pdf": No such file or directory 2: running command ''pdftotext' -layout 'http://www.cmegroup.com/delivery_reports/IssuesAndStopsReport.pdf' -' had status 1 我也尝试在readPDF()input不同的“引擎”参数,但没有运气。

如何使用默认的R安装通过conda安装rpy2

我在Ubuntu linux上使用Anaconda Python发行版,并想在IPython笔记本中使用R magics。 有没有办法用conda发行版安装rpy2,并在/ usr / bin / R中使用我当前的默认R安装? 我的目标是保持当前的R安装,而无需通过conda安装R或其他R包。 这个对相关问题的回应build议在mac上使用这个方法,但不适用于我: conda skeleton pypi rpy2 conda build rpy2 conda install rpy2 –use-local 生成命令产生以下错误: Error: No packages found in current linux-64 channels matching: singledispatch 我可以通过binstar安装singledispatch: conda install -c https://conda.binstar.org/asmeurer singledispatch conda list | grep "singledispatch" singledispatch 3.4.0.3 py27_1 但是我得到了同样的错误,在当前的linux-64通道没有find软件包。

如何控制R / tcltk中的X11窗口分组

我正在使用tcltk和tcltk2软件包在R的GUI上工作。 我有很多的窗口,这是我的主顶层窗口的儿童称为base 。 我希望Windowspipe理器把所有的孩子都分组在小组领导者的基础上,以便得到启动器(Ubuntu的),alt-switcher显示我的GUI的一个图标化版本(每个子窗口的标记),而不是几个不同的图标窗口。 这是一个最小的例子。 关键的命令是tkwm.group但我无法获得一致的结果。 有时候它有效,有时不起作用。 我真的没有线索。 如果我不摧毁窗口和两次脚本源,我有点分组,但复制窗口,而不是我想要的。 任何帮助将被真正赞赏。 library(tcltk) base <- tktoplevel() tkwm.title(base,"Éccole!") base$env$tw <- tktoplevel(base) tkwm.group(base$env$tw)

R软件包:RCurl和curl软件包在Linux上安装失败

我希望你可以帮我解决这个问题,同时为R安装RCurl和curl包。 Rd warning: /tmp/RtmpOBkvFC/R.INSTALLd07e6c06faf4/RCurl/man/url.exists.Rd:5: missing file link 'file.exists' ** building package indices ** testing if installed package can be loaded Error in dyn.load(file, DLLpath = DLLpath, …) : unable to load shared object '/home/majaidi/R/x86_64-redhat-linux-gnu-library/3.1/RCurl/libs/RCurl.so': /lib64/libgssapi_krb5.so.2: symbol krb5int_buf_len, version krb5support_0_MIT not defined in file libkrb5support.so.0 with link time reference Error: loading failed Execution halted ERROR: loading […]

.jfindClass(as.character(driverClass))中的错误:class not found – Hive R

我连接到构build在x86_64-redhat-linux-gnu (64-bit)平台上的远程R服务器。 安装在此服务器上的R版本是3.3.1 。 我想使用这个R服务器连接到远程configuration单元数据库,这样我可以提取数据并对其进行分析。 我正在尝试以下的事情, options( java.parameters = "-Xmx8g" ) library(rJava) library(RJDBC) drv <- JDBC("org.apache.hive.jdbc.HiveDriver", "/home/username/R/x86_64-redhat-linux-gnu-library/3.3/hive-jdbc-0.10.0.jar", identifier.quote="`") 我得到错误作为Error in .jfindClass(as.character(driverClass)[1]) : class not found 。 我下载了jar文件并保存在这个path中,/ /home/username/R/x86_64-redhat-linux-gnu-library/3.3/ 。 我只下载了这个jar文件。 在这个/home/username/R/x86_64-redhat-linux-gnu-library/3.3/path里面,我有三个文件夹如DBI,rJava和RJDBC以及文件hive-jdbc-0.10.0.jar。 除此之外还没有下载任何其他的东西。 还有什么我需要下载,以便解决这个错误? 我试过的另一个尝试是, hivedrv <- JDBC("org.apache.hadoop.hive.jdbc.HiveDriver", c(list.files("/home/username/R/x86_64-redhat-linux-gnu-library/3.3/",pattern="jar$",full.names=T), list.files("/home/username/R/x86_64-redhat-linux-gnu-library/3.3/",pattern="jar$",full.names=T))) 运行没有任何错误。 但是当我尝试下面的命令, hivecon <- dbConnect(hivedrv, "jdbc:hive://hostname:portname/", "username", "password") 我收到以下错误, Error in .jcall(drv@jdrv, "Ljava/sql/Connection;", "connect", as.character(url)[1], : […]

“无法分配内存”和“非零退出状态” – 无法在Raspberry Pi上安装R包

我在尝试在Raspberry Pi中安装任何软件包时遇到此问题。 关于系统和软件的一些一般信息: 树莓派3 Raspbian Jessie与像素(2016年11月,最新版本) R 3.1.1 当我尝试install.packages(“XML”)时 ,它会要求我select一个镜像,然后在我select并下载之后,结果是: The dowloaded source packages are in '/tmp/RtmpBOxeKj/downloaded_packages' Warning messages: 1: In system2(cmd0, args, env = env, stdout = outfile, stderr = outfile) : system call failed: Cannot allocate memory 2: In install.packages("XML") : installation of package 'XML' had non-zero exit status 这发生在我尝试安装的任何软件包(有时只是第二个错误,有时两个)。 启动Raspbian后,我有610MB的可用RAM,打开R控制台后,我有582MB的可用RAM,然后下降到282MB,当我尝试安装软件包。 这应该不够吗? 任何想法?

在R中安装tm包

在r 3.2.3版本中安装tm软件包时遇到问题。 我已经尝试过在互联网上实现不同的方式和堆栈溢出的答案。 我不知道我哪里错了。 表明 loadNamespace(j < – i [[1L]],c(lib.loc,.libPaths()),versionCheck = vI [[j]])中的错误:namespace'slam'0.1-32正在加载,但> =需要0.1.37 错误:延迟加载包'tm'失败*删除'/home/alankrita/R/x86_64-pc-linux-gnu-library/3.2/tm'install.packages中的警告:安装包'tm'非零退出状态 下载的源码包在'/ tmp / RtmpPSKOOW / downloaded_pa​​ckages'中 任何帮助将不胜感激。 🙂

内存使用在Linux R

我正在加载一个6 GB数据集,运行在CentOS Linux 6.3,128 GB RAM,16核心机器上。 同时我正在使用top命令监视RAM使用情况。 在约104分钟后,在顶部命令的输出中,VIRT列显示189GB。 现在,我无法理解VIRT列如何显示超过128GB(这是限制)。 是否有某种正在使用的共享内存?

将时间戳记添加到R CMD BATCH outfile名称

我想运行一个脚本,并命名outfile。 默认是这样的: R CMD BATCH $HOME/test.R $HOME/runoutput/test_ 如何为名称添加时间戳? 像这样的东西: R CMD BATCH $HOME/test.R $HOME/runoutput/test_$(date +"%F_%H_%M_%S")

从Windows机器启动Linux PSOCK群集挂起R

我正在尝试使用并行包在Linux机器上设置群集。 疣是我作为主人使用的机器运行Windows而不是CentOS。 在puttygen和plink(putty的ssh版本)之后,我得到了一个命令string,它可以在(a)slave上执行Rscript,而不需要密码: plink -id:/hong/documents/gpadmin.ppk -l gpadmin 192.168.224.128 Rscript 其中gpadmin.ppk是使用puttygen生成的私钥文件,并被复制到从服务器上。 我把它翻译成makeCluster调用,如下所示: cl <- makeCluster("192.168.224.128", user="gpadmin", rshcmd="plink -id:/hong/documents/gpadmin.ppk", master="192.168.224.1", rscript="Rscript") 但是当我尝试运行这个时,R(在Windows上)挂起。 那么,它不会像在崩溃中那样挂起来,但是在我按Escape之前,它什么也不做。 不过,通过在调用结束时添加manual=TRUE ,我可以费力地使群集运行: cl <- makeCluster("192.168.224.128", user="gpadmin", rshcmd="plink -id:/hong/documents/gpadmin.ppk", master="192.168.224.1", rscript="Rscript", manual=TRUE) 然后我使用上面的plink命令login到slave,并在得到的bash提示符下运行R显示的string。 这表明该string是好的,但是makeCluster正在混淆试图运行它自己。 任何人都可以帮助诊断发生了什么,以及如何解决? 我宁愿不必每次都手动login到16+节点来启动集群。 我在主机上运行Windows 7上的R 3.0.2,在从机上运行CentOS上的R 3.0.0。