使用PHP linux将doc,docx,pdf转换为HTML

我运行求职网站,我需要将doc,docx和pdf文件转换成运行php的Linux CentOS服务器上的HTML。 人们将这些文件作为简历提交。 到目前为止,我发现PHPDocx在将docx转换为html方面非常出色。 但是我被困在doc / pdf中。 当我运行testing时,PDFTOHTML给出错误“不好的颜色”。 至于文件,我只发现了wvwave,这似乎复杂和庞大的安装。

没有人有任何想法如何轻松转换文档/ PDF格式为HTML?

至于.doc文件去尝试OpenOffice / LibreOffice,如下所示:
lowriter -convert-to html doc_file.doc –
就PDF来说,如果PDF是文本的图形表示,那么你运气不好,最好你可以做的就是把它转换成ImageMagick的图像,如果它是一个适当的文本,它应该很容易转换。

我唯一能想到的就是FPDF。 它旨在用PHP创建PDF文件,但也可以打开PDF文件。 也许你可以使用它作为基础,并为它开发某种toHTML函数。

它是完全免费使用,它已经有一些扩展。 它可能会帮助你。

http://www.fpdf.org

编辑:感谢除了我的帖子在皮埃尔的意见:

您可以使用fpdi: http : //www.setasign.de/products/pdf-php-solutions/fpdi,但输入pdf就像一个图像。

我到目前为止还没有看过,但这可能有帮助。

已经有很多工具可以做到这一点,比如http://dag.wieers.com/home-made/unoconv/,http://www.phpdocx.com/ (你已经试过了)

http://www.phplivedocx.org/2009/08/13/convert-docx-doc-rtf-to-html-in-php/看起来很有希望。

或者,你可以在你的服务器上安装一个可移植版本的libreoffice,它允许命令行转换https://help.libreoffice.org/Common/Starting_the_Software_With_Parameters

我确定会有教程(在libreoffice支持区域)

要轻松地将PDF转换为HTML,我会建议pdf2htmlEX ,它产生优秀的HTML,并足够快的运行时转换。 您应该首先努力为您的系统进行优化和构建。 项目链接中包含简单的构建方法。