我正在创build一个作者可以创buildEPUB文件的网站。 用户将以.doc
格式上传他们的书籍。 我需要创buildEPUB文件。 一个doc文件将有多个章节。 所以我需要parsingdoc
文件并将其分成几个章节。 作者将使用Heading 1
作为章节标题。
所以在PHP
,有没有办法将doc
文件parsing为HTML
并使用Heading 1
将其分成多个章节,以便我可以创buildEPUB文件。
经过一番研究,我得到了一个Linux应用程序 。 但我认为,它会将文档转换为纯文本。 所以我将无法分割这些章节。
如果你有,请给我一个解决scheme。 提前致谢。
您可以使用PHPDOCX API来实现这一点 。
首先尝试使用此函数引用从您的Word文档生成XHTML
像这样的东西
require_once '../../classes/TransformDoc.inc'; $document = new TransformDoc(); $document->setStrFile('../files/Text.docx'); $document->generateXHTML(); $document->validatorXHTML(); echo $document->getStrXHTML();
获取XHTML内容后,可以进行各种处理,如删除章节等。
完整的文档可以在这里找到。