我的任务是find一种方法将大量的.docx文件转换为docbook 5.目前,我们在openoffice中打开文件并保存到docbook。 这是一个耗时的任务,但我相信还有更好的办法。 这些文件将被进一步处理到我们自定义的放松NG模式。 因此,这种转换不需要是完美的。 我环顾四周,并会继续调查一些线索,但没有发现任何有用的东西。
看着把doc / docx转换成语义HTML他们已经提出upCast ,但这似乎不适合我的需要。
我正在寻找一些可以从命令行使用的免费function。 我最终想批量处理我们的文件。 我已经包含了linux,python和java标签,因为这些是我最舒服的环境,但愿意为正确的解决scheme而努力。 我在出门之前试图做一些研究,重新发明轮子。
有几种方法可以编写脚本,在OpenOffice中都使用外部脚本和脚本。 有关示例,请参阅以下链接:
上面的一些链接没有使用Java或者Python,但是这些原则仍然适用,并且脚本通常足够短以至于可以移植(第一个例子是Ruby,但是由于简单起见,这是我个人的最爱)。
您可以在服务器模式下运行openoffice并将文档提供给它,而不必手动打开每个文档。
一种方法: http : //code.google.com/p/bungeni-editor/wiki/RunningTheJODConverterserver
在从SX获得考古学家徽章的风险中,答案应包括对Pandoc的引用。 这不依赖于公开的办公室。
pandoc -f docx -t docbook -o newdocbook.dbk --standalone original.docx