我需要将MSWord文件转换为XML或HTML,同时保留文件的结构(主要是表格)。 我碰巧find了tika,它在从MSword文件(和任何文件)中提取文本方面function非常强大,如下所示:
curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text
我可以从选项中select将输出保存为html / XML,如下所示:
curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --html
但是输出基本上就像用HTML编写的纯文本,所以不可能得到表格结构和其他文档元素。
在Perl或Python中,是否有任何Tika的实现可以将文档转换为XML / HTML,同时维护其元素的结构? 还是有任何其他工具在Linux上可以做到这一点?
安装OpenOffice SDK,它为各种文档(包括转换)提供了强大的API。