在Linux上将MSword转换为XML / HTML

我需要将MSWord文件转换为XML或HTML,同时保留文件的结构(主要是表格)。 我碰巧find了tika,它在从MSword文件(和任何文件)中提取文本方面function非常强大,如下所示:

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text 

我可以从选项中select将输出保存为html / XML,如下所示:

 curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --html 

但是输出基本上就像用HTML编写的纯文本,所以不可能得到表格结构和其他文档元素。

在Perl或Python中,是否有任何Tika的实现可以将文档转换为XML / HTML,同时维护其元素的结构? 还是有任何其他工具在Linux上可以做到这一点?

安装OpenOffice SDK,它为各种文档(包括转换)提供了强大的API。

http://www.oooforum.org/forum/viewtopic.phtml?t=7242