Intereting Posts

echo从文本文件读取时不会评估variables 如何在gerrit中合并补丁和合并补丁之间创build依赖关系？ debuggingembedded式系统时如何发送“break”？ linux：如何找出哪个进程正在使用一个文件？ Visual C＃（Visual Studio）和Mono C＃GUI之间的区别运行make时出错：缺less分隔符（你的意思是TAB而不是8个空格？）在Windows上列出非符号链接 Windows文件共享时间戳 nginx请求后closures上游连接如何在Linux中“互连”两个套接字？ HTML文本input – 防止Windows 8触摸键盘？在Windows上创buildBOM（物料清单）文件在PDCurses中设置整个窗口的背景颜色如何检测两个文件是否在相同的“音量”？在Oracle SQL Developer上的Windows域login

在Linux上将MSword转换为XML / HTML

我需要将MSWord文件转换为XML或HTML，同时保留文件的结构（主要是表格）。我碰巧find了tika，它在从MSword文件（和任何文件）中提取文本方面function非常强大，如下所示：

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text

我可以从选项中select将输出保存为html / XML，如下所示：

 curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --html

但是输出基本上就像用HTML编写的纯文本，所以不可能得到表格结构和其他文档元素。

在Perl或Python中，是否有任何Tika的实现可以将文档转换为XML / HTML，同时维护其元素的结构？还是有任何其他工具在Linux上可以做到这一点？

安装OpenOffice SDK，它为各种文档（包括转换）提供了强大的API。

http://www.oooforum.org/forum/viewtopic.phtml?t=7242