python将微软Office文档转换为Linux上的纯文本

任何recomendations转换.doc,.ppt和.xls的方法在Linux上使用Python的纯文本? 真的任何转换方法都是有用的。 我已经看过使用Open Office,但是我想要一个不需要安装Open Office的解决scheme。

Solutions Collecting From Web of "python将微软Office文档转换为Linux上的纯文本"

我会去命令行解决方案(然后使用Python子进程模块从Python运行的工具)。

msword( catdoc ),excel( xls2csv )和ppt( catppt )的转换器可以在这里找到(源代码): http : //vitus.wagner.pp.ru/software/catdoc/ 。

不能真正评论catppt的有用性,但catdoc和xls2csv工作的很好!

但一定要先搜索你的发行版本库…在Ubuntu上,例如,catdoc只是一个快速的apt-get-away。

您可以通过Python API访问OpenOffice 。

尝试使用这个基地: http : //wiki.services.openoffice.org/wiki/Odt2txt.py

将Microsoft Office文档转换为HTML或其他格式的常用工具是mswordview,后者已被重命名为vwWare 。

如果你正在寻找一个命令行工具,他们实际上推荐使用AbiWord来执行转换:

AbiWord --to=txt 

如果您正在查找库,请从wvWare概述页面开始 。 他们还维护一个读取MS Office文档的库和工具列表 。

对于处理Excel Spreadsheets xlwt是好的。 但是它不会帮助.doc.ppt文件。

(你可能也听说过PyExcelerator,xlwt是这个的一个分支,维护得更好,所以我认为你用xlwt会更好。)

在命令行中, antiword或wv非常适合.doc文件。 (不是一个Python解决方案,但它们易于安装和快速。)

这里同样的问题。 下面是我简单的脚本,将dir'docs /'中的所有doc文件转换为使用catdoc的dir'txts /'。 希望它能帮助别人:

 #!/usr/bin/env python # -*- coding: utf-8 -*- import glob, re, os f = glob.glob('docs/*.doc') + glob.glob('docs/*.DOC') outDir = 'txts' if not os.path.exists(outDir): os.makedirs(outDir) for i in f: os.system("catdoc -w '%s' > '%s'" % (i, outDir + '/' + re.sub(r'.*/([^.]+)\.doc', r'\1.txt', i, flags=re.IGNORECASE))) 

在使用XSLT将基于XML的办公文件处理成可用的过程中取得了一些成功。 这不一定是基于python的解决方案,但它确实完成了工作。