需要用于Linux的文本到语音识别工具

我正在计划编写一个使用文本到语音语音识别的Linux程序。 什么是最好的工具/库? 我应该使用Windows而不是使用更好的工具吗? 这些工具需要从控制台或C程序轻松调用。

Solutions Collecting From Web of "需要用于Linux的文本到语音识别工具"

对于语音识别,有各种狮身人面像 。 不同的变种有不同的优点和缺点,这里有一个比较狮身人面像版本的比较 。 狮身人面像4是Java,但其他人是C,我相信。

这很大程度上取决于你想表达什么语言。

这是2005年的一篇文章,它解释了创建听写程序的一些困难: http : //www.cs.cmu.edu/~archan/personal/whyNoOpenSourceDictationDraft4.html 。 如果你需要的话, 朱利叶斯语音识别引擎似乎很有前途,但你需要添加自己的声学和语言模型。 您可能可以使用voxforge声学模型。

如果你不想写一个听写程序,那么你有一个更容易的任务。 命令程序有限制的词汇表,例如“如果你想继续使用英语,说”英语“。

我使用pocketsphinx和gstreamer制作了一个程序 ,可以自动编辑TWiT播客中出现的“ twitter ”这个词。 直到我用我自己的语言模型为基础的播客的成绩单,根本不工作; 来自语音识别器的机器转录是无用的/有趣的,但他们找到关键字的工作。

对于语音识别来说,对于Linux来说存在很少。 我只知道一个显而易见的选择,几年前IBM发布的东西,但后来不再可用(任何人都知道,如果这个ViaVoice SDK仍然有可能从任何地方得到的)。 在维基百科有更多关于可能选项的信息。

我在Linux下使用了Loquendo和Festival 。 我会考虑节日的声音,我用很差,非常机器人合成。 另一方面,Loquendo的声音非常好 – 非常高的质量。

对于Debian / Ubuntu的文本到语音还有SVOX Pico:

sudo apt-get install libttspico-utils 

我知道espeak是一个非常好的用于linux的文本到语音程序(甚至可以做不同的口音!),但是我不知道任何为UNIX设计的语音识别系统。

at&t fsm toolkit也非常棒 – 虽然没有商业用途,

http://www.research.att.com/~fsmtools/fsm/

这有点旧了,但是几天前我在Hackaday上看到了一个相当全面的语音识别指南: http ://hackaday.com/2010/07/09/get-started-with-speech-recognition/

http://simon-listens.org/ – 西蒙开源语音/语音识别程序

然后有文本到语音的mbrola。

您是否检查了基于HMM的文本到语音的语音合成? 你可以在http://hts.sp.nitech.ac.jp/上找到免费的演示。 安装将是乏味的。

原来的问题是关于如何找到合适的库,但是从使用足够的语音识别来实现真正的听写,Linux似乎没有任何东西(尽管我相信它会及时改变,我怀疑它会需要一段时间,因为我不确定很多人有兴趣)。

目前我正在努力推广Dragon NaturallySpeaking作为CodeWeavers的支持产品…所以如果你对用户有兴趣,如果你能投票,这将有所帮助。

http://www.codeweavers.com/compatibility/browse/name/?app_id=8427