Articles of 语音识别

Java语音识别

有没有人有任何开源的经验,或相对便宜的语音识别API的Java? 我非常想找一些能把说出来的单词变成文字的东西。 从Sun的Java语音识别页面看来,这似乎是一个相当死亡的东西。 我的要求是至less在Linux上运行的东西。 谁能推荐一些东西? 纯Java将是一个奖金,否则基于Linux的解决scheme可以考虑。 因为这是一个家庭项目…越便宜越好。 编辑 CMU狮身人面像As Amit指出CMU狮身人面像http://cmusphinx.sourceforge.net/html/cmusphinx.php我的问题是一个巨大的字错误率。 培训本身就像一个项目,我希望能在这个周末有所收获。 IBM ViaVoice “ Via Voice”开放源代码在2004年有消息公布。 新闻发布似乎不成熟,而且从未发生。 威盛语音是在某个时候发布的Linux ,但似乎他们停了下来。 似乎在IBM网站上留下的所有内容都是ViaVoiceembedded式的 。 IBM Websphere Voice 我想这就是为什么ViaVoice(桌面)似乎停止。 IBM创build了这个商业解决scheme,这个解决scheme将花费更多的成本。 而使用它将会把你剩下的,至less在我的websphere和他们的IDE的经验之后。 Nuance的 看来他们仍然可能为linux创build产品。 但是我认为他们迷了路,并且跟随IBM进入了服务器市场。 我不太确定这个,他们的网站在寻找有用的信息方面并不友善。 开放的心灵/言论自由 这些人不断改变他们的项目名称。 可能有些钱饥饿的公司一直在威胁他们,但我不知道。 该项目看起来有点死。 我可能会尝试在这周末训练狮身人面像,看看它是否想成为朋友。 否则,更糟糕的情况是,我会考虑使用微软的语音解决scheme。 它在过去一直很好,但它不是一个好的Linux解决scheme。 我可以通过酒来使用它,但是我会有两个独立的服务器…凌乱的凌乱。 哦,什么似乎是一个很好的地方访问语音/语音SpeechTechMag 。 他们有一个“Anual Reference”,其中包含一些与语音/语音有关的公司名单。

需要用于Linux的文本到语音识别工具

我正在计划编写一个使用文本到语音和语音识别的Linux程序。 什么是最好的工具/库? 我应该使用Windows而不是使用更好的工具吗? 这些工具需要从控制台或C程序轻松调用。

SAPI:Speech to Text示例

我是SAPI的新手,如果你们中的任何一位能够给我发一个发言稿给SAPI中的Hello World例子,我将不胜感激。 我知道MS有一些例子,如“听写”等,但我想从一个很小的开始。 很高兴,如果你能帮助。

发现发音的正确性

我需要借助Microsoft Speech SDK( System.Speech.Recognition )来识别用户语音的“质量”。 我正在使用MS语音引擎 – 美国,所以我真正需要的是找出演讲者的声音与“北美”口音有多接近。 一种做法是通过检查用户的声音与美国英语语音发音的接近程度。 正如在MSDN中提到的,它似乎是这个过程在自己的语音SDK里面完成的,所以我需要把它弄清楚。 既然我们可以通过我们自己的语言来引擎,我相信这是可能的。 但是,我不清楚我必须做什么。 那么,我能做些什么来找出用户的发音质量呢?它与美国北美英语语音发音有多接近呢? 用户只需要说出“Hello World,我在这里”等预先定义的句子。 请帮忙。 UPDATE 我通过使用下面的代码得到了某种“音素”(如MSDN中提到的) using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Speech.Recognition; using System.Speech.Synthesis; using System.Windows.Forms; using System.IO; namespace US_Speech_Recognizer { public class RecognizeSpeech { private SpeechRecognitionEngine sEngine; //Speech recognition engine private SpeechSynthesizer sSpeak; //Speech synthesizer string text3 = […]

微软山姆,SAPI的替代品

我们有一个应用程序,我们正在计划使用Microsoft语音API。 现在我们使用微软Sam语音在Windows XP上进行了testing,坦率地说它听起来很糟糕…几乎不可能听到这个声音想说什么。 还有其他更好的声音吗? 有没有更新或更新的版本,在那里更好。 还有其他产品,开源项目等可以作为替代? 只是为了澄清 – 它需要有某种API,所以我实际上可以反对它。