Articles of 语音识别

Linux上单声道的System.Speech

我正在使用Mono和Monodevelop在Linux(KUbuntu)上开发一个项目。 我想使用System.Speech库,这完全可以在Windows 7的Unity中使用Monodevelop。在过去的几个小时里,我一直在做很多的在线查看,并且据我所知,System.Speech被添加到单声道。 我已经更新所有的单声道, mono –version显示4.0.2(最新版本),和Monodevelop版本显示5.9.4(据我所知,也是最新的版本)。 这让我觉得我拥有所有开发软件的所有最新更新。 我已经重新启动,创build了新的项目,从git手动构buildmonodevelop,我所能想到的一切。 这一切正在完成,我右键点击References => Edit References => System.Speech,没有任何显示。 再一次,我通过在我的Windows机器上尝试在Unity上检查,这绝对是在那里。 有谁知道发生了什么事? 我真的不知道还有什么其他的细节给这样的东西,但我显然错过了一些东西。 我非常乐意发布您需要的任何其他信息,我非常感谢您的帮助!

无聊的人声识别

手持设备上的语音识别通常通过按下button来触发。 我怎样才能触发语音识别没有呢? 我的基于Raspberry PI的设备故意没有任何用户可以手动进行交互 – 只有一个麦克风挂在墙上。 我正在尝试实现一种方法,让它理解一个简单的触发命令,可以启动一系列操作。 简而言之,只要“听到”audio触发器,我就想运行一个.sh脚本。 我不想让它理解其他任何东西,而只是一个触发器 – 没有必要从触发器本身解码 – 就像脚本或参数的名称一样。 一个非常简单的函数 – “听到触发器 – >执行.sh脚本” 我已经探索了不同的select: 获取audiostream不断发送到谷歌语音识别服务 – 不是一个好主意 – 太多浪费stream量和资源 获得一个无互联网语音识别应用程序,不断听audiostream和“挑选”触发词 – 这是一个更好的,但很浪费资源,这些系统必须教audio样本 – 这几乎消除了快速设置自定义名称 使用某种音调处理来响应一系列响亮的声音 – 双手拍两下或类似的东西 – 不算太糟糕,但是我想我的手会在我得到正确testing的东西后掉下来,否则我会被我的家庭成员,因为我通常在床上睡觉的时候,我通常在晚上试验我的玩具。 口哨识别 – 与以前的select没有太大的不同,但是你的手掌不会疼痛,如果我学会了安静地吹口哨,我可以在testing中幸存下来。 我能够通过IBMfind一篇关于通过口哨命令命令计算机的文章 – 这种方法与本地语音识别应用程序非常相似,但是您可以教它理解不同的哨音序列。 但是,从这个angular度来说,我不明白我怎样才能教它理解任何口哨,而不pipe它的口气。 我有点像口哨的想法 – 它似乎应该是其他选项中饥饿最less的资源 – 我怎么能做到这一点? 有没有其他的声音触发器可以很容易地实现,因为我受限于Raspberry PI硬件?

在sapi中使用正确的语音识别时如何获得语音识别的蓝色框?

我正在与sapi 5.4和我目前正在使用的IspRecognizer是一个CLSID_SpInprocRecognizer的实例,而不是CLSID_SpSharedRecognizer,并且在我开始使用这个窗口识别的默认蓝框不再出现。 我如何能在proc语音识别和获取我的应用程序的蓝色框?

使用sapi检测电话号码?

我目前正在使用sapi 5.4,我想检测一个电话号码,从0-9确定10位数是什么是最好的方法来指定在语法文件?

在使用共享识别器而不是在sapi中使用Inproc reconizer时,是否可以只加载听写主题?

当我使用共享识别器到以前注册的医疗听写主题时,听写语法加载没有错误,但是当我将识别器更改为Inproc识别器时,它不能加载听写主题。 有没有办法加载听写主题,而仍然使用proc识别器? 我的加载语法的代码看起来像 CComPtr<ISpObjectToken> cpObjectToken; CComPtr<ISpAudio> cpAudio; CComPtr<ISpRecognizer> cpEngine; CComPtr<ISpRecoContext> cpRecoCtx; CComPtr<ISpRecoGrammar> cpGram; hr = cpEngine.CoCreateInstance(CLSID_SpInprocRecognizer); hr = SpGetDefaultTokenFromCategoryId(SPCAT_AUDIOIN, &cpObjectToken); hr = cpEngine->SetInput(cpObjectToken, TRUE); hr = SpCreateDefaultObjectFromCategoryId(SPCAT_AUDIOIN, &cpAudio); hr = cpEngine->SetInput(cpAudio, TRUE); hr = cpEngine->CreateRecoContext(&cpRecoCtx); hr = cpEngine->SetRecognizer(NULL); hr = cpRecoCtx->CreateGrammar(1, &cpGram); hr = cpGram->LoadDictation(L"Medical", SPLO_STATIC);

如何指定给定文本后面的内容是在sapi中的语法文件中的拼写听写?

我正在使用Sapi 5.4,我正在尝试获取用户所说的人名,但是对名称的认识很差,所以我想通过拼写听写来input名字,就像JOHN,现在我的名字是input是这个 <RULE ID="VID_InputType"> <L PROPID="VID_InputType"> <DICTATION MAX="INF"/> </L> </RULE> 我怎么能提到拼写听写我修改这个语法?

如何使用函数GetStorageFileName将训练文件添加到registry?

我正在使用sapi 5.4,我能够保留audio进行培训,但将其添加到registry项中,如本文所述使用SAPI 5.3语音API进行声学培训我无法理解要用于ISpObjectToken :: GetStorageFileName的参数有人帮我出来吗?

speechRecognition:jack服务器没有运行

我正在用speechRecognition python库设置一个声音识别器。 这是我的代码到目前为止: #!/usr/bin/env python3 import speech_recognition as sr r = sr.Recognizer('es-MX') with sr.Microphone() as mic: audio = r.listen(mic) print(r.recognize(audio)) 在跑步我得到 ALSA lib pcm_dsnoop.c:618:(snd_pcm_dsnoop_open) unable to open slave ALSA lib pcm_dmix.c:1022:(snd_pcm_dmix_open) unable to open slave ALSA lib pcm.c:2239:(snd_pcm_open_noupdate) Unknown PCM cards.pcm.rear ALSA lib pcm.c:2239:(snd_pcm_open_noupdate) Unknown PCM cards.pcm.center_l$ ALSA lib pcm.c:2239:(snd_pcm_open_noupdate) Unknown PCM cards.pcm.side bt_audio_service_open: connect() […]

Linux-Python语音识别

我也search谷歌和这个网站。 我可以find蜻蜓是最适合的! 但是我在Linux上找不到任何完美的安装。 而且它似乎没有支持,因为最后一个发布date到2009年! Nuance是另一个公司,这使我的search。 但它本身不支持linux支持,但可以使用HTTP请求完成,这是一个昂贵的事情和有限的,因为它需要互联网。 有人可以build议我使用python(最好是跨平台/ Linux)构build应用程序的语音识别软件, 提前致谢。

语音到Linux的文本转换

我打算开始一个应用程序,将语音转换为Linux中的文本。 有没有现有的接口,以便我可以扩展它们? 还是在Linux中有这样的现有应用程序? 对此有什么意见? 编辑:我正在计划编写的应用程序应该能够将每个单词,我们说的文本,而不仅仅是是/否。