不开口就会张嘴,脑波直接转语音,完毕每分钟

作者:澳门微尼斯人娱乐

研究人员采用bLSTM(bidi-rectional long short-term memory)循环神经网络来破译ECoG信号表达的运动学表征。

澳门微尼斯人娱乐 1

澳门微尼斯人娱乐,该研究作者、加州大学旧金山分校神经外科医生 Edward Chang 表示,使用该方法后,听了 101 个合成句子的听众平均能够理解其中 70% 的单词。

传送门论文链接:

澳门微尼斯人娱乐 2

论文:Speech synthesis from neural decoding of spoken sentences

澳门微尼斯人娱乐 3

声学特征是能从语音波形中提取的频谱特征,因此用解码后的信号就可以合成出语音波形。在这个过程中,两个神经网络都会被投喂训练数据,以提高它们的解码性能。

音频中包含两个句子示例,每个句子第一遍由参与者朗读,第二遍是利用该技术通过参与者的大脑信号合成出的语音。从音频中可以听出,这项技术已经可以合成完整的句子。但目前来看,该技术还不够准确,无法完全脱离实验室环境。

对比志愿者说话的频谱图和大脑信号合成的频谱图,可以看到它们已经非常接近了。

技术当然值得期待,但现实中的这一系统要成为一个临床可行的语音合成脑机接口,还存在许多挑战。

许多失去说话能力的人需要利用某种技术进行交流,这项技术要求他们做出微小的动作来控制屏幕上的光标,进而选择单词或字母。最着名的例子就是霍金,他使用的是一种利用脸颊肌肉激活的发声装置。但是由于使用者必须逐个字母打出自己要说的话,这种装置通常速度很慢,每分钟最多生成十个单词,而正常说话者每分钟平均要说 150 个词,而这主要归功于人类的声道。

嗯…不过事实上这项技术只会在你想开口时捕捉相应的脑电波。

中国有一位年轻的神经渐冻症病人王甲,他也用“眨眼睛”的方式写了本书《人生没有假如》。

该团队基于这些数据训练了一种

“这是一项艰巨的工作,它将我们推上了语言恢复方面的一个新台阶。”神经学家Dr. Anthony Ritaccio这样评价。

说话这件事其实并没有想象中那么简单,看似只是动动嘴,事实上却是对声道咬合结构精准、快速的多维度控制。

澳门微尼斯人娱乐 4

研究人员选择了深度学习方法。

科幻与现实,从来都是相互促进、相互提供素材和灵感、相互印证。

澳门微尼斯人娱乐 5

网友反应论文一出,惊叹声一片。

该项试验的五位志愿者都是通过神经外科医生在颅内植入电极,来获得大脑活动的数据。而植入脑机接口又存在一个难以攻克的问题:植入电极因为神经胶质细胞的包裹而逐渐失效,无法继续记录神经细胞的放电活动。如果这个问题不能很好解决,长期植入就无法实现,每2-3年做一次手术更换电极的代价太大。除此以外,神经信号的无线传输也是个难题。

解码器设计

澳门微尼斯人娱乐 6

澳门微尼斯人娱乐 7

算法,然后将该程序集成到解码器中。该设备将大脑信号转换为对声道发音运动的估计,然后将这些运动转换为合成语音。Chang 表示,听了 101 个合成句子的听众平均能够理解其中 70% 的单词。

△受渐冻症折磨的霍金后期依靠活动脸颊上的一块肌肉来打字如何做到研究团队来自加州大学旧金山分校,神经外科教授Dr. Edward Chang等人试图将大脑中的神经活动转换成语音,以造福因为神经损伤而失去交流能力的人。

这套将脑活动转化为语音的解码器,通过解码与人类下颌、喉头、嘴唇和舌头动作相关的脑信号,并合成受试者想要表达的语音。

机器之心编辑部

声学特征是能从语音波形中提取的频谱特征,因此用解码后的信号就可以合成出语音波形。

脑机接口实现语音合成的图示

澳门微尼斯人娱乐 8

Nature上最新发表了一篇论文,科学家们设计了一种新的可以将大脑信号转换成语言的装置,不需要劳动任何一块肌肉,深度学习就能直接读懂大脑,解码脑中所想,实现流畅交流。

本文由天下网商原创,未经授权,不得转载。

语音合成性能

必须说明的是,这项技术使用的ECoG电极阵列需要通过开颅手术来放置到大脑之中,对于饱受疾病、意外之害而失去语言能力的患者来说是福音天降,但更大范围的应用还有很长的路要走。

脑波转语音已经不是什么新鲜事了,大脑控制打字的脑机接口技术,依赖于测量头部或眼睛的残余非语言运动,或者依赖于控制光标以逐个选择字母并拼出单词,虽然能够交流,但速度太慢了。

图 1:从神经信号中合成语音。

接着用另外一个bLSTM解码先前破译的运动学特征中的声学特征。

其实像鲍比这样思维被封闭在瘫痪身体中的病人不在少数,著名物理学家霍金就是类似的症状,他患有肌萎缩性脊髓侧锁硬化症,也就是2014年夏天流行的“冰桶挑战”提醒公众关注的“神经渐冻症”。

解码器的一个关键组成是中间发声表示。这一步非常重要,因为 vSMC 在语音合成期间表现出稳健的神经激活,语音合成期间主要编码发音运动。由于连续语音的发音追踪在该研究的临床环境中并不可行,因此研究者利用一种统计方法根据声音记录来估计声道运动轨迹(嘴唇、舌头和下巴的运动)以及其他生理特征。这些特征初始化了语音编码器-解码器中的瓶颈层,训练该编码器-解码器的目的是重建参与者的言语声学。然后用编码器来推断用于训练神经解码器的中间发声表示。利用这种解码策略,可以准确地重建语音频谱。

本文由威尼斯人科技发布,转载请注明来源

关键词: 微尼斯人娱乐 澳门威尼娱乐