• 相关博文
  • 最新资讯
加载中...
  • “Hey Siri” 背后的黑科技大揭秘!

    “Hey Siri!”作为预装语音助手Siri的附加功能,于2014年9月在iOS 8中发布。然而,在iOS 9(2015年9月)它升级了,只允许被用来识别用户的个性化语音。

    2020.04.08 0
  • AAAI 2020论文解读:商汤科技发布新视频语义分割和光流联合学习算法

    在这篇文章中,作者提出了一个新颖的光流和语义分割联合学习方案。语义分割为光流和遮挡估计提供了更丰富的语义信息,而非遮挡的光流保证了语义分割的像素级别的时序一致性。作者提出的语义分割方案不仅可以利用视频中的所有图像帧,而且在测试阶段不增加额外的计算量。

    2020.02.07 0
  • 微信9年:张小龙指明方向,微信AI全面开放NLP能力

    围绕语音语言,微信AI首席科学家牛成公布了最新开放方案,并重磅宣布全面开放各层次 NLP 能力。具体说来,微信 AI 迈出了“三大步”:以硬件合作为核心的智言小微硬件开放平台 2.0 正式亮相;公开以对话开放能力为核心的微信对话开放平台;全面开放以自然语言处理能力为核心的 NLP 基础技术平台。

    2020.01.10 0
  • 爱奇艺HomeAI智能语音交互系统的技术实践

    本期爱奇艺技术沙龙《语音和语言技术在自然交互中的实践》主题中,邀请了来自爱奇艺、小米等的嘉宾为大家分享了关于语音技术方面的创新以及该技术在应用方面的实践,本期沙龙的干货分享我们会陆续发布,首先跟大家分享的是爱奇艺HomeAI智能语音交互系统及在语音交互系统的相关实践,以下为演讲实录。

    2020.01.09 0
  • 拥有AI「变声术」,秒杀了多年苦练的模仿艺能

    概括来讲, VC可以将一个人的声音转换为另一个音色,但表述的内容没有改变。脑补了一下,这个技术可以给用户带来非常多有乐趣的体验。近日,在爱奇艺《语音和语言技术在自然交互中的实践》沙龙上,爱奇艺资深研发工程师 Daniel Chen 就为我们分享了关于 Voice Conversion 技术,以及 VC 在变声方面的探索与实践。

    2020.01.08 0
  • 2019,不可错过的NLP“高光时刻”

    对自然语音处理(NLP)领域而言,2019年是令人印象深刻的一年,本文将回顾2019年NLP和机器学习领域的重要事件。内容 主要集中于 NLP 领域,但也会包括一些与 AI 有关的有趣故事,包括新发布模型、工程成果、年度报告以及学习资源等。

  • 时至今日,NLP怎么还这么难!

    要搞清楚自然语言理解难在哪儿,先看自然语言理解任务的本质是什么。作为人工智能关注的三大信息类型(语音、视觉、语言)之一,自然语言文本是典型的无结构数据,由语言符号(如汉字)序列构成。要实现对自然语言的表意的理解,需要建立对该无结构文本背后的语义结构的预测。

  • GitHub标星近10万:只需5秒音源,这个网络就能实时“克隆”你的声音

    本文中,Google 团队提出了一种文本语音合成(text to speech)神经系统,能通过少量样本学习到多个不同说话者(speaker)的语音特征,并合成他们的讲话音频。此外,对于训练时网络没有接触过的说话者,也能在不重新训练的情况下,仅通过未知说话者数秒的音频来合成其讲话音频,即网络具有零样本学习能力。

  • 确认!语音识别大牛Daniel Povey将入职小米,曾遭霍普金斯大学解雇,怒拒Facebook

    10 月 17 日,语音界传奇 Daniel  Povey 发布推特,宣布自己 2019 年末将要入职小米,目前正在签订合同阶段,入职后,他将带领一支团队研发下一代 PyTorch-y Kaldi。小米公司内部知情人士向 AI科技大本营确认了 Daniel  Povey 将入职的消息,表示还在走最后流程,具体职位信息不便透露,但很快就会对外公布官方消息。

    2019.10.18 0
  • 实战:手把手教你实现用语音智能控制电脑 | 附完整代码

    本篇文章将基于百度API实现对电脑的语音智能控制,不需要任何硬件上的支持,仅仅依靠一台电脑即可以实现。作者经过测试,效果不错,同时可以依据作者所给出的代码进行修改加入自己需要的功能,而所有代码的实现都是依靠python编程实现。试想,通过语音实现对电脑的控制,而电脑又可以对其他硬件进行控制,那么即可以实现语音对其他硬件的控制,即达到智能家具的效果。

    2019.10.17 0
  • 从不温不火到炙手可热:语音识别技术简史

    本篇文章将从技术和产业两个角度来回顾一下语音识别发展的历程和现状,并分析一些未来趋势,希望能帮助更多年轻技术人员了解语音行业,并能产生兴趣投身于这个行业。

    2019.08.22 0
  • 阿里90后科学家研发,达摩院开源新一代AI算法模型

    ESIM模型最初由达摩院语音实验室内的90后科学家陈谦(花名潭清)研发,他博士毕业于中科大,是达摩院中最年轻的科学家之一,也是2018届的阿里星(阿里星是专门针对高校顶尖人才的一个培养计划,从应届毕业生中经过层层筛选,由技术带头人担任主管,进行重点培养,每年的阿里星平均只有20人不到)。

    2019.07.08 0
  • 速度提升270倍!微软和浙大联合推出全新语音合成系统FastSpeech

    目前,基于神经网络的端到端文本到语音合成技术发展迅速,但仍面临不少问题——合成速度慢、稳定性差、可控性缺乏等。为此,微软亚洲研究院机器学习组和微软(亚洲)互联网工程院语音团队联合浙江大学提出了一种基于Transformer的新型前馈网络FastSpeech,兼具快速、鲁棒、可控等特点。与自回归的Transformer TTS相比,FastSpeech将梅尔谱的生成速度提高了近270倍,将端到端语音合成速度提高了38倍,单GPU上的语音合成速度达到了实时语音速度的30倍。

    2019.06.05 0
  • 微软提出极低资源下语音合成与识别新方法,小语种不怕没数据!

    目前,人类使用的语言种类有近7000种,然而由于缺乏足够的语音-文本监督数据,绝大多数语言并没有对应的语音合成与识别功能。为此,微软亚洲研究院机器学习组联合微软(亚洲)互联网工程院语音团队在ICML 2019上提出了极低资源下的语音合成与识别新方法,帮助所有人都可以享受到最新语音技术带来的便捷。

  • BAT携手清华、复旦、上交齐聚杭州, 和500名开发者干点啥?

    2016 年起,人工智能成为中国开发者重点关注的技术领域,以深度学习驱动的计算机视觉、自然语言处理、语音相关技术成为渗透最广的三个 AI 技术领域。然而,在这样的背景下,AI 仍是一个非常前沿的学科,对于中国开发者而言有很多需要克服的障碍,首当其冲的就是算法成熟度问题。此外,不同领域不同产业的 AI 应用场景复杂度与日俱增,给很多开发者树立了天然门槛。

  • 打开阿兹海默之门:华裔张复伦利用RNN成功解码脑电波,合成语音

    将大脑神经活动转换成语音的技术,对于因神经损伤而无法正常沟通的人类来说将具有变革意义。从技术上来讲,从神经活动中解码语音是非常具有挑战性的,因为说话需要对声道的咬合结构进行非常精确和快速的多维控制。通过设计一种神经解码器,明确地利用人类皮层活动中编码的运动和声音表征来合成可听语音。

  • 仅用语音,AI就能“脑补”你的脸! | 技术头条

    之前我们为大家介绍过一项非常酸爽的研究“Talking Face Generation”:给定音频或视频后(输入),可以让任意一个人的面部特征与输入的音视频信息保持一致,也就是说出输入的这段话。当时营长就想到了“杨超越的声音+高晓松的脸”这样的神仙搭配。不过,近期一项新研究再度抓到了营长的眼睛!在最新的研究中,研究者仅需要音频信息就生成了人脸... ...如此鬼畜的操作,此乃头一次见啊!接下来营长就为大家介绍一下这项工作!

    2019.04.10 0
  • 前途未卜的智能音箱,语音助手还差一个杀手级应用

    随着语音助手的使用范围越来越广,用户对隐私问题的疑虑也是与日俱增,然而消费者对智能音箱似乎仍十分买账。智能音箱预计将会成为即将到来的美国感恩节和圣诞节购物季中的送礼佳品。更何况已经有超过 1/4 的美国人已经拥有智能音箱,并且每月会至少使用一次语音助手功能。

  • 搜狗AI事业部张博:不只翻译机,半年内将推数款智能硬件产品

    语音技术最大的一个落地产品当属搜狗输入法,它集成了搜狗的语音输入功能、语音翻译功能。而在搜索上,主打搜索直达功能背后的智能匹配技术可以让在用户提出问题后在首条就可直接给出最为匹配的答案,而不再单纯给出多种结果。

    2019.03.07 0