2021年的第一声 来自智能语音

2021-01-17 00:05:36  浏览:626  作者:管理员
  • 2021年的第一声 来自智能语音

  • 【商户信息】

  • 类目:电商运营


  • 联系人:


  • 微信号:

  • Q Q 号:

  • 手机号:

  • 浏览量:

    626


【货源详情】


2021年的第一声 来自智能语音 智能语音能成为AI时代的入口吗?

PodCast 《故事FM》曾于2020年7月进行过与微软冰对话的节目,该节目中微软的内部版本“小冰F201”首次公开。与阉割的公审智能语音相比,《ice F201》的细腻语调和音色,以及与实物不区分明显语调的语调,说话语调的语调足以让听众分辨真伪。

2017年苹果发布智能扬声器后,语音交互被认为是AI时代的第一个入口,成为京东、百度、阿里追赶的香饼干。期待以低廉的补贴利用互联网抢占市场。(威廉莎士比亚、温斯顿、哈利) (然而,随着人工智能的发展,语音互动不再性感。在大多数用户习惯中,需求仍然局限于家庭和车内场景,很难像iphone首次出现时那样产生革命性的影响。

到2020年,在新冠疫情严峻的形势下,产业再次猛增。由于无接触交互的要求,智能语音走向了舞台前面,该技术也随着传染病正常化的成熟,在安静的近距离场景中,语音识别的准确度达到了98%。

就在新年1月3日,沈阳市疾病控制中心启动AI语音电话查询系统,筛选出特定时间内进入医疗机构的37万余人的身体状况和隔离情况,AI语音没有达到对未隔离发热者搜索的期望。共发现24人,1例阳性感染者。

与此同时,远程办公及医疗场面引发了对会议语音转换、专业领域语音辅助的特定需求,形成了庞大的专业智能语音市场。

可以看到智能语音的应用场景正在突破现有的想象力。对于长期无法使用扬声器业务的智能语音企业来说,打开另一扇窗户也将成为2021年的重要趋势。(大卫亚设,Northern Exposure)。

音箱、家居、汽车,智能语音何以落地

在过去的5年里,对智能语音的需求在消费级市场最先爆发,随着互联网及智能设备企业增加对语音识别的经费,价格补贴战相当于以强心针进入市场。(威廉莎士比亚、温斯顿、智能手机、智能手机、智能手机、智能手机、智能手机、智能手机)。

据奥维云网(AVC)数据显示,2020年H1中国智能扬声器市长/市场销量为1908.6万台,同比增长22.7%。阿里、百度、小米三足鼎立,产业集中度明显,三家企业占有率达到95.6%,中小玩家生存空间持续压缩,2019年形成的马太效应持续至今。

2020年初,阿里巴巴将猫精灵业务升级为独立事业部。5月,猫精灵战略发生了战略变化,以创造内容、服务和AIoT生态。孔密北的市长/市场动作表明阿里对天猫精灵前景的重视,天猫精灵拥有频道资金、众多合作伙伴等优势因素。2020年上半年天猫精灵市长/市场占有率达到34.7%,持续保持行业飞行员地位。

与从业界剪下的阿里不同,小米依靠多年部署的生态链,激活庞大的用户基础、庞大的数据和应用场景,初步构建了自己的IoT生态。

20年初,雷军确定了“手机AIoT”的双引擎战略,将硬件产品放在了与手机一样重要的位置。作为AIoT生态系统的入门级产品,智能音箱作为战略的选拔队,通过丰富的渠道、生态链联系等优势,2020年H1小米在线销量同比增长52.3%。

《All in AI》的百度也自然没有放过这股浪潮。早在2019年,凭借高质量的硬件产品、比较先进的AI技术力量,百度在智能音箱行业迅速获得了发言权。2020年上半年,百度连续发布3个屏幕扬声器,继续巩固自己在屏幕扬声器领域的领先地位。

三家企业相互竞争的基本逻辑并无不同。扬声器一度被认为是唤醒智能家居的重要部分,将整个AI生态联系在一起。但是整个行业面临的疼痛还没有解决。扬声器设计陷入了APP式思维的窠臼,多种服务平台建立,相互制约,只能形成地区范围内的智能家居生态系统。

据智能家居产业联盟(CSHIA)分析,智能家居失败的原因是,一家企业也不能提供智能家居全系列产品,二是没有统一的互联标准协议。“这明显束缚了智能语音的使用场景,用户体验相当分散。”

但是,2020年值得注意的变化是,国产电动汽车的崛起,成为了汽车声音中语音相互落地的新风标志。电动汽车企业的新势力之一CEO何小鹏在小鹏P7发表会上表示:“未来车内最好的交互方式是语音交互。”正是因为这个原因,鹏护送智能语音助手,与智能语音公司合作,建立了比较成熟的语音系统。

资本市场也敏锐地意识到了这一趋势。2020年4月7日,Spice完成了E轮4.1亿韩元融资,并进行了国朝新智心永投、北汽山投资等后投。11月初,智能语音行业“元老级”选手云智成,计划在资本寒冬期间提交科学创板上市公开招募说明书,冲击“智能语音1周”。

据研究机构Research and Markets称,截至2020年9月,车辆语音安装率达到64.8%。从价格区间来看,30万~ 50万韩元价格的汽车语音普及率很高,2020年前9个月维持在90%以上。

此外,从2020年的供应商模式来看,HKUST仍然占据市场三分之一以上的份额。2020年底,科大讯飞更新了智能语音系统。

新增多项功能,完善了汽车语音交互的体验。

在配套政策、市场需求的推动下,多方涌入的车载语音市场不断扩大,BAT御三家已经开始了车载语音业务。其中,百度的发展速度较快,市场占有率超过5%,并与全球多个知名汽车品牌建立了合作关系。百度车联网事业部总经理苏坦认为,汽车智能化时代已经真正到来,未来2-3年,发展和变化会很迅速,这也是相关企业加快动作的原因。

消费级市场的繁荣为智能语音落地找到了更加多元化的场景,从业者都在翘首以待,在供应商和开发者共建产业生态圈的过程中,智能语音与其他软件功能融合为消费者提供连通式的体验。那一天将是行业革命的火种。

专业级场景爆发,技术泛用寻求破局

腾讯云技术人员介绍了一个颇令人深思的案例,以一个拥有2000人的小区为例,如果依靠人工的话需要20个调查员,6个小时才能完成,而通过疫情防控联络服务1小时即可以完成排查。

的确,今年突发的疫情成功检验了智能语音的可靠性和稳定性,通过深度学习和神经网络技术,智能语音也适应了更多复杂的使用场景,解决了专业级市场用户的使用痛点。

所谓专业级市场的语音识别产品主要以两种形式呈现:行业解决方案和平台化技术输出。由于后者的平台建设仍处于烧钱扩张的阶段,需要深耕垂直场景的行业解决方案收入占比更高,这其中包括了智慧医疗、智慧教育、司法政务以及智能客服领域。

例如,复工复产期间,为了保证疫后安全,智能语音在政务方面发挥了关键作用,如腾讯推出的“AI政务联络机器人”,可与辖区居民联络,完成政务信息的传递工作,弥补由于人力不足导致的疫情防控难问题。

同时,AI在医疗行业也有所助力,智能语音的应用主要有两种:

①电子病历语音录入与转写、临床报告语音录入与转写。语音录入在提高医生工作效率和工作质量的同时,医院方也可以科学管理诊疗过程和诊疗信息。

②随着语音病历的积累,利用大数据技术和深度学习技术能够挖掘医学案例语音资料的价值,实现智能辅助诊疗。

具体来说,智能语音的底层技术之一NLP(自然语言处理),其发展为研究人员提供了高效的手段处理数据量庞大、数据维度丰富的医疗数据,完善医患之间智能交互和数据监测。单看2020年变化,大数据管理、语音录入赛道的头部企业开始寻求上市。

这条思路同样在司法系统中得到实践,基于自然语言处理技术,AI+智能客服对用户输入做语义分析,精确识别用户的实际需求,然后据此在后台知识库中寻找最合适的答案。

这意味着,程式化的、重复性的诉讼咨询工作可以交给智能客服程序自动应对,遇到复杂的用户提问交转给人工处理,能够快速响应、有效回答用户提问。

细数各个产业的背景不难发现,智能语音的应用思路都有一条大方向的主线,即如何更好地利用AI赋能产业,思考AI能为人带来什么,而不是关注于AI本身。

事实上,这条主线在2017年国务院发布的《新一代人工智能发展规划》就有所定调,文件中“开源开放”被确立为基本原则之一,并提出“构建开放协同的人工智能科技创新体系“的重点任务。

在商业环境瞬息万变,企业间竞合加深的大背景下,智能语音技术开放正在形成一个正反馈,场景需求产生数据,数据促进技术迭代,在行业的应用将逐步多样化。

智能语音还会是AI时代的入口吗?

纵使智能语音在前述的多个场景得到应用,答案仍然很明确,不再是了。

说原因前,需要先回溯AI语音的上游技术领域,这里是互联网巨头逐鹿的战场。

一个完整的对话交互是由“听懂——理解——回答三个步骤完成的闭环,其中,“听懂”需要语音识别技术;”理解“需要自然语言处理技术;“回答"需要语音合成技术。三个步骤环环相扣,相辅相成。语音识别技术是对话交互的开端,是保证对话交互高效准确进行的基础。

再抛一个相对硬核的技术概念,语音识别解码包含了两个部分——声学和语言模型的识别建模和模型训练。

运行过程中,训练数据量和计算量需求极大,传统处理器往往无法快速单独完成一个完整的模型训练,无法满足海量数据计算的实时性。所以,能提供海量数据处理、存储以及高性能计算能力的云计算技术成为智能语音行业的应用热点。

目前,主流智能语音公司的模型训练和语音识别,基本是靠BAT御三家提供的云计算服务,底层技术的发展决定了未来智能语音的增长曲线。

事实上,在个别应用场景领域中,上游技术领域正在向下延伸,吃掉中游(科大讯飞、云知声)商业化应用的市场。基于云计算的智能语音技术应用市场,其销售规模已近乎领先于头部的基于传统硬件厂商所服务的市场规模。

原因在于,大多数中小开发商倾向与”御三家“合作,从而在低成本的情况下,在平台上获取最前沿的云上智能语音技术和行业语音解决方案。过去一年,已有超过5万家语音客户与阿里云智能语音达成合作,覆盖多行业场景,包括中国移动、中央电视台、招商银行在内的传统行业的大型企业。

技术的迅速融合和多元化场景展现出了智能语音本身的弊端,谷歌交互设计师吴升知曾做过对比,语音控制的优势在于更加直觉化和带给用户情感化的体验,大大降低用户学习成本,但线性的语音输出反而束缚了交互方式本身,因此它无法同时输出很多内容,这是语音最大的劣势。

举个直观的例子,人们非常不愿意在公共场合与AI对话,因为不符合传统的社交习俗,即便语音搜索更快,“你愿意在地铁里用语音让Siri给你播放喜欢的歌曲吗”甚至是一句哲学意义上的天问。

从这一点来看,语音交互更多还是应用在家庭、汽车这样相对私密的空间。行业的一个普遍共识是,交互设计时需要充分利用视觉与听觉的互补性,智能语音是必不可少的一部分,但使用场景仍然非常有限,不太可能成为单一的AI入口,从目前的发展来看,多模态交互(多种技术融合)才是主导趋势。

网易有道语音负责人孙艳庆此前接受采访也谈及,目前智能语音处在快速落地阶段,除了常规单一技术的直接落地,更多的是深度结合业务场景的定制形态,甚至是多项技术组合的形式。

所以,智能语音是观察AI商业化发展的一个切入视角,负责开发微软小冰的沈向洋曾在2016年接受采访时表示,语音的彻底主流化已经“不是一个需要讨论的问题,只是一个时间和习惯转移的问题”。

他当时预计,计算机语音识别在噪音和非噪音环境下,最多五年便可超越人类的识别率,视觉识别可能要十年左右。

时隔四年,智能语音的技术确实潜移默化地改变了我们的生活。但随着AI进入更加多元化的生产和消费场景,智能语音已化为一道潜流,将融入即将到来的AI时代,融入到下一个仍在迷雾中的革命性交互体验。

注:文/周有辉,文章来源:鹿鸣财经(公众号ID:luminglab),本文为作者独立观点,不代表88货源网立场。

评论区

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

【随机新闻】

返回顶部