中维“说！下一个人机交互的大风口？”“你都&_下固件网-XiaGuJian.com,计算机科技

中维“说！下一个人机交互的大风口？”“你都&

时间:2022-12-22 02:04 来源:未知作者:admin 点击:次

眼下，怕是互联网最纠结的时刻：智能手机带来的人口红利将尽，仿佛所有人们日常生活中该有的应用都已经被开发出来、用户们也同时失去了尝试新鲜产品的动力；与此同时，向线下的突进因为过重烧钱、没有护城河的模式和讳莫如深看不懂的体制深水纷纷受阻，互联网+了半天还是凑不上去；本来年初VR给诸位打了不少鸡血、仿佛商用指日可待，但现在看来目前的终端too young、恐怕至多也才刚刚达到“塞班的阶段”；而最近一直在提的内容、直播、网红等伴随着政策的收紧、大平台制霸和数据造假的曝光，看起来越来越不像是真正的风口……除去以上的种种，一场资本寒冬让投资机构们彻底懵逼了，失去了往日的格局和耐心，归根结底：快没钱了。那么问题来了，下一个机会在哪里呢？恰在此时，互联网女皇来了，最新的年度趋势报告十分之一的篇幅给了“语音”。女皇陛下是这么说的：语音正在被重塑，成为人机交互的新范式，在过去75年里，每10年就有一次人机交互的重大革新，人类对机器的操作，从物理手柄按键，到物理键盘鼠标，再到触摸屏，而现在语音成为了重要的交互方式。她的案例是Amazon的硬件：Echo。其内置了Amazon Alexa语音助手，目标是占领家居、汽车、手机的麦克风，还能智能购物。这款产品销量已突破400万台。女皇更是大胆指出：语音拐点已经到来，在2015年智能手机销量下滑之后，Echo销量或将腾飞。（以上引自《超过十分之一的篇幅给语音，互联网女皇为何看好麦克风？》）遥相呼应，最新一届苹果全球开发者大会WWDC上，库克也放言将逐步向第三方开发者开放Siri，如果这一切不是“讲故事”的话，不出意料我们将看到iPhone上出现更多的声控APP。与此同时，谷歌公司也提出了雄心勃勃的Google Home计划，利用语音和自然语言查询技术的结合侵入用户的客厅。那么问题又来了，对于中国市场而言，语音会是新的机会吗？声控交互会成为VR到来前大热的交互模式吗？中国的讯飞和喜马拉雅们会一路插上翅膀开始腾飞吗？在此，菜狗必须先泼一泼冷水，我最痛恨的莫过于照搬西方、哄抬赛道的路数打法，就像过去在文章中写过的那样，中国版的instagram、中国版的Snapchat、中国版的……这些故事后来呢？所以如果今天是在这里放言要有一个中国版的Echo，那就是我自抽耳光、忽悠大家。但是，尽管我们不能照搬照抄西方流行的产品模式，却完全可以分析他背后的东西——需求、心理和社会趋势：Snapchat的崛起印证了IM的高频（脸书你反应慢了给了机会，但腾讯不会）、社交压力带来的发布反悔（腾讯有微信消息可撤回）、年轻人寻求没有父母的个性空间（腾讯有QQ空间）。所以，不论有没有人会去copy to china，这背后有一个话题非常值得探讨：声控交互的商业价值有多大？以语音信息和交互为主打的平台，将有怎样的市场潜力？一、当下的语音行业怎么了？有人要说，这回你外行了，语音的故事早就被我们玩烂了，结果也就那样。确实，印象中从许朝军做啪啪的那一天开始，移动互联网似乎就已经进入了“语音时代”，然并卵。1、工具领域，科大讯飞强大的语音唤醒、识别、输入和交互技术从实验室走上前台，领先是领先，但似乎并没有得到太多的应用，让人印象最深刻的恐怕就是讯飞输入法和最近非常文艺好用的语记平台，问题不在于讯飞有没有成为中国的Siri（汉语领域肯定强于Siri），问题在于即便Siri也远远没有达到预期的效果、成为人们主流的交互方式，只是一个可有可无的玩具。2、社交领域，涌现出唱吧、啪啪、抬杠、陪我、比邻、偶尔、派派等一批语音社交平台，然而几年下来谁也没有真正达到“社交平台”的标准和要求。啪啪们的图片加语音成了一种锦上添花的存在，远远没有达到高频刚需的状态，更何况其阅读成本奇高，远远不能和立刻一目了然的图片视频相比；更多的平台成了当年的168声讯台、色情热线，或者当年的碧海银沙聊天室；即便在主流的微信平台上，动不动发语音的人、一发发一串的人也常常变成不受人们待见的存在。唯一做得好的可能就是唱吧，因为唱K这样一种生活中常见的社交模式真的只能靠语音。3、内容领域，这可能是目前唯一可圈可点的区域，喜马拉雅、echo、听书、得到们从不同的角度切入，通过基于语音的媒体内容吸引了一票拥孬：比如根据易观智库的《中国移动电台市场年度综合报告2016》，作为行业领跑的喜马拉雅，其日活用户渗透率已经高达74.3%，这么好的DAU数据即便放在整个移动互联网领域也是不多见的，而最近这家平台刚刚通过售卖奇葩说老僵尸们的《好好说话》语音节目赚得盆满钵满。那么这里就有一个问题，为什么唯一做起来的是语音内容呢？同时，在内容生态领域最强的莫过于“两微一端”（微信、微博、新闻客户端），主打语音的内容平台能做成那样的体量吗？以后有一天人们会说“两微一端一电台”吗？? ??二、当前语音的症结在哪里？有人又要说，语音的内容还不错啊。但远远没有到离不开的地步吧？而且语音这东西，太麻烦！是的，就是这个“太麻烦”严重制约了语音的发展。（一）语音识别交互领域，声音一直没有多少存在感1、相关的技术要求太高。中国人说话远不像老外那样一个单词一个意思，而且各地的口音又完全不同，所以语音的识别、唤醒、输入、交互都是问题，当然强如科大讯飞已经可以破译粤语、上海话、四川话了，但是还会有后面的问题。 ? ?2、使用场景有限。视觉和触觉的交互随时随地都可进行，只要你低头悄悄打开手机就行了，但是语音呢，嘈杂的地方不行，人多的地方也不行，甚至晚上一个人了、对着冷冰冰的机器说话，也会有太装太怪的感觉。3、交互模式不自然。不论是Siri的长按唤醒，还是傻乎乎地“嘿Siri”，感觉都比较违和，当你看着屏幕上Siri正处于“倾听录音”状态，心一下子就紧绷了，生怕说错或者说得不及时，说完以后机器开始识别了，你看着进度条又莫名其妙地焦虑不安起来、它能不能听懂呢，会不会听错呢？结果识别出来，果然是错的，日了狗了……4、应用生态远未形成。尽管讯飞们已经开始开放语音功能和接口，但市面上并没有出现很多的声控交互应用，特别是——没有出现有影响力的第三方应用。（二）语音终端远未成型能够大规模商用的中国版Echo还没有出现，即便非常厉害的可能也市场影响有限，养在深闺人不识吧。（三）语音内容成本过高1、信息获取成本过高。看文字可以一目十行，看图片可以尽收眼底，看视频基本3秒内就可以判断值不值得看下去。但是语音完全不是这样，你听一段语音（如果不是歌声），往往得听三分之一以上才能判断是否值得听，而这个过程是漫长的、听的时候还动不动走神、左耳朵进右耳朵出，如果再加上漫长的前奏简直令人抓狂。这还只是一段语音，如果我又在很多语音中来回播放暂停选择想听的内容呢？这个过程简直繁琐得崩溃了！2、使用场景有限。一样的道理，文字图片可以在任何地方看吧，但是语音呢？3、差异化价值“貌似”不高。既然都能看文字解决，为何要用语音呢，难道就是为了主播磁性的嗓音？如果是为了这些感性的体验，视频是不是更好一些呢？这样看起来，好像语音一无是处，可真的是这样吗？解决几个症结就好了。三、语音的核心价值和竞争力回到开头，我们来看Echo这个产品。它和Siri最大的不同在于：这是一个纯粹通过语音、完全不需要屏幕的产品，看起来就像一台音响，用起来就像和人对话一样。进一步说，它解放了人们的眼睛和双手，你可以一边做别的事情，一边用语音和它交互。这样一说就清楚了，归根结底，Siri和讯飞们并不是纯粹的声控交互产品，他们顶多只能算半声控交互产品，因为从唤醒他们到判断语音输入准确与否到最终的结果显现，你几乎都要用到眼睛和手，声控交互的核心价值“解放眼和手、不再低头族”完全得不到显现。换句话说，他们都是视触觉交互的补充而已，所以本身就锦上添花、可有可无。你用Siri打开微信，比自己亲手打开能方便多少呢？你用语音输入法输入一段话，错了还得回删，这真的比打字输入更方便吗？但是Echo展现出的是纯粹声控交互完全不同的价值，并且这几乎是一个“高频刚需”。1、抓住了不适宜使用手和眼睛的人群。比如中老年人、残疾人、不擅长打字输入的人群，除非有一天人类技术发达到脑波交互，否则语音都是最适合他们的交互模式。2、抓住了不方便使用手和眼睛的场景。这就是我们常说的“低头族场景”，走在路上、正在开车、晚上睡前、保护视力。由于以往的声控交互产品做得太差，中国人以强大的适应能力，练就了在这些场景“眼疾手快、目不离机”的超能力，哪怕视力下降、头昏眼花、低头撞人也在所不惜。但是试想一下，如果声控交互真的做上去了，语音真的成了乔布斯口中的“自然延伸”，他们还会这样吗？3、创造了全新的伴随式场景。小的时候，我们为何早上起来会听收音机，因为可以边听边做其他事情，一心两用。对，就是这个一心两用！今天我们为何会一边跑步一边开车一边听喜马拉雅——像笔者年初一边在虹桥火车站办手续一边在喜马拉雅听罗胖的跨年演说、一边热泪盈眶……这都是一心两用呀！简言之，声控交互解放了人的手和眼，不仅在不适宜使用眼手的“低头族场景”，更在其他丰富的时刻。通过声控交互，你可以边听边说，一边干其他事情，这种一心多用的方便效率是不可抵御的。本来这些事，你要不停切换APP来完成，或者放下手机、把视线移到别的地方，但是现在完全可以并行不悖、同步推进了。4、语音有其独有的魅力。Echo首先是音响，可以播放音乐。而在人与人的沟通中，影响最大的是身体语言带来的气场（可惜隔了手机屏幕就完全体现不出来了），其次就是声音（音调音色节奏），最后才是内容。从这个角度说，语音的成本确实比文字高，却远比文字“有温度”，黄执中的辩词如果打成文字你未必读得下去，但只要他魔鬼般的嗓音响起，你立刻觉得他什么都是对的了；语音确实没有视频一目了然，但成本却远比视频要低，你不需要打瘦脸针玻尿酸弄出一张网红脸，因为当你的声音响起，没有人在意发声的人有没有罗胖帅。这也是为什么最近大火的分答会用语音，一来“盗版”成本高一点，二来听到名人真实的声音、这满足感是不同的。四、全新的机会，声控领域的BATBAT？有人要说了，你这不是在拉大旗做虎皮吗，说到底还是忽悠我们开发中国版的Echo呀。恰恰相反，我并不认为Echo是创业者们最好的选择，但是“基于纯声控交互”的APP却可以成为一个机会，关键在于讯飞和喜马拉雅们能不能迅速“醒转”，构建出一个对第三方更加友好的生态。什么是基于“纯声控交互”的APP，说白了就是整个APP的使用过程都完全不需要通过屏幕触摸、不需要动用眼睛和双手，最好连唤醒他们都可以用语音。这样的APP一旦出现，我们就根本不需要购买Echo，因为手机就是个简易版的Echo了，我把手机放在一边，一边做别的事情，一边就可以使用声控交互了。如果你使用与声控系统匹配的专用耳麦，如果这个耳麦可以随时响应、识别你微小的声音（在人群中大声很傻比），那么耳麦就是Echo，就是手机之后真正的可穿戴智能硬件，比手表之类强多了。基于目前已经研发出的汉语语音识别唤醒技术，讯飞完全具备这样的能力，但是成果多半在实验室里睡大觉。如果能早一步开放出来，如果能搞好与苹果安卓厂商们的合作不被“雪藏”，那么接下来的势能是非常可怕的。下固件网 http://www.xiagujian.com/

长按或扫码关注免费咨询
网站公众号
=》更多内容访问电脑版主页
请点击下面下载地址：

中维&ldquo;说！下一个人机交互的大风口？&rdquo;&ldquo;你都&

时间:2022-12-22 02:04 来源:未知 作者:admin 点击:次

中维“说！下一个人机交互的大风口？”“你都&

时间:2022-12-22 02:04 来源:未知作者:admin 点击:次