1. 创业头条
  2. 前沿领域
  3. 人工智能
  4. 正文

进击的输入法,只是多了点AI?

 2019-01-18 09:41  来源:A5专栏  我来投稿 撤稿纠错

  【推荐】海外独服/站群服务器/高防

从机械键盘被发明开始,人们对于输入法就有着特殊的感情,一面对“键盘”有太多的不舍,即便全触屏的智能手机早已普及,输入时依旧要依赖于“虚拟键盘”;一面又急于寻找更为高效的输入方案,比如笃定语音交互将成为主流的人机交互方式。

1月16日的百度输入法发布会上,百度输入法AI探索版正式亮相,不仅将全语音输入作为默认输入方式,并开启了调动表情、肢体的全感官输入2.0时代。曾经困扰人们多年的键盘输入纠结症,终于有了新答案。

输入法AI化,先来解决三个痛点

智能手机的诞生已经有了十多个年头,可为何语音输入取代键盘的一幕直到2019年才开始出现?要回答这个问题,先要看语音输入面临的三个痛点:

1、准确率能否再高一点?

早在几年前,百度、科大讯飞等相继宣布语音识别准确率高达97%,并不怀疑数字的真实性,Attention模型已经较为成熟,各家也在实验室里进行了大量的机器学习,但在实际应用中却存在两个用户体验上的“盲点”。

一个是流式解码的问题。诸如谷歌LAS等传统Attention模型,大多是基于整句的建模,客观上需要整句语音上传到服务器后,才开始声学打分计算和解码,势必会产生较长的用户等待时间。

另一个是长句建模的精度下降。Attention模型的核心思想是基于整句的全局信息,通过机器学习选择和当前建模单元最匹配的特征,于是句子越长,识别难度就越大,出错的概率越高,错误前后传导的概率也越高。

为了解决这些“盲点”,百度创新性地提出了流式多级截断注意力模型SMLTA,先使用CTC算法对连续语音流进行截断,然后对每一个阶段的语音进行建模,把原来整句的建模,变成了局部语音小段的Attention建模,同时引入多级Attention机制避免CTC的插入删除错误对系统的影响,最终在识别精度上提升了15%,并在保持计算量、解码速度等方面和传统CTC模型持平。

2、离线状态下该怎么玩?

作为一款基础工具,输入法要应对各种场景,比如在地铁、电梯等信号弱,或者人流密集的环境下,传统的“虚拟键盘”似乎不会有太多影响,全语音输入却要回答另一个疑问:如何在离线状态下保证语音识别效率?

为了解决用户的多元输入场景需求,百度输入法持续优化了Deep Peak 2系统,除了SMLTA上的创新,还大幅提升了离线语音的识别准确率,相较于行业平均水平提升了35%,不断缩小离线识别和在线识别在准确率上的差距。

百度语音技术总监高亮在发布会上进行了一场离线PK,参赛选手分别是百度输入法AI探索版、讯飞输入法和搜狗输入法,结果显示百度输入法的识别准确率和识别速度要明显高于另外两家友商的产品。或许离线识别还不够完美,至少百度输入法已经可以满足离线场景先的精准输入。

3、语言混合输入如何解?

语言在不断进化,年轻人群尤为如此,明明在说汉语,却夹杂着各种英文词汇,有时还会蹦出两个日语或韩语单词;有时候前一句是普通话,下一句可能冒出一句家乡话……输入法的使命俨然是顺应潮流,那么也就必须解决汉语和外语、方言与方言、方言和普通话来回切换等特殊场景。

常见的解决方案是“手动切换”,比如你想要用四川话进行语音输入,先要到输入法的设置中将语言设定为四川话,说普通话的时候再去切换回来。如此不仅未能解决语言混输的问题,还进一步增加了用户的学习成本,体验自然不尽如人意。

百度输入法的优势在于,不局限在国内市场的布局,百度海外输入法已经扩充到了120门语言,百度输入法的语音团队也在配合市场布局持续发力,陆续上线了日语、英语、印地语、西班牙语、印度英语等语言识别,为了适应一些国家语言混输的特点,百度输入法很早就推出本了地语言和英语混输的功能。有了海外市场的成熟经验,应对国内市场的“中英混输”自然不在话下。

此外为了解决方言混输的难题,百度输入法将普通话和六大方言融合成一个语音识别模型,进而实现了方言与方言、方言与普通话的混合语音输入。截止到目前,百度输入法还是唯一实现高精度中英文混合语音输入、方言免切换语音输入的输入法产品。

为何要先于行业迈出第一步,或许会阴谋家给出“炫技”的论调,但百度语音技术总监高亮的观点值得借鉴:“我们有一个理念,技术只有在产品上使用、让用户真正体验到才是真正的技术,我们绝不会为了技术而技术。”毕竟在输入法的取舍过程中,用户摆脱双手的需求早已出现,只是百度的视野会止于此吗?

输入多点AI,百度瞄准了Z世代

如果仅仅从创新的角度来审视百度输入法的进化,未免会低估百度的野心,在将全语音输入作为默认输入方式的同时,诸如拍立活、秀场、表情秀、凌空手写等新表达和新探索,可以说是整场发布会的另一大焦点。

比如拍立活可以对人及动物的脸部关键点进行识别,利用贴图及骨骼蒙皮技术还原出角色的3D模型,然后利用自研的面部行为编码系统驱动角色做出丰富的表情,还可以随意叠加各种AR表情素材,让表情的制作更加简单、有趣。

再比如凌空手写功能,开创了全新的文字识别技术,区别于其他实验室中的类似概念,百度输入法的凌空手写,不需要特殊的手写笔,也不需要深度摄像头或多目摄像头等硬件支持,普通的RGB摄像头就可以完美支持。

由此不难看到,技术范的百度正在以自身擅长的玩法,向崛起的Z世代抛出橄榄枝。

先解释下什么是Z世代,巴克莱银行在一份报告中,将1995年后出生的人群从时间调度定义为“Z世代”,并给出了Z世代的典型特征:数字原住民。并不难理解,Z世代自出生开始就生活在互联网的海洋里,对于其他年龄层的用户而言,互联网可能还只是生活的一小部分,在Z世代的眼中无异于生活的全部。于是相比于其他年龄层的用户,Z世代往往是新技术、新科技、新理念的忠实拥趸。

在CBNData发布的《2018互联网消费生态大数据报告》中,给95后贴上了“懒”的标签,成为外卖等上门服务的核心消费。当然也可折射了95后对于效率的追求,对传统行为方式的不满足,如果只盯着“懒”的一面,注定会误解新一代消费者,很可能和潜在的商业前景失之交臂。

百度输入法显然深谙于此,较于传统、低效的键盘,Z世代对语音输入有着更强烈的诉求,也是语音输入撬动键盘输入的重要支点。拍立活、凌空手写等近一步印证了百度输入法打入年轻人群内部的野心,想要和年轻用户沟通对话,势必要选择年轻人乐意接受的方式,解决了产品“盲点”的语音输入本就是如此,百度输入法又加上了更多有趣的筹码,打出一套面向年轻用户的组合拳。

在巴克莱银行给出的数据中,预计到2020年Z世代将成为全球最大的消费群体,或将占据美国、欧洲和金砖四国消费市场的40%份额。隐约可以看到,百度输入法之所以推崇全语音输入,并向Z世代抛出橄榄枝,绝非是无意之举。

尾记

创新的车轮从未停滞,古老而又活力四射的输入法早已成为用户行为的风向标,如同80后们大多已经忘了70后“必修”的五笔,90后对九宫格输入法的青睐又被00后们嫌弃……可以预见,当Z世代以及更年轻的世代崛起后,传统的输入法难逃被淘汰的命运,取而代之的将是语音、表情、肢体等“AI输入”。

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关标签
输入法
ai技术
ai智能

相关文章

  • 汇聚中国AI顶尖力量 云天励飞参与华为AI大模型联合创新

    2023年7月6日,第六届世界人工智能大会(WAIC2023)在上海开幕,“人工智能大模型”是本届大会的备受瞩目的话题,据悉,在昇腾AI大模型的创新研发中,华为联手26家行业领军企业,组建了一支协同创新的“AI明星队”,云天励飞作为中国人工智能企业的杰出代表,和互联网大厂、运营商、科研院所等优秀团队

    标签:
    ai技术
  • 用友大易:迈入AI招聘2.0时代,让人力资源回归本质

    这几个月来,以ChatGPT为代表的生成式AI展现出的能力令世界惊叹。自从2016年AlphaGo战胜李世石掀起了一波AI浪潮后,AI仿佛已经沉寂了很久,ChatGPT的横空出世就如同一束耀眼的光芒,让AI这个名词重回C位。过去在AI1.0时代,主要通过训练模型来实现图像识别、声音识别、语言处理等特

    标签:
    ai技术
  • 新发布的PaaS2.0,能否助力涂鸦智能再起飞?

    文:互联网江湖作者:志刚2023年的IoT需要一个新故事。6月29日,涂鸦智能在开发者大会上,发布了企业级战略PaaS2.0,希望通过一个平台+四大开发服务,建立起IoT生态。对于这场发布会,市场的态度是积极的。美东时间6月29日收盘,涂鸦智能美股股价上涨5.6%,来到1.87美元/股。近日股价稳定

    标签:
    ai技术
  • 大模型难掩AI制药的悲伤:越过山丘,无人等候

    美团曾经的二号人物王慧文对标OpenAI的创业项目光年之外,以20亿卖给美团,再度引发市场对大模型的热议。

    标签:
    ai技术
  • 拾起王慧文的AI梦,美团冲向“光年之外”?

    2020年底,王慧文在朋友圈写下这句话时,外界本以为这位伴随中国互联网发展而持续创业20年的人物即将告别创业舞台。但是,一个曾经多次创业,正值壮年的互联网老将心中的创业热情是难以熄灭的。

    标签:
    ai技术
  • 开发者怎么拥抱智能化浪潮?昇腾AI给出了“通关指南”

    在大模型代表的新一轮技术浪潮下,智能化转型已然是毋庸置疑的趋势,科技大厂们纷纷给出了智能化的“道法术”,大大小小的企业也开始更新认知,想要从创新中挖掘出驱动增长的新质生产力。但现实和智能化的美好愿景之间,仍然横亘着一片鲜有人涉足的“荒海”,脚下还没有坚实的路。3月23日在天津举办的昇腾AI开发者创享

    标签:
    ai技术
    ai智能
  • 8款AI视频生成产品实测,谁将成为中国Sora?

    ©自象限原创作者丨罗辑、苏奕编辑丨程心2024年开年,科技圈没有什么比Sora的出现更让人兴奋。如同ChatGPT在2023年初带来的LLM创业潮,Sora的发布也同样将视频生成模型推到了风口浪尖。科技巨头猛推产品,创业公司则乘风而上。3月13日,AI视频大模型公司爱诗科技完成亿元级人民币A1轮融资

    标签:
    ai技术
    ai智能
  • AI业务收入盈利双增,但百融云没有止步

    当为科学技术巡游一方的神,行至人工智能的篇章,中国公司的2023年报里,写着AIGC的前世今生。翻开科技进步的编年史,每一次技术革命都有这样一条铁律:技术革命的最大受益者,通常不是率先做出突破的开疆派,而是率先将其发扬光大的技术流。靠着工业革命超越日不落的美利坚,把同样的故事,转载到了50年代的半导

  • AI手机需要新故事

    言必称AI的时代,已经来了,尤其是随着sora等的震撼发布,以及Google、微软和国内大厂等在AI研发、大模型等方面的日新月异。就手机行业而言,在存量时代出货量连年不及预期的情况下,如何刺激用户换机,成了一道摆在所有手机厂商面前的共同命题。从三星到国内的一些手机厂商,实际上已先行一步打出了“AI手

    标签:
    ai技术
  • 智能校对大模型文修2.0重磅发布:赋能“人工智能+办公”转型升级

    3月22日,由天津蜜度文修智能科技有限公司主办的智能校对大模型文修2.0智臻发布会在津举行。发布会以“大模型赋能‘人工智能+办公’体验升级”为主题,邀请语言智能领域专家,以及各大媒体机构和合作伙伴,围绕大模型技术、应用落地发展、标准化进程进行分享交流。发布会上还发布了智能校对大模型文修2.0。天津市

  • 阿里通义千问重磅升级:免费开放1000万字长文档处理功能

    3月22日消息,阿里通义千问重磅升级,向所有人免费开放1000万字的长文档处理功能,成为全球文档处理容量第一的AI应用。即日起,所有金融、法律、科研、医疗、教育等领域的专业人士,都可通过通义千问网站和APP快速读研报、分析财报、读科研论文、研判案情、读医疗报告、解读法律条文、分析考试成绩、总结深度文

    标签:
    通义千问

编辑推荐