智能语义领域创业者表示,目前国内包括科大讯飞、百度等在内的几大研究智能语音翻译的公司,在技术水平方面并没有明显差异,谁在大众眼中准确度更高,谁就可能取得先机。
本文为寻找中国创客原创
记者 / 蔡浩爽
编辑 / 魏佳
9 月 20 日,用户名为“Bell Wang” 的王同学在某知识问答平台上发表《科大讯飞,你的 AI 同传操(qi)作(zha)能更风骚一点吗》一文,吐槽了自己“被 AI”的经历。
这位王同学在担任某次国际会议同声传译的过程中,发现自己及同伴的翻译成果在不知情的情况下被科大讯飞以文字形式上传在屏幕上,还使用电子音播放翻译文本,在某平台进行直播。
王同学“忍不了”,发布了自己用手机录下的视频证据。事情迅速发酵,科大讯飞于 21 日下午发表回应:个别同传译员对于科大讯飞存在误解,我们认为仅仅是对会议服务方面的分工沟通了解不清。
有网友调侃:没被发现就是 AI,被发现了就是误会。
科大讯飞是否存在主观“欺诈”难以判断,但细数一下,这些说不清道不明的“人工”冒充“智能”案例,还真不少。
误会还是造假?
科大讯飞可能自己也没想到,找的同声传译工作人员居然在知乎上有个固定专栏。
这让寻找中国创客想起了几年前的一个段子,某互联网公司在招聘时明确表示:有公众号的不要。
▲“Bell Wang”网帖截图。
事情的经过是这样的。据王同学在网帖中描述,9 月 20 日,他来到 2018 创新与新兴产业发展国际会议(IEID)的高端装备技术与产业分会做现场同传。
当看到会场大屏幕两侧写着“讯飞听见”四个字的时候,他就有点心烦:自己不会也要遇上“被 AI” 的事了吧?
会议开始以后,现场屏幕上的实时字幕分为两部分,右边是对外文演讲嘉宾的英文实录,左边是中文翻译结果。
▲字幕分为英文、中文两部分。
王同学发现,当日本籍嘉宾上台演讲时,其带有口音的英语并不能被机器很好识别,右侧的屏幕上满是发音差不多但不能构成实际意义的单词。但在左侧,屏幕上却是准确的中文翻译。
为什么明明识别错了英文原文,却能给出准确的中文答案?王同学越看越觉得,翻译部分是直接转译的自己同伴人工翻译的内容。
尤其当搭档在英译汉时说出“步态”一次,屏幕上却错误识别为“不太”;王同学自己再汉译英时说了“Davos Forum”(达沃斯论坛),屏幕上却出现发音差不多的“Devils Forum”(魔鬼的论坛)后,王同学越加确信,现场大屏上的字幕并非科大讯飞机器翻译,而是在自己和同伴翻译内容的基础上,进行了“语音转文字”。
当天下午的发现,让王同学更加火大。
他在一个名为“知领直播”的平台上看到,该平台声称“引入科大讯飞智能语音技术”“智能翻译”,但是,对当天的会议进行同传直播的翻译文本是他和同伴的翻译成果,而且播放的语音是合成的机械音。
▲知领直播页面截图。
“所谓的智能翻译,就是按照文本读,而且是不管语义群分割的,文字显示也并不是语义群同时显示或锁定的,那就很显然是在识别语音,而不是从根据原文在翻译。”王同学在网文中称,这是“赤裸裸的欺骗”。
21 日下午 7 时许,科大讯飞作出回应:考虑到专业技术背景及口音等原因,这次 2018 创新与新兴产业发展国际会议,科大讯飞只提供会议转写上屏服务,并未提供翻译服务。至于转写译员翻译结果并在会场大屏呈现、在直播中合成识别结果,皆是“应主办方要求”。
科大讯飞表示,“个别同传译员对于科大讯飞的误解,我们认为仅仅是对会议服务方面的分工沟通了解不清”。
▲科大讯飞回应全文。
科大讯飞方面再次强调其提出的“人机耦合”概念:科大讯飞发展 AI 无意于替代任何职业和岗位,我们也多次强调“人机耦合”共同进步的立场和产品追求。
对于“人机耦合”概念,科大讯飞方面给出的解释是:由机器提供语音转写和翻译结果给同传参考,辅助同传降低工作强度并提升效率。
“碰瓷”的 AI 公司
科大讯飞蓄意造假?
似乎也不是。
就在几天前的 9 月 17 日,科大讯飞董事长刘庆峰还在世界人工智能大会开幕式上特意强调:凡是大家看到翻译屏幕上两个语种同时出现的,就是机器翻译的;翻译屏幕上只有一个语种的,就是人机耦合的。
刘庆峰称:“世界机器人大会的十几个嘉宾演讲中,有人工同传的语音转写也有机器全自动转写。除了三个是由人工同传的语音转写,探索人机耦合模式的,其余的全部是机器全自动转写的。”
知乎某网友将科大讯飞的态度概括为“三不”政策:不主动,不拒绝,不负责。对于大众将精准的翻译结果误解为科大讯飞智能翻译所为,讯飞方面似乎也是乐见其成的。毕竟这种误解可以带来实际的好处。
有智能语义领域创业者告诉寻找中国创客,目前国内包括科大讯飞、搜狗、百度、腾讯在内的几大研究智能语音翻译的公司,在技术水平方面并没有明显差异,这个时候,谁在大众眼中的准确度更高,谁就可能取得先机。
科大讯飞技术上可以做到 AI 同传吗?
似乎也不行。
就连科大讯飞董秘江涛也在这次回应中承认:“讯飞从没讲过 AI 同传的概念,始终强调是人机耦合的模式。”
有认证为阿里云的技术人员在网上科普 AI 同传的几个技术环节:
1、ASR(即自动语音识别)识别语音流(易出现误差,依赖于方言/语种模型与其强化学习程度);
2、同步进行 NLP 自然语言分析(断句,分词等)形成文本(普通出现误差);
3、翻译文本(小可能出现误差);
4、翻译后的语音内容展示字幕或者 TTS(Text To Speech,将文本转换成语音)进行语音播报(小可能出现误差)。
在此次事件中,科大讯飞做的只有最后一个环节:将翻译后的语音内容上传到屏幕,或者合成为电子音。虽然这一过程也涉及识别同传人员的语音,但因为同传人员发音较为标准,这一过程误识别的概率大大减小(但仍然出现了,比如上文提到的将“步态”识别为“不太”)。
智能语音公司 Rokid 创始人 Misa 告诉寻找中国创客,人工智能在自然语言分析、文本翻译、TTS 方面的问题并不大。
但由于存在口语习惯(比如多语言混合、语法省略)、口音、现场环境、专业术语等问题,人工智能在语音识别方面还存在一些误差,而且这一现状目前还难以解决,运用统计方法难以覆盖所有可能。“人机协作的概念是没错的,只是一开始要说清楚,别忽悠大家。”
“人工”冒充“智能”那些事
细数起来,以“人工”冒充“智能”的做法并不鲜见。
不知道还有多少人记得 2015 年横空出世的交通银行客服机器人“娇娇”。
这台机器人凭借软萌的声音、流畅的反应、高度人性化的对答,让研究人工智能和机器人的公司瞠目结舌,还出现在当年的 CES 上。
就连谷歌在 2018 I/O大会上展示的能打电话预约理发的语音助手,跟当时的娇娇相比都略逊一筹。
▲交通银行客服机器人娇娇。
娇娇的语音识别、面部识别和语音合成到底是用的哪家技术,居然比谷歌还超前 3 年?
经过一圈刨根问底,摄像头+变声器+人工客服操纵,就是这台智能语音机器人的全部。
如果你不记得娇娇,那你一定还记得被沙特阿拉伯授予公民身份的机器人索菲亚。
当索菲亚的发明者戴维·汉森问她:“你想毁灭人类吗?”她回答:“我将会毁灭人类。”
在挑逗起人们对人工智能的恐慌后,索菲亚又语带嘲讽:“你是看了太多马斯克的话,还是好莱坞电影?别担心,人不犯我,我不犯人。”
凭借机智的回答和流畅的反应,索菲亚登上许多知名电视节目,包括《早安英国》、美国脱口秀《吉米今夜秀》、CBS 新闻台《60 Minutes》甚至湖南卫视的《我是未来》。
终于,人工智能界大牛 YannLeCun 忍不住开撕:索菲亚之于人工智能,就像魔术之于魔法。
▲机器人索菲亚。
2017 年 6 月,在瑞士举行的“人工智能造福全球人类峰会”上,央视记者和索菲亚也进行过几轮对话。
在回答记者提前提交给大会的 3 个问题时,索菲亚的表现一如既往地优秀,但当遇到记者现场随机提出的问题时,她的对话水平明显下降。工作人员明确告诉记者:对于特殊问题,在现场回答前都已经提前进行了程序设置。
业内人士也普遍觉得索菲亚违反常识。一个事实是,最先进的人机对话系统也无法达到索菲亚这样语带嘲讽又对答如流,这是 NLP 领域研究者的共识。而索菲亚展示出的主动引导话题的社交能力,被研究者们认定为提前编写好的对话。
除了在各种晚会、智力问答节目上出现的各式抖机灵的机器人,就连自动驾驶领域也有类似情况出现。
据相关业内人士透露,某些自动驾驶公司在进行试乘体验活动时,会提前根据试驾路段的路况编写好程序,而非让这辆根据传感器数据自主决策、控制。
前述智能语义领域创业者对这一状况已经司空见惯:“科大讯飞起码还是有真技术的,只是翻译结果未必非常准确。很多创业公司连相关技术都不掌握就做假 demo,目的无非是 to VC(风险投资机构)、to 媒体或者 to 政府。”