人工智能何时能够把所有语音转录为文字?
2017-07-03 17:55:00 来源:腾讯科技

【腾讯科技编者按】《大西洋月刊》网络版日前发表文章称,科技公司正在迅速开发工具,帮助人们摆脱打字这项繁琐工作——此类技术的影响可能是深远的。

以下为AI世代(微信号:tencentai)编译整理的文章内容摘要:

描述把盛满奶油的餐盘扔到鲁伯特-默多克(Rupert Murdoch)的脸上有什么最佳的方式?对全球新闻界而言不是什么难事。近乎所有的媒体都报道了默多克与儿子詹姆斯在2011年出席英国议会就窃听事件举行的听证会,以及随后出现的闹剧。

在听证会轮到默多克父子回答有关质询时,听证席上一名身穿彩色格纹衫的男子忽然冲向默多克,默多克的妻子邓文迪迅速起身相护。

该男子试图将一个餐盘扔向默多克的脸上,这个铝制一次性餐盘里盛满奶油,该名男子同时高喊:“贪婪者!”这一突发事件令听证会中断。警方稍后逮捕了这名男子。在被逮捕时这名男子脸部与手上残留白色奶油,同样的奶油也出现在默多克的外套上。

但是对听证会的官方书记员而言,这就是另一回事了。通常情况下,书记员的工作仅仅是对听到的话语进行记录。在这起攻击事件之后,书记员决定简单处理,仅仅把这起突发事件记录为“中断”。

专业领域需要进行大量的谈话--包括会议、面谈和电话会议等--这些都需要转录为文字版本,存档以备将来参考。这可以说是非常繁荣的日常工作,但是对那些愿意付费的人而言,可以把这项工作外包给专业的转录服务。这些转录服务会雇佣人员远程转录音频文档,或者是派员参加会议,即时把听到的内容打成文字。

尽管近来出来了基于网络浏览器的转录助手,但在现代西方经济中,转录是一个单调乏味的领域,因为机器还无法完全替代人类。直至到了去年年底,微软推出的一款产品开始让这一切变得可能。

对微软首席语言科学家黄学东(Xuedong Huang)而言,当他在苏格兰爱丁堡大学攻读博士课程时,自动语音识别(ASR)就深深的吸引住了他。黄学东回忆起他用本科水平的美式英语试图听懂带有苏格兰口音的教授讲话时的难度,他说:“我刚离开中国,我希望每一位讲师和教授在教室里授课时,能够带有字幕。”

为达到这种实时服务,黄学东和他的团队首先必须创建一个具备追溯转录能力的程序。更先进的人工智能技术让他们部署了称为“深度学习”的技术,其中的一个程序被训练从大量数据的中识别方式。黄学东和同事使用软件来转录20年来作为语音识别工作基准的一组记录谈话。职业打字员在转录两个不同部分的测试中会分别出现5.9%和11.3%的错误率。由微软团队开发的系统通过了测试。

“这不是实时系统,”黄学东承认。“它体现出我们想看到的结果”。但是即时系统并没有那么遥不可及。

事实上,ASR程序已能够准确地抄录采访或会议内容,而抄录的内容看上去已不再那么的古怪。在上月微软举行的Build大会中,该公司副总裁沈向洋(Harry Shum)展示了一款PowerPoint转录服务,借助Cortana语音助手来实现语音输入。微软同时还在同苹果、谷歌(微博)等公司展开激战,让即时移动翻译应用能够完美的进行语音转录。

黄学东相信,转录软件将超越人类能力的观点是可以理解的。“完美结果的定义是有争议的,”他说,原因是人工转录工作中本身就存在着错误率。“如何‘完美’取决于现场环境和应用。”

如果带有即时转录语言任务的ASR系统能够正确的理解讲话人说出的每个词,那么它才能够被定义为成功。虽然Cortana、Siri等虚拟移动语音助手已在很大程度上达到了这种水平,但即时翻译应用还不具备这种能力。不过越来越多的计算机科学家已经开始意识到,当在自动转录音频时,标准不需要特别高,文本中出现的错误都可以在事实之后修正。

位于伦敦的初创公司Trint和推出音频转录应用SwiftScribe的中国网络巨头百度,已推出了基于浏览器的工具,能够把最长1个小时的音频转录为文本,且错误率在5%以内。在页面上,它们的输出与打字员输入的原始文档非常相似。但是通过把用户从转录员转为编辑,这两个程序都能够让人们免除多个小时繁重且不得分心的工作任务。

当然,节省的时间取决于音频的质量。Trint和Swiftscribe在转录周围环境几无噪音的访谈内容时表现的相当出色,但是在转录嘈杂环境中的对话、信号不好的电话访谈、或是不带有美式、英式英语时,就会遇到一些问题。当使用Trint转录一段德国口音的英语时,它会把“天气相当冷,但气氛相当不错”转录成“那颗心也在呕吐呕吐。是的,他的第一面。”

“我们并不认为在几分钟的访谈转录中出现这样的问题称得上是完美,”Trint首席执行官杰夫-考夫曼(Jeff Kofman)说。“但是转录高质量的音频,我们的应用会接近于完美。你可以在转录文本中进行搜索,能够发现错误。”

考夫曼表示,Trint的绝大多数用户都是记者,其次则是从事学术研究和来自商业和健康领域的客户。换句话说,这些职业岗位都需要在严格的截止实现内转录大量的音频内容,这与SwiftScribe的开发人员赖安-普伦格(Ryan Prenger)和他的同事们收集到的匿名用户行为数据相一致。虽然SwiftScribe用户中存在一些长尾用户,普伦格认为他们主要是渴望对SwiftScribe能力进行测试的人工智能爱好者,但是SwiftScribe也存在一切忠实用户,几乎每天都会把音频转录为文字。普伦格认为,SwiftScribe用户的覆盖范围极广,这也意味着ASR技术将会继续得到改进。

普伦格表示,“一旦转录精确度超过一定范围,可能所有人都会开始转录。”他预计,最终自动转录工具能够增加转录工作的需求和供给。“可能会有一个良性循环,更多的人期望他们的音频能被转录,因为现在更便宜,更容易获得。”

Trint刚募集到310万美元的种子基金,用于公司下一轮的扩张。考夫曼和他的团队计划在本月底维也纳举行的全球编辑网络大会中,展示其最新的成果。这家公司的目标,是在这场活动主题演讲结束一小时内,把转录结果发布在《华盛顿邮报》的网站上。

很难预测Trint的转录结果会是什么样子,但可以预测,它肯定会出现一些错误。不过转录应用的出现,让记者可以花更多的时间报道和写作,而侦探可以更早时间的分析犯罪嫌疑人证言中的矛盾;YouTube视频中出现字幕在未来将成为标准;与熟人、好友、家人打电话的电话内容可以像社交媒体信息和电子邮件那样存档、进行搜索。

对黄学东而言,转录只是ASR一系列变化中的其中之一,这些变化在Cortana、Siri、Alexa等语音助手中已能够发现。“很明显,下一波变革会让你彻底摆脱设备,”他说。“用户界面技术将能够让人们摆脱被设备束缚的局面。”(编译/无忌)

推荐:人工智能汹涌而来,未来已变!关注“AI世代”微信号(tencentAI),关注未来。

正文已结束,您可以按alt+4进行评论
  • 为你推荐
  • 公益播报
  • 公益汇
  • 进社区

热点推荐

即时新闻

武汉