文/腾讯科技孙宏超
这家中国互联网最老牌的科技公司正在进入最前沿的领域。
资料显示,在过去几年里,亚信一直与电信运营商合作,为后者提供业务运营支撑服务。但随着人工智能、大数据、云计算、物联网等技术应用的发展,亚信也对新技术进行了探索实践,出展上海MWC移动大会前亚信软件CEO高念书和亚信数据CTO於今接受了腾讯科技等媒体的采访。高念书对腾讯科技表示,亚信与运营商合作的同时,从未停止过对大数据和人工智能、物联网等新领域的探索。据其介绍,亚信此次参展将会分享亚信大数据与人工智能技术在电信、金融与政府等行业的应用实践,亚信在物联网和车联网平台所取得的进步以及亚信全云化产品的实践成果。
针对此次参展,於今对腾讯科技表示,随着大数据和人工智能的快速发展,传统商务活动会越来越产品化,去参加MWC这种会,是产品曝光的重要渠道,也让整个团队更加主动。於今还对腾讯科技分享了亚信的参展产品之一——机器学习平台Aura及应用案例。Aura是以机器学习为核心的数据驱动型应用开发平台,目前在电信行业的精准服务推荐、基于位置信息的智能推荐,在金融领域的实时反欺诈与智能投顾,以及在医疗领域的医保控费等都有应用案例。
人工智能应双管齐下
记者:涉及机器学习、大数据、人工智能的新兴公司,在硅谷多吗?
於今:很多,现在硅谷创业公司非常多。大数据、人工智能这个行业融资是最容易的,国内情况也类似。不过人工智能这个概念国内比硅谷更红火,媒体的报道更多。
记者:人工智能这个行业更应该由政府推动,还是应该由大公司推动?
於今:我认为应该是多管齐下,也不仅是大公司,还有小公司,应该是多元化的。
首先,是政府的平台。亚信和广州联合成立了人工智能研究院,政府本身没有技术力量,但是它有倡导的力量和市场的力量,他们可以吸引到大公司、研究机构一起参与,有一些场景可以在研究院落地,这是政府平台的好处。
第二,是政府的数据。人工智能最需要数据,我们和广州政府各个部门合作,这些数据我们都可以合理使用它来训练模型,这非常关键。
第三,创始型公司也好,技术型公司也好,他们是商业化的,道路会看得更清晰。企业往前推展的步骤同样重要,他们的创新与商务价值的结合会更加紧密。
记者:在这方面中美是有差异的吗?
於今:有较大差异,美国政府也有大数据和人工智能方向性的指导,但是美国政府所起的作用比较弱,中国政府作为一个平台,引导的力量更强,而且中国政府执行力比美国政府高很多。
记者:人工智能和大数据领域中国和美国还有很大差距吗?
於今:还是有一定差距的,开源的算法框架大部分是在美国的环境中成长出来的。中国也有一些,但是相对比例比较少。开源社区需要参与,人工智能有三个因素很重要,一是数据本身,二是计算能力,三是场景。
目前差距最大的是计算能力,中国有很多场景,数据也比较丰富。但是计算能力方面美国领先不少,包括底层芯片的能力,美国都是很强的,整个开源社区在北美都是最活跃的。中国工程师参与比较少,需要多参与,参与了才可能去主导,希望以后会越来越多。
医疗方面体现价值
记者:给客户的业务价值带来提升印象最深的案例是什么?
於今:从整体的垂直行业来讲,人工智能这方面的体现价值是比较初期的。运营商那边相对场景会比较成熟,但是运营商受到商务模式的局限性。
现在价值体现最高的是医疗方面,我们在和客户探讨的场景,医疗不是帮助客户省钱,而是帮助政府省财政预算,医保控费的思路。我们在咸阳那边有大量的专家规则来做欺诈行为检测。利用数据对专家规则进行优化,这是第一步;第二步,用机器学习做判断,专家规则筛过以后机器学习模型再进行判断,这样输出的结果的精确度大大提高。在商务模式方面。目前一种是和政府分成的商务模式,这种已经可以达到一定规模。我们下一步计划把模型部署给医院,用SaaS的方式来完成系统部署,因为数据本身在政府的云里面,所以不需要医院本地部署,但医院可以利用这个服务进行内部管理。
记者:第二步的数据包括哪些数据?
於今:数据非常丰富。在整个医疗云平台中,我们基本集中了整个诊疗过程所有维度的数据,包括医院的HIS系统(Hospital Information System)里的EMR(Electronic Medical Record)数据。这里面包括门诊和住院这两类,住院信息更加详细。
第二类数据,影像数据(Image Date)。包括X光、CT、核磁共振数据,这个规模也很大。我们正在拓展检验检查获得的量化生理指标,每个医疗仪器实际上都是IoT设备,我们希望能够获得颗粒度更细的医疗设备数据。最后是医保报销的数据,这些数据加在一起判断整体欺诈的概率。
控费医保有不少厂商在推进,一般都是直接用医保报销数据,数据粒度太粗。我们利用医疗数据,结合人工智能模型更加精准。
人工智能拥有很大空间
记者:亚信在历史上有过几次转型,人工智能在亚信未来会扮演什么角色?
於今:从两个层面来说。第一个层面,机器学习、深度学习作为人工智能的技术基础,可以整体提高软件的效率。因为很多业务支持的软件模块都可以用人工智能的方式做优化和提升,这是技术层面的。
第二个层面是业务场景,捕捉各个垂直领域上人工智能可以落地的业务场景。今天举的一些例子都是一些初步的应用尝试,以后应用场景会越来越多。每个垂直领域肯定都有非常大的前景。
亚信有跟大型企业合作的丰富经验,我们对数据非常敏感。我们帮着客户,使他们的数据能够体现价值,虽然我们不能直接拥有数据,只要商务模式找好了,一样拥有很大空间。
记者:Aura有哪些特征?
於今:有两个重要的特征。一是降低机器学习门槛。一直以来,从事机器学习研究和应用往往需要计算机科学相关专业或有统计学丰富经验的中高端人才,而传统企业人才的技术背景难以匹配。 Aura平台就是为了让更多企业利用大数据和人工智能技术,享受技术所带来的业务价值提升。
第二是建立数据和模型之间建立反馈闭环。机器学习技术日趋成熟,以往项目化的应用机器学习技术,往往只关注模型交付时的效率表现。而随着时间的变化,模型的效果没有新数据的增量训练,往往会逐渐降低。这是因为数据和模型之间由于缺乏系统性和平台级的支持,没有形成反馈闭环。所以Aura机器学习平台着力于这个痛点。Aura平台上部署的模型采用自动化模型的再训练机,保证模型持续的有效性。
记者:这个平台机器学习这方面是基于开源工具做的还是自研的?
於今:算法本身大部分都是开源的算法,而且相对比较成熟。我们关注开发整合的效率提升。真正需要我们突破的地方是怎样把模型在生产环境中运营下去。自动化运营,而不是人力运营。大部分公司都还是处在人力运营的阶段,都有运营团队,如何降低运营成本也是我们关注的。
记者:亚信在数据流的处理和流计算方面有什么突破性进展吗?
於今:我们和开源社区非常紧密合作,这方面一直做出很大投入。Spark社区应该是流计算NO.1,流处理Spark2.2现在有新进展。我们和开源社区合作,能够把开源的架构进行优化、组合,这样客户可以直接在我们平台之上更加简单开发流处理的流程。由于实时性的要求,流处理肯定会越来越重要。
人工智能新兴公司瓶颈在数据
记者:目前人工智能的竞争还比较少,这种平静的态势会持续多久,相关企业之间的碰撞会在什么领域?
於今:对人工智能进行细分,一是比较底层的计算能力,芯片是一大块,这块在国内很少。国内更多是在关键具体的业务能力,比如语音、语义。因为中文和英文不太一样,所以在这方面需求还是挺大的。
竞争更多是垂直领域的应用,因为垂直领域的应用更容易很快体现价值。在中国这个企业市场不像在美国可以卖一个基础的计算能力的产品,这种模式在中国可能比较有挑战,所以垂直领域还是大家的关注点。
整个2C市场已经做得差不多了,BAT把2C已经做完了,他们的算法优化大家都很清楚,现在都是2B市场。不同的垂直领域,电力也好,运营商也好,银行也好,2B到底怎么推进是大家关注的点。那些创始公司问题是拿不到数据,而这是亚信的竞争优势,我们能把他们的数据打开,得到价值。
记者:这个领域是否很难出现新兴公司?
於今:我认为会有一定结合,像亚信这种大的公司需要转型。对小的公司,数据是它的最大的门槛。技术和商务发展速度都很快,需要考虑合作的方式推进创新。
记者:接入人工智能解决方案的时候有哪些坑?
於今:坑肯定是挺多的。人工智能解决几类问题,比如营销、反欺诈等等,这里面可以用的算法很多。那么怎样才是很好的算法组合,才能更有效解决你这个场景的问题,这需要很多经验的积累。
比如医疗反欺诈场景,需要哪几种算法组合所训练出的模型精准度才是比较高的。分类的算法很多种,矩阵的算法很多种,每种算法用什么样的特征,选择非常多,特征还可以叠加在一起,要不断尝试,积累经验,这是第一方面。
第二方面,数据质量本身很重要。作为机器学习场景的落地,如果数据质量不好,模型效果是难以保证的。而数据质量又和运营十分相关。怎样把数据进行转换和清洗,或者利用机器学习的一些模型进行数据质量的提升就十分关键。
正文已结束,您可以按alt+4进行评论