CN|EN

从ICT巨头到NLP领军者,神州泰岳成功“跨界”

[ 亿欧导读 ] 说起国内研究NLP的企业,不少人都会想到百度、科大讯飞等巨头,但却常常忽略了一家传统以ICT为主要业务的公司——神州泰岳。


2019智博会,人工智能,NLP,OpenI,机器翻译



2019全球智博会(ai-expo.org.cn)将于今年5月9日至11日

在苏州工业园区举办。大会举办前期,亿欧作为全球智博会合作媒体先后对即将参与本届智博会的重点企业进行了走访。


NLP被称为人工智能“皇冠上的明珠”。NLP研究的领域包括

自然语言理解、自然语言生成、文本分类、信息检索、问答系统、机器翻译等等,每个领域都需要深入探索,缺乏能解决所有问题的通用技术。此外,与计算机视觉技术不同,中文的语言学无法直接迁移到国外成熟的学习模型中,这也为国内NLP技术带来了更多的挑战。

而说起国内研究NLP的企业,不少人都会想到百度、科大讯飞等巨头,但却常常忽略了一家传统以ICT为主要业务的公司——神州泰岳。

十年前的“偶然”,从ICT到AI-NLP

神州泰岳成立于1998年,早期以ICT业务为主。2016年,神

州泰岳正式确立了新的方向,形成了现在以ICT运营管理、人工智能与大数据、物联网及通信技术应用三大马车为主的战略布局。

虽然神州泰岳在2016年才强调自己的人工智能战略,但公司对人工智能的研究却不是从2016年才开始的。神州泰岳副总裁李国东告诉亿欧,他们研究人工智能,最早能追溯到2008年左右。

“在传统的电信业务中,用户需要打电话来咨询话费套餐情况,我们最早是想研发一款客服机器人,优化这一块的业务。”李国东说。但要让客服机器人真正能像人一样,拥有连续对话的能力,只依靠建立数据库并抽取所需数据是不够的,还要让机器人能“理解”人说话时表达的核心意思。而这就需要用到自然语言处理技术,这也是神州泰岳发展NLP的初衷。

从2008年左右至今,神州泰岳在NLP相关领域的探索已有将近十年,经过十年的积累,神州泰岳在NLP领域探索出了自己的道路。

人工智能能够分为感知智能和认知智能,其中认知智能的最大

技术挑战就是NLP。对NLP而言,中文的歧义性是一个绕不开的难题。同一个词汇在不同的语境中,可能代表着不同的意思,因此解决“歧义性”的问题,就需要让机器能够根据不同使用场景来判断语义。

针对这个难题,神州泰岳推出了独创的“本体建模技术”。“本体”可以作为NLP场景化应用的知识表示框架,在特定场景下,把与场景相关的领域知识、NLP任务、语言资源等内容进行形式化规范描述,以实现面向任务的概念模型,使得NLP场景应用实现最大化的共享。

除了歧义性外,NLP的另一难题是如何处理语言结构。比如,中文可以形成“主语+谓语+宾语”的句子结构,而在此基础上还能形成述补、“把”字句、“被”字句、嵌套式的多重结

构等,不同的结构对机器翻译技术存在较大影响。

但该如何对待语言结构,目前在学术界尚未达成共识。深度学习在图像和语音处理方面立下“汗马功劳”,但在NLP中,深度学习智能把橘子当做一个序列来处理,不涉及序列的递归处理,因此深度学习在处理语言结构方面并没有太多突破性的成绩。

而神州泰岳将符号化语义与深度学习技术结合,研发了自主知识产权的智慧语义认知技术,即能有效地识别多种语言结构,实现同一意思、不同结构的归一化处理;同时对语言结构的递归嵌套处理,也表现优异。据了解,目前该技术已经可以识别出3层以上语言结构的递归嵌,极大增强了NLP的可解释性。

“少年”NLP,未来大有可为

技术与应用是相辅相成的。神州泰岳从具体业务的需求出发,着手NLP的研究。如今,神州泰岳已经在NLP领域实现了巨大的突破,“如果图像处理能被称为成熟期,那么NLP可以认为处于少年期。”李国东说,通常一项技术的准确率能达到85%左右,这项技术就能开始落地应用了。前几年,深度学习的发展让图像处理的成功率提到了90%以上,这使得图像处理能够走进市场,得以重用。

“现在NLP的成功率能达到80%左右,即将靠近85%。”李国东说,这意味着少年期的NLP很快将走出“象牙塔”,走向大规模应用。“可以发现,前年NLP的实际落地案例还没有那么多,但NLP的热度越来越高,去年开始落地案例也一个接着一个出现了,包括我们自己也在公安行业有很好的落地。”

公安是神州泰岳选择深耕重要领域之一,“我们已经扎根了两三年了。”

说起公安、警务,不少人都会联想到人脸识别。但人脸识别只是其中一个环节,笔录、审讯记录的整理也是必不可少的工作。通过整理文书,办案人员才能更好地挖掘出案件的蛛丝马迹,并进行串并案分析。这其中涉及文书的部分,就是NLP能够大展拳脚的地方。

去年,神州泰岳推出了面向公安行业的综合应用产品——“智脑2.0”,一款以人工智能-自然语言处理(AI-NLP)为核心,以极速计算、实体360°全息画像、数据共享为支撑的跨警种跨网域的产品,适用于公安全警种。

据了解,目前神州泰岳已与北京市公安局、广西公安厅、石家庄市公安局、太原市公安局、贵阳市公安分局等积极开展合作,并与北京锐安科技有限公司(公安部第三研

究所控股)战略合作、成立大数据生态联盟,共同开拓公安大数据市场。

“智脑2.0”拥有“类脑智能”,可对公安“人、事、地、案、物、组织”的数据信息进行智能化语义分析、线索挖掘、关联关系分析、数据碰撞比对等,从而辅助公安机关进行案事件侦察研判,增强破案实战效率。同时,“智脑2.0”还拥有融合共享的特性,可贯穿组件与组件之间的数据联动,页面联动、功能效果呈现等应对不同公安应用场景建设,可快速灵活地进行业务调整,满足公安系统的升级改造需求。其“360度全息画像”还能自动将碎片化的“人、事、地、案、物、组织”等独立的信息进行提炼融合,形成嫌疑人的360°全息画像。

最重要的是,“智脑2.0”独有的公安笔录文本分析功能,能通过感知智能技术和智能识别,对所有警员的有效研判动作进行记忆存储及分析,把海量的公安笔录全部阅读记录,并且进行提炼、归纳。将零碎的信息关联起来,为将来一键破案做足够积累。

公安只是神州泰岳NLP技术落地的其中一个场景,随着NLP技术的进一步成熟,神州泰岳的NLP技术还将应用到更多的场景中。“只要有语言、有文本的地方,都能用上自然语言处理技术。”李国东说,比如公检法司有大量的卷宗,NLP能根据文书内容生成摘要,提取文本重点,帮助工作人员快速找到需要的

资料;再例如专利审查领域,NLP能够辅助写作,协助专利文书分类,提升审查效率。

“当然,即使没有人工智能,这些工作依靠人力也一样能完成,但是有了技术的帮助之后,整个工作的效率将得到极大的提升。”李国东认为,无论对任何职业而言,经验都非常重要。但经验通常只能用时间来积累,这也是为什么“老警官”“老法官”显得异常“宝贵”。

而用了人工智能技术后,机器能够帮助行业新人快速总结出规律,得出经验。比如年轻的法官想知道某类型的案件在国内曾有多少起相似的案例,过往案件是如何判决的,机器能够快速找到相应资料,帮助法官总结相关经验,极大提高工作效率。

建平台,定标准,致力推动NLP应用

虽然NLP即将步入成熟期,但从“少年”过渡到“成人”,除了需要继续攻克技术难关外,NLP还面临着几座大山。一是NLP技术的“知名度”不足,许多人不知道该技术能怎么用,以

及该如何获取;二是学术研究与产业脱节的问题,掌握NLP最前沿技术的人几乎都在高校中,而最需要使用这项技术的人还在市场中苦苦寻觅;三是针对各个行业的语料库数据不足,导致落地时无法顺利推进。

针对NLP技术突破以及落地应用的难题,中文信息(深度)处理开放创新平台(简称中文信息平台)应运而生。据了解,该平台是在中国中文信息学会的指导和建议下,由中国中文信息学会指定的产学研落地唯一合作伙伴神州泰岳为建设和运营主体的产学研一体化平台。

“简单来说,这个平台就像是个NLP的淘宝。但它又不像淘宝那么简单。”李国东告诉亿欧,如果将NLP技术比喻成一件商品,目前国内最好的NLP都“滞留”在高校和研究院中,并没有被广泛地“用”起来,平台的作用就像是淘宝平台,将这些技术展示出来,那些不擅长NLP的人,就可以到这个平台上来挑选自己需要

的“商品”。

但NLP终归不是普通的商品,不能即拿即用,需要根据具体的行业进行调整和定制。因此,平台还配有专业人员,帮助技术的落地应用,让中文信息平台能真正发挥产学研的桥梁作用。

李国东告诉亿欧,中文信息平台的服务能够总结为“一云四块两线”。

“一云”是指平台是以云的形式呈现,让使平台服务随处可见、随处可用。

“四块”包含开放板块、创新板块、数据板块、培训互动板块。开放板块,顾名思义,是将行业解决方案、技术算法等开放给市场;数据板块提供行业训练数据集、评测数据集、大数据工具集等,为NLP发展提供“养料”;培训互动板块和创新板块更偏向于帮助技术落地,推动项目落地、技术推广,以及知识分享。

“两线”指的是“线上”和“线下”。线上采用公有云,提供技术及服务展示、服务功能和数据集的PaaS、SaaS调用,利用PaaS服务进行业务原型拼装。线上模式为租用模式,适用于中小微企业的人工智能应用开发,同时满足创新团队、在校学生进行二次开发和创新。线下采用私有云,按需为企业用户搭建完整的应用,更适用于大中型企业。

为更好促进中文信息平台中NLP技术的开放,并推动NLP成为更广泛的应用,去年神州泰岳还推出了“泰岳语义工厂”,定位“自然语言应用的Intel”,打造“Ultra NLP inside”模式,并将神州泰岳的 NLP 技术及服务开放,让 NLP 技术赋能应用开发 。

今年3月,OpenI启智新一代人工智能开源开

放平台盛大发布,OpenI是在国家相关部委的指导下,由新一代人工智能产业技术创新战略联盟(AITISA)组织,产学研用通力协作的新一代人工智能开源开放平台。神州泰岳不仅是AITISA组织NLP的推进组组长,也是OpenI上NLP方面提供开源内容的伙伴。

推动NLP的产学研结合,除了建立平台外,推动标准统一也十分重要。“现在看起来各家都在做不一样的事,但本质其实都一样。”李国东说,比如句法分析这类底层的技术,“大家用的方法都不太一样,但最终目的是一样的。”再例如各家的接口都不统一,虽然实现的功能相同,但却不能大规模推广。

李国东告诉亿欧,因此今年NLP推进组的一大课题就是推动标准化。“制定了标准,就能有更多标准化的应用扩展,NLP才能进一步得到推广和应用。”

附:2019全球人工智能产品应用博览会

2019全球智博会(http://www. ai-expo.org.cn),定于今年5月9日至11日在苏州工业园区举办。此次全球智博会由国家科学技术部、工业和信息化部和江苏省人民政府指导、苏州市人民政府和新一代人工智能产业技术创新战略联盟联合主办、苏州工业园区管理委员会、苏州启智创新科技有限公司承办。这场人工智能博览会的目标,是力争成为中国人工智能技术创新、产业发展和应用落地的风向标。