2016-08-22 15:46:33
来 源
InfoQ
大数据
归根结底,大数据最终是需要服务于具体的业务,解决实际业务问题,甚至帮助创造新的业务模式。

大数据,一个现今人人都在讨论的火爆话题。大数据是什么?怎么做大数据?大数据到底可以带来什么样的价值?相信不同企业、个人对其都有着不同的看法和理解,但是归根结底,大数据最终是需要服务于具体的业务,解决实际业务问题,甚至帮助创造新的业务模式。

在企业级大数据领域,明略数据在过去几年服务客户的过程中,创造性地引入大数据+知识图谱的思路,开发了一款名为SCOPA的大数据知识图谱产品,并且在公安、金融等多个领域取得了良好的实践效果。

本分享将系统地介绍SCOPA产品的设计理念、总体功能以及核心技术优势,并阐述SCOPA产品如何应对客户的具体应用场景以及围绕SCOPA如何打造先进的大数据整体解决方案。

明略数据技术合伙人黄桦分享了以下内容:

1,企业级大数据简析;

2,构建大数据知识图谱产品;

?知识图谱是什么?

?一个简单的工商企业的知识图谱;

?如何落地知识图谱产品?

?图数据库及其选型;

3,应用浅谈。

人物名片:

黄桦,明略数据技术合伙人,四年大数据领域从业经验,大数据技术和大数据产品开发的深度实践者。2014年作为早期员工加入明略数据,先后落地实践多个金融、公安等领域的大数据项目,积累了丰富的企业级大数据产品开发和项目落地的经验。目前是明略数据技术合伙人,带领团队负责SCOPA产品的关系规则引擎的研发及相关应用的实践,成功帮助多位企业客户构建了亿级实体、几十亿级关系的知识图谱网络。在加入明略之前,担任Paypal中国风险管理部门(Risk Management)的高级分析师,从事大数据量化分析和支付反欺诈风险模型建模等工作。在PayPal工作之前,在2012年于加拿大Simon Fraser 大学取得计算机硕士学位,2009年于北京邮电大学取得通讯工程本科学位。

▌以下为现场视频:

▌以下为现场采访:

InfoQ:各位InfoQ网友大家好!现在我们是在ArchSummit深圳大会的现场,作客我们现场的是明略数据技术合伙人黄桦。从最开始的语义网等概念,到现在的知识图谱,您觉得为什么现在知识图谱的概念能够火起来?

黄桦:语义网是一个宏观的概念,想把网络上的东西、电脑、手机更多的连起来,让他们互相能够认知到、能够识别,当初设计非常复杂,貌似也有个协议,跟网络通信协议类似,但是很难落地,只是有它的概念。但是知识图谱不一样,比较简单,就是点边属性这样的三维属性的图谱,所以可以落地。再加上这个数据越来越大,大数据时代,总量比较多,数据类别也比较多,这个时候非常自然想到,这么多数据以后如果还是孤立的看数据源,产生价值,实际上是线性累加的过程,把孤立的串在一起创造的价值可能是更大的效果。

InfoQ:您所了解的业界现在知识图谱的落地应用有哪些?

黄桦:落地应用挺多的,我们认识当中最早是在互联网搜索里面,读书的时候实习,微软亚洲研究院做了一个人立方,人立方是一个搜索引擎,刚开始落地的时候找的是学术圈发表论文的数据,跟学校之间的关系找到,把作者跟作者之间一起合作论文的关系刻划出来,然后带出来相关领域的合作者。最早的知识图谱是这样。慢慢的,谷歌在2012年、2013年放到他自己的算法里,增强他搜索的性能和准确度,慢慢的国内百度也在用,也是把图谱放到搜索里提高搜索的准确性。企业用的还是不多,刚刚开始兴起,我们公司算是比较前列的,探索一些场景,特别是在公安,昨天的分享中我也提到了,公安特别想知道一个真实的世界网络是什么样子的,因为他要抓嫌犯,很多时候犯罪分子不是孤立的个体或事件,是团伙性,团伙性的趋势越来越重,所以一定是需要关系网,才能更好的让公安去研判。

InfoQ:金融领域呢?

黄桦:金融领域更加关注一些风险的问题,像银行最大的问题就是风险问题,如果把风险控制好是可以赚很多钱的,更加希望在交易和帐户层面做一些风险控制,如果把交易的数据做一个比较好的Study的话,可以把帐户之间的关系连接起来,然后帐户之间的属性企事业能够建立一些关系。举个简单的例子,我开了一个帐户,没有用身份证,但是我填的时候一些信息相似度非常高,比如说某街某道,这些是有关联的。

InfoQ:SCOPA的知识图谱应用是结合什么数据库进行的?

黄桦:用的是Titan。

InfoQ:为什么会选择这种数据?

黄桦:这是一个很好的问题,我们做企业级市场的在技术选型包括用一些什么样的技术方面还是比较慎重,不会贸然,之所以选Titan是有选型的。

第一点是看这个数据库的整合度高不高,因为现在很多大公司已经有大数据平台,如果你跟他说部署这样一种产品地要增加什么什么这样的组件,跟大数据平台不是完全耦合化,对方很难答应的,对方说已经做了这个东西,已经有这个平台了,所以第一点一定是跟它平台的整合度、成熟度、对接度高不高,这是很关键的一点。

第二点,这个产品的性能问题,数据量大的情况下性能是很关键的,我们对Titan做过一些压测,还不错。

三是可扩展性。对于我们来说,我们很多产品都开了工具,Lisence就很好。

InfoQ:在应用知识图谱的过程中,您们是不是从零开始研究,还是以前就具有相关项目经验?

黄桦:我们公司是2014年成立的,开始是一些普遍的需求,慢慢数据量多了以后,平台搭起来以后,客户希望创造更大的用户价值,这时候传统的方式就玩不转了,我们后来做了一些调研,看其它同行和国外的公司是解决什么问题的,后来发现他们或多或少通过关联数据这样的路子,才能解决问题。我们2015年的时候尝试这样一个方向,正好我们有公安客户,他跟我们交流过程当中,发现关系网非常重要,基于他的场景慢慢在2015年开发,2016年已经有一套比较成熟的产品。

InfoQ:对于一个公司如果初次开始使用知识图谱,如何降低成本?

黄桦:降成本这块,我觉得尽量采用开源的技术,做这个产品的时候先想清楚要解决什么样的问题,很多技术人员很多时候为了验证我懂这个技术、我很强就做这个事情,但我建议在做图谱产品的时候最好还是发现问题,不用太大、太多,先找到一个问题,根据领域内的知识,需要哪些实体,要构建那些实体关系,有哪些属性和事件,这样出来以后基于开源的工具再去把这个系统搭起来。

InfoQ:跟业务是不是也有关系?您之前没有接公安项目的时候并不知道未来数据库选型是怎么样的,一个新的公司,假如他是电商领域的,肯定跟金融领域的做法不一样,您这方面有差异吗?

黄桦:有差异,图谱按照我们的理解是比较强属性的东西。

InfoQ:降低成本的话还是考虑行业的业务属性?

黄桦:对。比如你在工商行业,你关注的企业、法人、产品、行业这样一些实体的投入,但是在公安层面,他可能关注的是机构这样一些数据。

InfoQ:把原始数据转为知识图谱可用数据,在实践上您们遇到最大的困难是什么,如何解决的?

黄桦:刚才也讲了这样一个过程,我们碰到的最大的问题是对非企业化数据的处理,包括视频、图片,这是挺大的一个问题,我们现在文本做的比较好,有一套比较成熟的IOP的工具,它可以自动化的做一些文本。但是我们对视频、图像这块的处理做的并不太好,这块也在摸索,我觉得可能会采用业内其它同行的玩法。但是视频、图片对公安来说是非常重要的一个方面,光有文本的话不够,未来我们会往视频图片这方面整合。

InfoQ:学术界对图像识别处理比较超前,你们跟学术界有没有合作?

黄桦:有,我们公司的CTO是北大毕业的,他在学术界人脉挺广的,跟北大、清华、上交也有些合作。

InfoQ:据说您们的应用规模已经是在亿级实体、几十亿级关系了,那么在这样的应用规模下,准确度和实时性能如何?效果如何?

黄桦:效果还不错。你刚刚提到的亿级实体、几十亿级关系,这样的规模是我们在现实项目当中有碰到过的,公安的一些场景,公安处量还是非常大的,比如对省级的一个公安部门,有全省的信息,国内稍微大的一个省接近上亿人嘛,还有外来的,上亿的人和上亿的事件确实构成很大的规模,我们是可以提供他平常研判所需的,从一个实体人扩展他一些关系的话都是可以在两三秒左右得到结果,是非常好的体验。

InfoQ:这个关系链是不是有点像六度空间模型?

黄桦:对。六度空间模型更强调两个人之间通过不超过六个人认识,其实业务需求比较多样,有些是交互式的需求,看一个case的时候需要非常快的调出这个case的属性、关系人。还有一种是需要挖掘的业务模型的,比如说用一些图、算法和应有的知识做Offline的。

InfoQ:您们的产品主要应用公安,金融,那么对安全性的要求应该比较高,在安全性方面有哪些举措呢?

黄桦:我们最开始做公安的时候意识到安全确实是很大的问题,我们采取的方案从两方面入手:一个是从平台本身,把数据库做到极致,所有登录我们这个产品的用户都做到非常高的级别;二是对应用权限做的比较好,我们这个产品每个模块谁可以访问、做什么操作,都是可以控制的。比如我是市局的人登录省厅的,只能看到市里相关人员的属性,不太可能看到别的市的相关人员的信息,他要看的话需要申请。

InfoQ:大数据技术这两年跟早年云计算一样谈的比较多,但发展方向在我看来没有那么明晰,比如具体的业务领域上有些case跟大家讲,但是不像运算里就是SD技术就是一个趋势,大数据里没有这个,在您看来大数据以后的发展方向或趋势是往哪里走?

黄桦:趋势方面,我们还是把知识图谱或关系链这套理念用于更多的场景,因为我们现在在公安和金融做的比较多,但是我们也在调研,也在做思考,其它行业通过数据关联做事情也能产生更大的价值。在技术层,把我们的技术架构做的更细、更深。我们这套数据量可能上亿,几十亿,还不错的量,但是有更大的数据量在等着我们,我们跟其他人聊的时候,知道有些涉及到的数据量非常大,在技术方面怎么做更大的数据量,在数据量更大的情况下保证我们的关联计算、所有查询、交互都是很好的体验。

InfoQ:谢谢您。我们今天的采访就到这里。

▌以下为PPT全文:

注:本文系数据观综合自InfoQ、大数据杂谈,版权著作权属原作者所有。

声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。