首页 > > 2819

华傲数据贾西贝:数据无界 数据应用有界 隐私保护立法严苛但不详细

2018-05-10
来源:

        作为一家大数据服务提供商,“华傲数据”刚刚获得C轮融资,华傲数据联合创始人CEO贾西贝博士日前在“西丽湖科技金融大讲堂”发表演讲,认为目前已进入大数据+人工智能的风口,政府部门对隐私保护虽严苛但不详细,应该细化法律保护,厘清数据应用边界。据了解,贾西贝在大数据方面从事多年的科学研究,在国际顶级数据库会议和学刊上发表了多篇论文,是国家“千人计划”特聘专家。

  观点摘要:

       1、数据是什么?如果用国家的定义,数据是基础性战略资源。

        2、数据能做什么,一枚硬币有两面,数据这枚硬币也有两面,第一面刚才说了,数据能创造很多价值,华尔街的人都有失业的可能。

         3、科学无国界,但是科学家是有国界的。我就把这句话套用过来,数据是无界的,但是数据的应用是有界的,需要治理和监管。

        4、如果金融的本质是风控,风控的本质应该是大数据。

  以下为贾西贝演讲实录(该实录经演讲者本人核对并授权本报首发):

  人工智能这一波潮和数据的积累密不可分

  贾西贝:大家好,我叫贾西贝。今天我们是资本市场学院,在这儿我觉得应该感谢这个时代,这是一个有风口的时代,让我能从一个研究者变成一个创业者。今天也见到我们的投资机构,像刚才的东方富海、国家中小企业基金、深创投、深投控等投资机构,所以有时候说创业是一个很有魅力的事,从做研究到创业痛并快乐着。其实我原来的研究方向是数据库的原理和系统,我们公司的主要业务是在数据治理,特别是政府数据治理方向上。在金融方面也是非常需要数据的,特别是最近把数据和人工智能结合起来,在金融上有一些新的应用分享,好多公司都在探索,我们也是探索中的一家公司。

  

  我今天讲的是两个方面,一个是大数据和人工智能在金融应用方面的探索。因为今天的主题是“金融科技和金融监管”,我们做数据会对金融监管相关的数据监管和技术监管有一些体会,也和大家做一个交流。

  第一,大家都知道人工智能这一波潮和数据的积累密不可分。前几年的时候大家讲大数据,都讲3V、4V、5,我回过头来问一个很傻的问题,数据是什么?可能一千人有一千个回答,但其实是有一个权威答案的,因为我们国家在2016年有一个国家大数据战略,这是在十八届五中全会的时候决定下来的。数据是什么?如果你用国家的定义,数据是基础性战略资源。

  不仅是我们中国这么定义,大家看美国的《大数据研究发展计划》,在数博会上李克强总理的讲话,习主席2013年在中科院的讲话,这几个提法本质上都是一样的,是工业社会的自由资源。特别是习主席讲,谁掌握了数据谁就掌握了主动权、谁就掌握了未来。奥巴马说大数据是未来的“新石油”。最近一次习主席在中央政治局学习时的表达是,大数据是数据经济的关键要素。这一块就涉及到金融科技里面用的比较热的几个技术,这里面和我们相关的就是大数据、区块链、人工智能。

  人工智能是吃数据的

  首先数据是一种资源,或者是一种生产资料,按国家政策说是基础性战略资源,那区块链是什么?区块链链圈的人,我有好多链圈的朋友,大家张口就说区块链解决的是生产关系的问题,解决了怎么在分布式环境中保证透明、保证反篡改,保证公平这样一些事情。区块链解决的不是提升数据处理效率的问题,甚至于在区块链的交易里一秒钟大概7笔交易,当然现在有很多改进。我们原来的研究方向有分布式数据库,分布式账本本质上不是分布式数据库,更多解决的是生产关系的问题,它不是解决数据库怎么访问快的问题。人工智能是什么?人工智能是吃数据的,它吃了数据这种生产资料提升了效率,所以解决了生产力的问题。

  敏感数据天然难以买卖

  特别是人工智能,大家说人工智能的要素,原来说算法、算力和数据,现在有人讲ABCD,A是算法(Algorithm),B是业务场景(Business Scene),C是算力(Cloud)、D是数据(Data)。ABCD里面,目前如果做人工智能对它们的需求可能是不一样的,A和C是可以买的,技术是可以买的,实际上人工智能,随着算法的成熟、随着挖人大战的进行,A是可以买的。C更可以买,AI芯片是可以买的,很多算力是可以租的。B和D是比较难用钱解决的,特别是D。D有时候一买就违法了,这里面有个人信息保护的问题。后面我可以分享这个主题。敏感数据天然难以买卖,而真正有用的数据绝大多数都是敏感数据。

  大数据+人工智能改变这个世界是同步的

  大数据+人工智能正在改变我们的生活,这里面大家看到是国内特别热的无人驾驶汽车、机器人,包括我们熟悉的人脸识别、语音识别,也包括我们不太熟悉的机器人(智能)医生诊断、机器人(智能)律师和法官判案。原来开始华尔街写报告的时候,有人说人工智能这一波潮,机器换人改变了工厂的状态,东莞的工人要失业了。最后看到东莞工人失业的同时,可能不是前后脚,甚至是反过来,华尔街的人先失业了。高技能的医生、律师、投行人士未来可能跟东莞的工人是一起失业的。所以我们看到大数据+人工智能改变这个世界是同步的,是在各个角落里改变这个世界。

  大数据的世界里人是没有隐私的

  我是做数据的,做数据的人可能天生会看到一些趋势,比如在大数据的世界里人是没有隐私的。比如人脸识别,有一个很有趣的例子,现在家里的监控摄像头将来可能都有人脸识别的功能。比如说一个独栋别墅,在一个街边,它的门口监控摄像头对着门的里面是没有问题的,对着门的外面呢?如果这个摄像头更清晰一点,所有过这条街的人都被识别了,能知道每个人在这里走多少次,这个有没有法规说允许不允许。所以,新技术让数据的获取的广度大大提升,人的隐私受到了前所未有的冲击。

 

  另外一个可能现在还没像人脸炒得那么热,这个叫脑机接口,有的也叫脑控。前面我在一个公司体验脑控的无人机,我想让这个无人机翻跟头就翻跟头,我想让它往上飞就往上飞,但脑控的另一面其实是对脑电波的理解,换句话说,原来说测谎仪,要发挥狂野想象的话,脑机接口技术可以让测谎的场景变成读心术,如果人的心思都能被读出来,不仅是测谎,不仅是人的脸能被识别出来,所以数据获取的广度前所未有的多。在这样一个世界里,数据能做什么,一枚硬币有两面,数据这枚硬币也有两面,第一面刚才说了,数据能创造很多价值,华尔街的人都有失业的可能。当然通过AlphaGo这个事件大家都看到了数据+人工智能的威力,到AlphaZero的时候,这个时候已经不用那么多的训练数据集。

 

  比如说高盛600人的股票交易团队,逐步被机器人取代到只剩2个人,这可能比东莞的工厂还激进。美国摩根大通银行用自动机器几秒钟替代之前内部律师需要36万小时完成的工作量。德意志银行用机器算法交易员替代纽约的衍生品交易员等等,这样的事情正在发生。

  数据无界 数据的应用有界

  

  大数据和人工智能前所未有地深入到生活的每一个角落,这里面其实有监管的事情。我们看到大数据杀熟,我们看到大数据上的推荐算法用于内容推荐引起三俗的问题,我们看到大数据上的偏好分析用于政治领域的精准竞选引起的问题导致扎克伯格买了九个版面来为个人信息泄露道歉,我们老一辈科学家经常说,科学无国界,但是科学家是有国界的。我就把这句话套用过来,数据是无界的,但是数据的应用是有界的,需要治理和监管。

 

  金融监管要探索数据应用和科技应用的边界

  我再多套用一句,今天是金融科技的论坛,科技无界,但是科技的应用有界,需要治理和监管,这个边界在哪儿?所以我个人理解金融监管的一个重要内容就是要探索数据应用和科技应用的边界。比如我熟悉的数据领域,数据最成熟的一个领域是精准营销,也创造的巨大价值。但是再往前走一步,大数据杀熟也是一个精准营销,这个就有道德风险,且有违反《消费者权益保障法》的嫌疑。

  能抵制诱惑又赚钱的创业者最不容易

  再往前走一步,大家看到前一段今日头条张一鸣不是说睡不着了吗,抖音、快手等也用推荐算法,本质上也是精准营销,是内容的精准营销。当我们推广商品的时候用大数据+人工智能没问题,当我们推广内容的时候,有时候科技遇到监管的时候也是比较脆弱的。

  再往前走一步,我们看到前些年,特别是现在传销、电信诈骗、金融诈骗,背后都有大数据的推波助澜。所以数据应用的边界究竟在哪儿?当没有监管的时候,实际上是考验人性的时候。所以,有时候我说当创业者不容易,当个赚钱的创业者更不容易,最不容易的是当一个能抵制诱惑的赚钱的创业者。大家看到整个金融各个赛道里,很多时候就要抓一个政策真空期,在这个真空期里面能不能快速积累财富,这个时候没有监管引路的时候,对人性的考验是巨大的。

  监管紧跟金融创新比较好

  所以创业需要动心忍性,我是研究转创业,所以想得比较多,可能我想多了。但是这个里面我觉得金融监管的步伐不要比金融创新的步伐晚得太多,跟着就比较好。晚的太多,由乱到治,在政策真空期更多靠自律,人不断经受诱惑,人性不断经受考验。这其实不是一个好事。

  再看下一个,大数据可以做精准服务,我们国家提精准扶贫,在公益里面大数据可以发挥作用。精准公益行不行呢?有些精准公益,可能未必可以。如果再往前走一步,在宗教上能不能用大数据呢?可能是很难的。

  期待技术和数据的“万里长城”

  最后一个就是扎克伯格的问题,在政治上能不能用大数据,进行精准竞选,所以Facebook这次最大的罪过是突破了把数据用于政治的底线,影响了全球200多场选举。大家想一想,中国当然还没有这么重大的事件,如果有会怎么样。所以科技和数据应用的界限,科技和数据领域日新月异,这个界限是很难确定的。所以这个时候它的边界在那儿?当我们做首次代币发行ICO的时候,当我们对币圈、链圈有不同态度的时候,我们又要做数字货币的研究,这个边界在哪儿?我觉得是一个既考验人性又考验政策的事情。中国有万里长城,我们也希望在金融监管这块对技术的应用、对数据的应用有一个“万里长城”作为边界。

  大数据立法刻不容缓

  其实前面我在中国政法大学第一次中国大数据法治论坛上,就呼吁大数据立法刻不容缓,所以数据能干什么,给大家念一下:到2017年12月30日,全年公安机关当年累计侦破侵犯公民个人信息案件4911起,抓获犯罪嫌疑人15463名,打掉涉案公司164个。所以,数据监管应该成为金融监管里重要的不可分割的一部分。所以我们应该让金融创新,在监管的框架下稳步前行。

  金融的本质是风控 风控的本质是大数据

  大数据+人工智能在投资领域的应用,这个里面我不是金融出身的,我们这个团队有一些金融方面的资深的人士,今天我班门弄斧。当然第一个是金融市场的预测,这方面大家看到彭博社等都有一些成功的案例。包括风险信用,其实不管古代靠人还是现代靠计算机,本质人和计算机的底层都是数据,如果金融的本质是风控,风控的本质应该是大数据。

 

  这样里面像2016年彭博社用机器学习模型来预测上市公司的财报,这个准确率居然能达到60%,这个是超过预期的准确率,这里面也有日本三菱UFJ摩根的预测,达到68%,是预测日本股市的走向,也是这些年的进步。其实这些事情本身是很难的。在瑞士信贷等等都做了很多通过大数据在金融投资这块的尝试。

  金融投资是大数据应用的一片沃土

  我前面讲了硬币的另一面金融监管,现在讲投资,这里有一个联系,其实在金融风控方面用的很多数据是敏感数据。我刚才不断在问这个边界在那儿,大数据能干什么。金融投资就有一个好处,金融投资更多使用开放数据,特别是在股市投资、在贵金属投资上。这里面至少在数据的监管方面,这个边界是比较容易看到的,而且边界是比较高的,大家能用更多的数据,都是开放数据、公开数据。所以这个方面在金融投资里面是大数据应用的一片沃土。

  这一块以某证券公司为例,2012年该公司的净利润42亿,如果采用二代算法利润能提高17%,智能投顾和量化交易的算法;如果采用三代能提高26%,所以可节省720亿的交易成本。这里面数据的应用和人工智能的应用有巨大的空间。

 

  人工智能在金融领域不能一蹴而就

  但我切身的感受这不是一蹴而就的,在金融领域里用大数据,大家现在说人工智能有几大风口,至少我理解不比在自动驾驶汽车用人工智能更简单,它不像人脸识别、语音识别,或者是声纹识别,这个都能很清晰地定义出来,攻关了几十年,应用的场景比较简单,金融里有复杂的人的因素、有复杂的各方面的影响。所以我觉得在智能投顾,大数据人工智能在金融里面的应用也不会一下就突破,一下就取得辉煌成果。这是需要一步一步走的道路。

  我们看到,如果说2012年是机器人投顾的原点,到2014年就滚了140亿美元,从0点到140亿美元,这是非常快的。有调研说机器人顾问管理下的资产在未来十年之内能涨到5万亿美元,这有一个巨大的空间,也有一个非常艰难的路要走。虽然国内对智能投顾逐渐熟悉,大家都看到这里面还是有很多不清晰的东西,需要我们去克服,包括政策层面的、监管层面的、技术层面的,也包括业务层面的。

  这里看这个数据都非常兴奋,2017年高净值人群是58万亿,算法交易的有40万亿人民币的交易额,信用市场也有超过12万亿,这里确实有巨大的空间。我们看到大数据+人工智能在金融里面的应用,在国内也有十来年的历史,算法交易执行的创新,在上面投资策略的产生,能更多利用人工智能、利用一些算法,是更高一级别。

  现在的智能投顾更多讲大类资产配置,资产配置效率的创新。最后如果再往下发展,甚至包括金融行业的结构的变革,这个我理解是大数据和人工智能在金融投资这个领域发展的四个台阶。

  智能投顾亟待出现“一揽子”技术解决方案

  第三个方面我简单介绍一下,我们对智能投顾业务的探索。智能投顾业务一个重要的服务是服务我们的私募基金,特别是证券私募基金,这里面我们国家有2.22万亿的私募基金的实缴规模,其中私募证券基金管理人有8000多家。因为原来我们国家有很多是靠内幕消息,或者是看一些新闻去做。从大趋势来讲,现在越来越依赖看这个公司本身。

 

  其实要打一个不恰当的比喻,我觉得很像智能手机来临这个时代,我还记着开始智能手机很难做,后来突然有不到一年的时间就遍地开花了。为什么呢?因为有一个公司叫联发科,MTK,提供了芯片组“交钥匙”工程,一整套的,所以变成华强北的工厂或者说IT从业人员一两周就能做出一个智能手机。这时候在我们现在证券私募大家都还比较关心量化交易和智能投顾的时候,我们有没有一个像联发科能提供一个交钥匙工程“一揽子”方案这样一个技术解决方案。我觉得是市场所呼唤的,也正是我们目前正在提供的一个服务。

  数据的深度和广度会对金融投资产生巨大影响

  所以这里面首先是用什么技术,用大数据技术、人工智能技术,特别是人工智能里面像自然语言理解、语音识别。还有和大数据、人工智能、金融相关的知识图谱,通过这些来指导我们的投资。传统用的比较多的是相关类、信用类的数据,最近几年也比较热。特别是在投资领域,和投资密切相关的信号类的大数据资产走势预测等等,有了这些数据可以做智能交易、可以做策略开发,可以做大类资产配置,可以做FOF、MOM的管理,甚至将来还可以做ABS,通过这四大类的金融投资的系统来支撑。

  刚才我讲到现在数据的获取的深度和广度,可获得的数据源前所未有的多。其实再说一个例子,其中法律的问题大家要自己来判断。国际上有人做石油投资的时候,租用了卫星监测全球大的炼油厂,每天进去多少油罐车,出来多少油罐车,通过识别算法来计算,推动这个来预测油价的走势。在英国这样做的公司还是比较盈利的。

  如果我们监测每个人去全国主要的证券交易所,或者是在一些敏感部门,刚才我说人脸识别能布在那儿的话,如果在街口布满了人脸识别机器,就知道谁去了,大家去了多少人,现在前所未有获得的深度和广度的数据对整个金融投资实际上也会产生很大的影响。

  将来金融大数据是给机器读的

  原来金融大数据更多是给人读的,将来这个时代可能更多要给机读,从人读变机读,对数据本身的要求和对数据产生速度的要求变得更高了,人读是读不过来的,机读需要更细粒度的数据,比如tick级别的,在一秒钟之内会有很多据,这也提出一些新的挑战和一些新的要求。用这些数据来支撑智能投顾、量化交易、FOF等金融投资系统。我们这个团队也包括从高盛、瑞士信贷、JP摩根、中信证券等出来的金融专业人士,非常有幸我作为一个大数据方面的算法研究者,能和这样一个团队一起把大数据和人工智能算法和金融的业务碰撞结合,形成一些创新,我觉得这是一个非常好的时代。

  华傲集中做数据清理工作

  华傲成立开始就是一个大数据公司,在2013年的时候还被《哈佛商业评论》评为引领中国大数据发展的三家中国企业之一,另外两家是百度和腾讯。

  我们主要在数据清理这样一个领域。这个产品,是给专业人士用的,S++是一个策略生成的产品,里面内置了一些人工智能的算法。这里面其实也要说一个,前面讲到AlphaGo,很多人问说人工智能、深度学习现在在智能投顾里真正的应用怎么样,因为这里主流的还是很多传统的数据分析算法。

  比如说在日内交易里面,日内交易股票的买出卖出其实和AlphaGo的算法是有很大的相似性,很像下棋一步一步走,所以我们也把这样的算法在实验室里面测过,如果用到现在私募这种基金的投资上,在股市上,能在原有的年化收益率基础上其实可以至少增加百分之二三的收益率。因为它不改变原来的投资策略,所以也是可以大规模应用、非常有前景的一个技术。包括在中期、长期的投资策略的选择上,现在一些人工智能的算法也能起到不小的作用。应该说还是在快速发展、不断突破的时候。综合起来,可能能获得更好的收益。

  华傲在国内独立大数据公司中专利最多

  后面是我们公司的一个简要介绍,所以要感谢深圳市、广东省政府,我们也是广东省引进的“珠江计划”科研团队,也是深圳“孔雀计划”创新团队。我们比较重视技术和知识产权,目前据我所知应该是国内独立大数据公司专利申报最多的企业,我们申报了200多项发明专利,50多项国际专利,我们也参与了十余项国家标准的制定。其实数据应用的边界,一靠标准来勾画这个边界,二靠政策、三靠法律来。

  欧盟数据保护条例

  我们知道像欧盟GDPR《一般数据保护法案》今年5月25日要开始实施,其实这个有争议性的法律对于整个数据行业的影响会非常深远。这里面包括属人原则的引入,可能会使我们所有在中国、通过互联网提供服务的企业只要操作了任何一个欧盟公民的个人隐私数据就要遵守欧盟这部法律,所以它突破了国家的边界。现在通过互联网提供服务的公司这么普遍,比如说腾讯、百度、阿里、京东、摩拜、滴滴等等,大家想去欧洲去开展业务,或者是没去欧洲开展业务,都要遵守这样一部法律,这个法律规定还是很详细的。

  中国隐私保护严苛但不详细

  我们国家当然也很关注隐私问题,2017的《网络安全法》和《刑法》第253条的司法解释,使我们成为国际上个人数据保护立法最严厉的国家之一,但却是法律不细的国家,因为《刑法》第253条就这么长,加上《司法解释》也就几页,远远不如GDPR的详细程度。所以我觉得在金融监管里面也要参考数据立法,去监管我们数据在金融领域里面的使用,也避免大数据杀熟、大数据欺诈、过度大数据内容推荐,以及大数据来影响选举,这样事情的出现,还是需要这样的一部法律。

  政府是数据最碎片化的领域

  我们最主要的业务是在政府大数据这块,其实要说政府是数据最碎片化的领域。最近深圳刚出台的《智慧城市的规划》有这么一句话,叫“市民办事不出街,企业办事不出区”,这个比全国已经大大进步了一步。大部分地方是这么说的,“市民办事不出区,企业办事不出市”。这个话说的是什么意思,就是给老百姓办事的系统都在街道里、区里,数据也沉淀在这一级。我们国家有600多个城市、3000左右个区县,有四万街道。李克强总理讲中国80%的数据资源在各级政府机关手里,就在我刚才说的600多个城市、3000多区县和几万个街道。在每个地方还有几十个委办局,几百个单位,是在这些里面的碎片化数据。

  政府利用数据进行金融监管空间巨大

  目前习主席提数字中国,我们华傲数据也是数字中国国内比较领先的数据治理者和数据守护者,我们的梦想是为每一个城市、为每一个区县、每一个街道建一个数据“炼油厂”,建一个数据“加油站”,让这些数据能够更好地使用。当然这个使用是有边界的,受监管的。

  最后我想,希望整个政府对数据的使用也有助于金融监管,特别是利用数据对金融进行监管,政府做金融监管,政府做政府治理,未来也有巨大的空间。

  谢谢大家!

  图片及录音:齐晓彤

  录音整理:邓建乐 刘波

  文字编辑:齐晓彤 邓建乐

[责任编辑:鍾智维]
网友评论
相关新闻