《财经大讲堂》编者导读:在个人信用、企业信用画像技术日益发达的今天,微众银行、阿里小贷面向小微商户和企业正常贷款的不良率已降至极低水平,那么民众和小微企业是否开始感受到整体金融环境已经足够便利安全了呢?记者近日了解到的数字并不乐观,国内近十万亿消费信贷市场近两年不良率快速攀升,有业内人士估算,目前超过2500亿的消费信贷不良余额中,超过一半比例来自于互联网金融领域、移动经济领域,坏账高发的直接原因就是猖獗且变化多端的各类欺诈。
作为从事安全风控工作超过十年的反欺诈专家,腾讯安全反诈骗实验室负责人王海波日前在资本市场学院主办的第二期《西丽湖金融科技大讲堂》上,与听众分享了多年来反欺诈的风控技术与成功实践,腾讯安全反诈骗实验室近年来战绩斐然,先后为数百家金融机构提供防控风险服务,每天应战数千万次羊毛党欺诈并阻止数亿元的可疑资金支付转移。
王海波也用大量数据描述了中国互联网领域、移动经济领域不法分子猖獗欺诈的严峻现实,比如大量不法分子利用CNN神经网络破解图片验证码,破解实现了自动化,成功率超过83%,已经超过人类填验证码的成功率,许多大公司风控系统都被击穿。因为是自动化的,这样的操作几乎没什么成本。仅仅2017年一季度破解259亿次,影响范围极广。
据王海波分析,当前大量的骗贷、薅羊毛、电信诈骗依托的是超过千亿元规模的数据黑产市场,职业羊毛党已经实现了周密的行业分工合作,大量公民隐私信息数据泄露,内外勾结、黑客攻击、网络爬虫成为隐私数据泄露的三大主要源头。王海波认为 “即使金融机构采用了面部识别、指纹、大数据等技术进行安全防护,仍然可能留下被犯罪分子利用的漏洞,一旦隐私信息泄露,犯罪分子可以全网仿冒欺诈。”
据记者观察,目前某些国资机构营销场景的欺诈行为不乏内外勾结、监守自盗的情形出现,中国公安部的网警、刑侦、经侦与国内金融系统、监管系统以及腾讯反欺诈技术部门的联合防范、查处机制、打击力度亟待加强,单凭腾讯这样的技术性公司解决日益泛滥的金融欺诈是远远不够的。(财经大讲堂栏目主编齐晓彤)
嘉宾简介:王海波,腾讯安全反诈骗实验室负责人,从事安全风控工作超过十年。
2015年,王海波开始将安全大数据应用到金融业务风控上,其主导设计的风控模型已经服务于数百家金融机构,取得了良好的效果。目前,腾讯反诈骗实验室综合运用三种方法,每天发现千万级的羊毛党欺诈行为,帮助企业客户保护注册、登录、营销、ugc等业务的安全运营。
核心观点:
中国金融零售场景的变化给银行在获客、进件和交易等方面都引入一些新的风险,比如说以前少见的羊毛党、多头借贷、网络黑中介、在线支付盗刷,这些问题在非接触和实时交易中变得越来越多,以往依赖风控专家+技术团队的模式面临严峻挑战。
支撑黑产的非法数据交易规模超过千亿,甚至超过了合规的大数据市场,为应对这种威胁,风控行业在技术上也做了升级,通过描画黑产知识图谱,运用大数据、机器学习、AI这些技术,识别黑产典型特征,对各类欺诈进行建模打击。
演讲摘要:
以下内容为嘉宾演讲实录的一部分,经演讲嘉宾王海波本人反复核对修改并授权在香港商报《财经大讲堂》栏目刊发:
各位金融行业的专家下午好,今天非常荣幸有机会能跟大家在一起探讨大数据风控在金融行业中的应用。主要分享三方面的内容:一是新的业务风险;二是大数据风控技术;三是一些实践案例。
新的业务风险
过去几年,在消费升级的背景下,中国金融零售业务变得更加普惠和快捷,表现出两个显著的特点:一是场景化、在线化。产品服务体验变得越来越好,秒批秒放和在线的实时交易越来越普遍。另外一个特点是金融业务覆盖更多的金融弱势人群,这些人群普遍缺少信用历史。
这种业务场景的变化给银行在获客、进件和交易等方面都引入一些新的风险,比如说以前少见的羊毛党、多头借贷、网络黑中介、在线支付盗刷,这些问题在非接触和实时交易中变得越来越多,带来了巨大的风险,2016年不良消费信贷规模超过2000亿,这里面一半以上都是来自于互联网金融。
巨大的利益滋生了围绕金融行业的新的黑色产业链。不法分子互联网化、科技化的运作,他们对于病毒木马、恶意工具、大数据、AI的应用,可能比金融行业很多从业人员起得更早。黑产在大数据方面已经形成一套分布式的数据窃取、处理、交易和传播的产业链条,大量公民隐私数据在网络上传播。
据估算,网络黑产的市场规模超过千亿,这么大的市场规模,从某种意义上说,支撑黑产的非法数据交易规模甚至超过了合规的大数据市场,对于意图利用风控漏洞实施欺诈的人来说,现在可以轻松获取大量的欺诈身份信息,放大欺诈规模。应对这种威胁,风控行业在技术上也做了升级,最近几年大数据、机器学习、AI这些技术得到了广泛的应用。
围绕这大数据欺诈和风控,产生了持续的数据和技术的对抗。举一个例子,2017年警方破获了一个代表性的黑产运用AI技术破解验证码的案件。我们知道验证码可以避免高频率的攻击,如果某个IP可疑的请求比较多,可以发送验证码给它,攻击者要填验证码才能继续下一步操作,这必然导致攻击频率下降。传统的破解验证码的方式是组织码农,把收到的图片验证码发给码农,让他们人肉识别验证码内容,这种方法有一定的成本,对于风控行业的从业人员来说,提升风控能力,让攻击获利小于他的攻击成本,攻击者无利可图,攻击就会失败。
在这个案件中,不法分子利用CNN神经网络破解图片验证码,破解完全是自动化的,破解成功率超过83%,已经超过人类填验证码的成功率,各大公司风控系统都被击穿。因为是自动化的,这样的操作几乎没什么成本。仅仅2017年一季度破解259亿次,影响的范围是以前不可比拟的。
从行业的发展看,大数据和AI技术已经成为风控行业的必修课。
大数据风控技术要点
接下来谈一下个人在大数据风控方面的一些感想。包括对大数据风控要点,以及方法论。
大数据风控包括三个要素:数据、计算平台、决策引擎。数据决定了风控的天花板,是风控的基石。决策引擎决定了我们接近天花板的程度,计算平台决定决策引擎的研发效率,现在已经有很多组件甚至云服务,就不展开讨论,我们主要讲一下数据和决策引擎。
对于数据,大家比较容易想到的是在市场上买一些多维度的数据,往往容易忽视的是自己的业务数据,这里有很大的可挖掘的空间。
外部数据有个缺点是可能会有片面、缺失、静态的问题,而业务数据是我们可以获取的最全面准确的数据,当一个客户进来,任何一次用户的点击行为,一次操作序列甚至历史贯穿所有的行为轨迹,背后都蕴藏着后续AI引擎所要分析建模时必须要的数据、信息。作为对业务数据的记录来说,时间轴和行为两个纬度必须能做到全面的跟踪,我们相信凡走过必留痕迹,同时对于单次操作行为的记录要是完整的,能在时间、地点、人物、工具、攻击受众、攻击动作方面不能有缺失,只有做到了贯穿整个生命期以及对用户每个行为完整的记录,这才是完整的大数据。
拿到数据后还要做一些加工,建立数据仓库供决策引擎使用,基本的数据处理包括ETL处理,以及对数据特征的升维。举个例子,我们拿到对一个客户的每次交易流水很简单,蕴含的信息很少,但是如果对它升维,比如升维一次,得到跟每个对手的交易次数,信息就更丰富一些;如果再做一次升维,对交易对手再做一次特征的划分,得到和熟人交易的次数、交易的比例,对客户的刻画就更清晰了。这种数据的升维,其实里面很考验风控专家的行业经验。
另外对数据仓库需要做到分层设计,最底层是原始数据,层级越往上走,得到的是越高维的数据。这么做的好处是:一方面风控业务团队不用穿透层层数据,每次从最底层数据开始计算,节约开发成本;另一方面分层设计在高维为策略建模提供了统一的操作界面,统一大家对数据的理解,因为不同的人去计算底层数据,可能因为思路和方法不一样,导致同一份数据用下来出现两个高维结果变量,引起后续逻辑的混乱。
在决策引擎方面,那是不是AI引擎就是最好的呢?我觉得这跟团队所处的阶段、团队的准备度有关。需要建立起适合团队的决策引擎。
当前金融行业主流上采取的是专家模式,这是目前的欺诈构成、数据的准备度以及技术团队的构成是有关系的。如果欺诈的问题是很有限的,技术团队对这些问题也很了解,同时我们又能找到解决这些问题的关键数据,专家模式就会很有效。这也是过去一些年银行的卡中心普遍采用专家模式的原因。
最近的形势有些变化,我们已经进入相对陌生的业务场景,有大量之前没有服务过的陌生用户,有大量的在线实时交易,我们没有识别欺诈的关键有效变量了,就需要使用大数据、AI发现风险。
下面是一些大数据的经典风控模型。
两个比较经典的机器学习模型是评分卡常用LR,以及BOOST类模型,LR是银行常用的模型,解释性强,但是对专家的依赖度很高,因为它是线性的,需要专家提前准备好风控变量,像刚才我们介绍在数据仓库的构建中,需要有人对数据做升维的动作,这是很依赖风控专家,风控专家变量准备得好,LR模型就会起到比较好的效果。XGBOOST是非线性的,可以自己组合、发现隐藏的复杂欺诈特征,因此它的研发效率更高,对行业专家的依赖性更低,更适用在数据纬度复杂的场景下,因此大数据风控团队常会喜欢着用模型。
无论是LR还是XGBOOST都是基于统计变量的模型,它会损失一些信息,比如说时间纬度上的信息,举个例子,假设某些欺诈总是存在这样的操作序列,先A后B后C,三个操作动作前后排列,这种特征在统计上很容易损失掉或者描述不准确,但通过LSTM这样的深度学习模型就可以解决。
第三种场景是对于欺诈团伙的挖掘,我们可以通过一些图的方式进行,可以通过社团划分的办法,从庞大的用户数据里找出可疑的黑产集合,然后通过一些网络层级分析的算法提取出核心的团伙,再对核心团伙进行角色分析,把团伙的组织关系梳理清楚,风控团队可以很容易的通过图来发现欺诈问题。对于在线实时风控来说,还需要通过一些图向量化的方法,把图结构的知识、信息转化为机器学习模型所需要使用的风控向量,再纳入模型建模使用。
在实际的工作中,除了运用这些要素进行风控以外,还有一些方法准则可以帮助我们提高工作效率。
首先是要有能力感知到风险。比如一天有多少可疑进件,没有处置的还有多少。有一些常见的感知方法,包括异常检测的技术,比如说通过分析方法发现一些数据分布上的差异。另外是情报能力,大家有的时候去买一些情报,还有蜜罐技术,设置一个风控漏洞诱导攻击。
感知了以后打击欺诈可以有个三板斧的节奏,逐步建立完备的风控系统:第一阶段是具备一些生命线的风控能力,比如说满足监管要求;第二阶段,利用二八原则解决关键问题;第三阶段是充分的运用大数据,结合业务数据、AI技术去做风控,这里可能风控团队和产品团队,外部数据方会有很多合作,研发成本更高。
最后,风控必须是可评估的,可评估的系统才是可迭代运营的。我们用业务数据去闭环,这里有一定的滞后性,可能造成了一定的损失后才能发现,我们也可以通过多个模型的交叉比对等方法来做评估。
腾讯安全反欺诈实践案例
接下来介绍两个具体的风控案例,包括进件和营销方面的反欺诈。
第一个案例是信贷进件。信贷进件欺诈是金融行业主要的欺诈风险,表现为冒他人身份申请,黑中介包装资料,逾期黑名单、多头贷款,发现漏洞后利用工具批量申请。对于金融机构来说,一个用户利用新的进件,需要一些外部大数据进行反欺诈支持。
我们通过把多场景的黑产数据组成成知识图谱,通过黑产的知识图谱,我们能比较容易、比较形象的发现他们的一些关系,知道一些描述欺诈的关键点,这比较形象帮助我们发现了一些欺诈风险,不过这还不太适合机器来识别,为了把它转化为机器的风控模型,我们对图结构进行处理,通过图结构的向量化得到用于建模的向量,通过机器学习技术对数据进一步升维,并挑选出可以描述黑产欺诈的显著特征,对进件欺诈建模打击。目前风控模型已经服务于数百家机构,取得了良好的效果。
第二个案例是营销活动。职业的羊毛党已经实现了周密的行业分工合作,有专门提供各类工具的,比如打码平台、虚拟主机、代理IP... 每次企业做营销活动时,职业羊毛党就可以使用这些工具拼接起来薅羊毛,薅到的羊毛再交给下游分销团伙去变现获利。
营销欺诈问题的解决,模型上来说可以抽象为异常流量检测问题。有三种经典的解决方案。第一种方案是五到十年前比较常用的,基于统计分析的方法,比如检测数据的分布,对于异常的分布区间认为是欺诈。第二种方案是监督学习,比如拿到一些标注样本,然后通过LR、XGBOOST这些方法去学习欺诈特征。第三种是用过一些非监督的方法来发现,需要用到一些聚类算法、AI算法,图算法来在没有标注样本的情况下挖掘异常流量。
腾讯反诈骗实验室综合运用了这三种方法,每天发现千万级的羊毛党欺诈行为,帮助企业客户保护注册、登录、营销、ugc等业务的安全运营。