« 上一篇下一篇 »

大数据时代互联网公司如何建设数据安全护城河

    Facebook数据走漏作业一度成为互联网职业的焦点,几百亿美元市值瞬间蒸腾,这个价值足以在地球上养活一支肯定巨大的安全团队,乃至能够直接收买几家规划比较大的安全公司了。

一、背景
Facebook数据走漏作业一度成为互联网职业的焦点,几百亿美元市值瞬间蒸腾,这个价值足以在地球上养活一支肯定巨大的安全团队,乃至能够直接收买几家规划比较大的安全公司了。
虽然媒体上宣布了许多斥责的言辞,但脚踏实地地讲,Facebook面临是一个业界难题,任何一家千亿美元的互联网公司面临这种问题,可能都没有太大的反抗力,仅仅是由于全球区域的法令和国情不同,暂时不被顶上言论的浪尖罢了。可是全球的趋势是越来越注重隐私,在安全范畴中,数据安全这个子范畴也从头被说到了一个新的高度,所以笔者就借机来说一下数据安全建造。(依照惯例,本文触及灵敏信息的部分会进行省掉处理或许一笔带过。) 
二、概念
这儿特别强调一下,“隐私维护”和“数据安全”是两个完全不同的概念,隐私维护关于安全专业人员来说是一个愈加倾向合规的作业,首要是指数据过度搜集和数据乱用方面临法令法规的遵照性,对许多把本身的盈利办法树立在数据之上的互联网公司而言,这个问题特别有应战。有些公司乃至把自己界说为数据公司,假如不必数据来做点什么,要么用户体会大打折扣,要么商业价值折半。GDPR行将施行,有些公司或将离场欧洲,就足见这件事的难度不容小觑。当然市场上也有一些特别推重隐私维护的公司,他们很大程度上并不能实在代表用户志愿,而仅仅由于自家没有数据或缺少数据,随口说说罢了。
数据安满是完成隐私维护的最重要手法之一。对安全有必定了解的读者可能也会察觉到,数据安全并不是一个独立的要素,而是需求连同网络安全、系统安全、事务安全等多种要素,只需悉数都做好了,才干终究抵达数据安全的作用。所以本文尽可能的以数据安全为中心,但没有把跟数据安全弱相关的传统安全系统防护悉数列出来,关于数据安全这个出题而言尽可能的系统化,又防止烦琐。别的笔者也计划在夏日和秋季把其他子范畴的论题独自成文,比方海量IDC下的侵略防护系统等,敬请期待。
三、全生命周期建造
虽然业界也有同学表明数据是没有鸿沟的,假如依照走漏途径去做可能起不到“完全治愈”的作用,但事实上以现在的技能是做不到无鸿沟数据安全的。下图汇总了一个全生命周期内的数据安全办法。
四、数据搜集
数据走漏有一部分原因是用户会话流量被仿制,虽然有点技能门槛,但也是发作频率比较高的安全作业之一,仅仅是许多企业没有感知到罢了。下面从几个维度来阐明数据搜集阶段的数据维护。
流量维护
全站HTTPS是现在互联网的主流趋势,它处理的是用户到效劳器之间链路被嗅探、流量镜像、数据被第三方掠走的问题。这些问题其实是比较严重的,比方电信运营商内部偶有作弊现象,各种导流绑架插广告(当然也能够存数据,插木马),乃至连AWS也被绑架DNS恳求,关于把握链路资源的人来说无异于能够发起一次“核战争”。即使方针目标IDC侵略防护做的好,攻击者也能够不经过正面浸透,而是直接仿制流量,乃至定向APT,终究仅仅看操作流量后抵达意图的收益是否具有性价比。
HTTPS是一个表面现象,它暗示着任何互联网上未加密的流量都是没有隐私和数据安全的,一起,也不是说有了HTTPS就必定安全。HTTPS本身也有各种安全问题,比方运用不安全的协议TLS1.0、SSL3,选用现已过期的弱加密算法套件,完成结构安全缝隙如心脏滴血,还有许多的数字证书本身导致的安全问题。
全站HTTPS会带来的顺便问题是CDN和高防IP。前史上有家很大的互联网公司被NSA嗅探获取了用户数据,原因是CDN回源时没有运用加密,即用户浏览器到CDN是加密的,但CDN到IDC源站是明文的。假如CDN到源站加密就需求把网站的证书私钥给到CDN厂商,这关于没有完全自建CDN的公司而言也是一个很大的安全隐患,所以后来衍生出了Keyless CDN技能,无需给出自己的证书就能够完成CDN回源加密。
广域网流量未加密的问题也要防止出现在“自家后院”——IDC间的流量仿制和备份同步,对应的处理计划是跨IDC流量主动加密、TLS地道化。
事务安全属性
在用户到效劳器之间还触及两个事务安全方向的问题。第一个问题是账号安全,只需账号走漏(撞库&爆炸)抵达必定数量级,把这些账号的数据汇总一下,就必定能够发生批量数据走漏的作用。
第二个问题是反爬,爬虫的问题存在于悉数可经过页面、接口获取数据的场合,大约1小时爬个几百万条数据是一点问题都没有的,关于没有完全脱敏的数据,爬虫的作用有时分等价于“黑掉”效劳器。账号主动地或被动地走漏+爬虫技能,培养了不少黑产和数据获取的灰色地带。
UUID
UUID最大的作用是树立中心映射层,屏蔽与实在用户信息的联系链。比方在敞开渠道第三方运用数据按需自主授权只能读取UUID,但不能直接获取个人的微信号。更潜在的含义是屏蔽个别辨认数据,由于实名制,手机号越来越能代表个人标识,且一般绑定了各种账号,更改本钱很高,找到手机号就能对上这个人,因而理论上凡是带有个别辨认数据的信息都需求“转接桥梁”、匿名化和脱敏。比方当商家ID能仅有标识一个品牌和店名的时分,这个原本用于程序检索的数据结构也一下子变成了个别辨认数据,也都需求归入维护范畴。
五、前台事务处理
鉴权模型
在许多企业的运用架构中,只需在事务逻辑最开端处理的部分设置登录态校验,后边的事务处理不再会出现用户鉴权,进而引发了一系列的越权缝隙。事实上越权缝隙并不是这种模型的悉数危害,还包含各种K/V、RDS(联系型数据库)、音讯队列等等,RPC没有鉴权导致可任意读取的安全问题。
在数据层只知道恳求来自一个数据拜访层中心件,来自一个RPC调用,但完全不知道来自哪个用户,还是哪个比方客服系统或其他上游运用,无法判别究竟对当时的数据(目标)是否具有完好的拜访权限。绝大多数互联网公司都用开源软件或修改后的开源软件,这类开源软件的特点是根本不带安全特性,或许只具有很弱的安全特性,以至于完全不适用于海量IDC规划下的4A模型(认证、授权、管理、审计)。
外面防护做的很好,而在内网能够随意读写,这可能是互联网职业的遍及现状了。首要矛盾还是鉴权颗粒度和弹性核算的问题,关于这个问题的处理计划能够参考笔者的别的一篇文章 《初探下一代网络阻隔与拜访操控》 ,其中说到Google的办法是内网RPC鉴权,由于Google的内网只需RPC一种协议,所以就规避了上述大多数安全问题。
关于事务流的鉴权模型,本质上是需求做到Data和App别离,树立Data默许不信赖App的模型,而运用中的全程Ticket和逐级鉴权是这种思维下的详细完成办法。
效劳化
效劳化并不能以为是一个安全机制,但安全却是效劳化的受益者。咱们再来温习一下当年Bezos在Amazon推广效劳化的一纸号令:
1)悉数团队往后将经过效劳接口揭露他们的数据和功用。
2)团队有必要经过这些接口彼此通讯。
3)不允许运用其他办法的进程间通讯:不允许直接链接,不允许直接读取其他团队的数据存储,不支撑同享内存办法,无后门。仅有允许的通讯是经过网络上的效劳接口调用。
4)他们运用什么技能并不重要。HTTP,Corba,Pubsub,自界说协议 – 无关紧要。贝索斯不在乎。
5)悉数效劳接口无一例外都有必要从头开端规划为可外部化。也就是说,团队有必要规划和规划能够将接口展现给外部开发人员。没有例外。
6)任何不这样做的人都会被辞退。
效劳化的结果在安全上的含义是有必要经过接口拜访数据,屏蔽了各种直接拜访数据的途径,有了API操控和审计就会便当许多。
内网加密
一些业界Top的公司乃至在IDC内网里也做到了加密,也就是在后台的组件之间的数据传输都是加密的,比方Goolge的RPC加密和Amazon的TLS。由于IDC内网的流量比公网大得多,所以这儿是比较检测工程才干的当地。关于大多数主营事务迭代仍然感觉有压力的公司而言,这个需求可能有点苛刻了,所以笔者以为用这些目标来衡量一家公司的安全才干归于哪一个档位是合理的。私有协议是不是?假如私有协议里不含有规范TLS(SHA256)以上强度的加密,或许仅仅信息不对称的哈希,笔者以为都不算。
数据库审计
数据库审计/数据库防火墙是一个侵略检测/防护组件,是一个强对立范畴的产品,可是在数据安全方面它的含义也是显着的:防止SQL注入批量拉取数据,检测API鉴权类缝隙和爬虫的成功拜访。
除此之外,对数据库的审计还有一层含义,是指内部人员对数据库的操作,要防止某个RD或DBA为了泄愤,把数据库拖走或许删去这种危险动作。一般大型互联网公司都会有数据库拜访层组件,经过这个组件,能够审计、操控危险操作。
六、数据存储
数据存储之于数据安全最大的部分是数据加密。Amazon CTO Werner Vogels从前总结:“AWS悉数的新效劳,在原型规划阶段就会考虑到对数据加密的支撑。”国外的互联网公司中遍及比较注重数据加密。
HSM/KMS
业界的遍及问题是不加密,或许加密了但没有运用正确的办法:运用自界说UDF,算法选用不正确或加密强度不合适,或随机数问题,或许密钥没有Rotation机制,密钥没有存储在KMS中。数据加密的正确办法本身就是可信核算的思路,信赖根存储在HSM中,加密选用分层密钥结构,以便当动态转换和过期失效。当Intel CPU遍及开端支撑SGX安全特性时,密钥、指纹、凭据等数据的处理也将以愈加平民化的办法运用相似Trustzone的芯片级阻隔技能。
结构化数据
这儿首要是指结构化数据静态加密,以对称加密算法对比方手机、身份证、银行卡等需求保密的字段加密耐久化,别的除了数据库外,数仓里的加密也是相似的。比方,在 Amazon Redshift 效劳中,每一个数据块都经过一个随机的密钥进行加密,而这些随秘要钥则由一个主密钥进行加密存储。用户能够自界说这个主密钥,这样也就确保了只需用户自己才干拜访这些秘要数据或灵敏信息。鉴于这部分归于比较常用的技能,不再打开。
文件加密
对单个文件独立加密,一般状况下选用分块加密,典型的场景比方在 《互联网企业安全高档攻略》 一书中说到的iCloud将手机备份分块加密后存储于AWS的S3,每一个文件切块用随秘要钥加密后放在文件的meta data中,meta data再用file key包裹,file key再用特定类型的data key(触及数据类型和拜访权限)加密,然后data key被master key包裹。
文件系统加密
文件系统加密由于对运用来说是通明的,所以只需运用具有拜访权限,那么文件系统加密对用户来说也是“无感知”的。它处理的首要是冷数据耐久化后存储介质可拜访的问题,即使去机房拔一块硬盘,或许从一块作废的硬盘上测验恢复数据,都是没有用的。可是关于API鉴权缝隙或许SQL注入而言,明显文件系统的加密是通明的,只需App有权限,缝隙运用也有权限。
七、拜访和运维
在这个环节,首要论述防止内部人员越权的一些办法。
人物别离
研制和运维要别离,密钥持有者和数据运维者要别离,运维人物和审计人物要别离。特权账号须回收,满意最小权限,多权分立的审计准则。
运维审计
堡垒机(跳板机)是一种针对人肉运维的惯例审计手法,跟着大型IDC中运维主动化的加深,运维操作都被API化,所以针对这些API的调用也需求被列入审计范畴,数量级比较大的状况下需求运用数据发掘的办法。
东西链脱敏
典型的东西脱敏包含监控系统和Debug东西/日志。在监控系统类目中,一般由于运维和安全的监控系统包含了全站用户流量,对用户Token和灵敏数据需求脱敏,一起这些系统也可能经过简单的核算得出一些运营数据,比方含糊的买卖数目,这些都是需求脱敏的当地。在Debug方面也出过Debug Log带有CVV码等比较严重的安全作业,因而都是需求留意的数据走漏点。
出产转测验
出产环境和测验环境有必要有严厉界说和别离,如特殊状况出产数据需求转测验,有必要经过脱敏、匿名化。
八、后台数据处理
数仓安全
现在 大数据 处理根本是每个互联网公司的必需品,一般承载了公司悉数的用户数据,乃至有的公司用于数据处理的算力逾越用于前台事务处理的算力。以Hadoop为代表的开源渠道本身不太具有很强的安全才干,因而在成为公有云效劳前需求做许多改造。在公司比较小的时分能够挑选内部信赖办法,不去过于纠结开源渠道本身的安全,但在公司规划比较大,数据RD和BI分析师成千上万的时分,内部信赖办法就需求被抛弃了,这时分需求的是一站式的授权&审计渠道,需求看到数据的血缘承继联系,需求高敏数据仍然被加密。
在这种规划下,东西链的老练度会决议数据本地化的需求,东西链越老练数据就越不需求落到开发者本地,这样就能大幅提高安全才干。一起鼓舞悉数核算机器化&程序化&主动化,尽可能防止人工操作。
关于数据的分类标识、散布和加工,以及拜访状况需求有一个大局的大盘视图,结合数据运用者的行为树立“态势感知”的才干。
由于数仓是最大的数据集散地,因而每家公司关于数据归属的价值观也会影响数据安全计划的落地形状:放逐+检测型 or 阻隔+管控型。
匿名化算法
匿名化算法更大的含义其实在于隐私维护而不在于数据安全(关于隐私维护部分笔者计划别的独自写一篇),假如说对数据安全有含义,匿名化可能在于削减数据被乱用的可能性,以及削弱数据走漏后的影响面。
九、展现和运用
这个环节泛指许多的运用系统后台、运营报表以及悉数能够展现和看到数据的当地,都可能是数据走漏的重灾区。
展现脱敏
对页面上需求展现的灵敏信息进行脱敏。一种是完全脱敏,部分字段打码后不再展现完好的信息和字段;另一种是不完全脱敏,默许展现脱敏后的信息,但仍然保存检查明细的按钮(API),这样悉数的检查明细都会有一条Log,对应审计需求。详细用哪种脱敏需求考虑作业场景和功率归纳评价。
水印
水印首要用在截图的场景,分为明水印和暗水印,明水印是肉眼可见的,暗水印是肉眼不可见暗藏在图片里的辨认信息。水印的办法也有许多种,有反抗截屏的,也有反抗摄影的。这儿面也触及许多对立元素纷歧一打开。
安全鸿沟
这儿的鸿沟其实是作业网和出产网组成的公司数据鸿沟,由于作业移动化程度的加深,这种鸿沟被进一步含糊化,所以这种鸿沟实际上是逻辑的,而非物理上的,它等价于公司作业网络,出产网络和支撑MDM的认证移动设备。对这个鸿沟内的数据,运用DLP来做检测,DLP这个名词很早就有,但实际上它的产品形状和技能现已发作了改变,用于应对大规划环境下重检测,轻阻断的数据维护办法。
除了DLP之外,整个作业网络会选用BeyondCorp的“零信赖”架构,对整个的OA类运用完成动态拜访操控,全面去除匿名化拜访,悉数HTTPS,依据人物最小权限化,也就是每个账号即使走漏能拜访到的也有限。一起提高账号走漏的本钱(多要素认证)和检测手法,一旦检测到走漏供给长途擦除的才干。
堡垒机
堡垒机作为一种备选的办法首要用来处理部分场景下防止操作和开发人员将灵敏数据下载到本地的办法,这种办法跟VDI相似,比较厚重,运用门槛不高,不适合大面积遍及推广。
十、同享和再分发
关于事务盘子比较大的公司而言,其数据都不会是只在自己的系统内流转,一般都有敞开渠道,有贯穿整个产业链的上下流数据运用。Facebook作业曝光其实就归于这类问题,不敞开是不可能的,由于这影响了公司的内核—-赖以生存的商业价值。
所以这个问题的处理计划等价于:1)内核有限退让(为保证用户隐私献身一部分商业利益);2)一站式数据安全效劳。
防止下流数据沉积
首要,悉数被第三方调用的数据,如非必要一概脱敏和加密。假如部分场景有必要查询明细数据,设置独自的API,并对账号行为及API查询做风控。
其次假如本身有云根底设施,公有云渠道,能够推进第三方上云,然后进行:
1)安全赋能,防止一些因本身才干缺乏引起的安全问题;
2)数据会集化,在云上会集之后利于施行一站式全体安全处理计划(数据加密,风控,反爬和数据走漏检测类效劳),大幅度下降外部危险并在必定程度上下降作恶和贼喊捉贼的问题。
反爬
反爬在这儿首要是针对揭露页面,或经过接口爬取的信息,由于脱敏这件事不可能在悉数的环节做的很完全,所以即使经过许多的“揭露”信息也能够进行会聚和数据发掘,终究构成一些比方用户联系链,经营数据或辅佐决议计划类数据,造成过度信息发表的影响。
授权审阅
设置专门的团队对敞开渠道的第三方进行机器审阅及人工审阅,制止“无照经营”和虚伪三方,提高歹意第三方接入的门槛,一起给开发者/协作方公司诺言评级供给根底。
法令条款
悉数的第三方接入有必要有严厉的用户协议,清晰数据运用权利,数据发表约束和隐私维护的要求。像GDPR一样,清晰数据处理者人物和惩罚公约。
十一、数据毁掉
数据毁掉首要是指安全删去,这儿特别强调是,往往数据的主实例简单在视界范围内,而把备份类的数据疏忽掉。
假如期望做到快速的安全删去,最好运用加密数据的办法,由于完好覆写不太可能在短时间内完成,可是加密数据的安全删去只需删去密钥即可。
十二、数据的鸿沟
数据管理常常触及到“鸿沟”问题,不论你承不承认,鸿沟其实总是存在的,只不过表达办法纷歧样,假如真的没有鸿沟,也就不存在数据安全一说。
企业界部
在不逾越网络安全法和隐私维护规则的状况下,法令上企业对内部的数据都具有肯定操控权,这使得企业界部的数据安全建造实际上最后会转化为一项运营类的作业,应战难度也无非是各个事务方推进落地的本钱。但对规划比较大的公司而言,光企业界部自治可能是不行的,所以数据安全会衍生出产业链上闭环的需求。
生态建造
为了能让数据安全建造在企业界部价值链之外的部分愈加平整化,大型企业可能需求经过投资收买等手法获得上下流企业的数据操控权及规范拟定权,然后在大生态里将自己的数据安全规范推广究竟。假如不能掌控数据,数据安全也无从谈起。在话语权缺乏的状况下,实际挑选是供给更多的东西给协作方,也是一种数据操控才干的延伸。
十三、ROI和建造次序
关于许多规划不大的公司而言,上述数据安全建造手法可能真的有点多,关于小一点公司即使什么事不干可能也消化不了那么多需求,由于开源软件和大多数的开发结构都不具有这些才干,需求DIY的成分很高,所以咱们整理一下前置条件,优先级和ROI,让数据安全这件事对任何人都是能够接受的,当然这种状况其实也对应了一些创业空间。
根底
账号、权限、日志、脱敏和加密这些都是数据安全的根底。一起还有一些不完满是根底,但能体现为优势的部分:根底架构一致,运用架构一致,假如这两者高度一致,数据安全建造能事半功倍。
日志搜集
日志是做数据风控的根底,但这儿面也有两个比较重要的要素:
作业网络是否BeyondCorp化,这给数据风控供给了极大地便当。
效劳化,悉数的数据调用皆以API的办法,给日志记载供给了一致的办法。
数据风控
在数据安全中,“放之四海皆准”的作业就是数据风控,适用于各类企业,结合设备信息、账号行为、查询/爬(读)取行为做风控模型。关于面向2C用户类,2B第三方协作类,OA职工账号类都是适用的。详细的战略思维笔者计划在后续文章《侵略防护系统建造》中详细描述。