快捷搜索:

您的位置:环球彩票登陆 > 环球彩票登陆 > 企业要如何防御恶意 bot 流量?环球彩票登陆

企业要如何防御恶意 bot 流量?环球彩票登陆

发布时间:2019-10-19 20:40编辑:环球彩票登陆浏览(154)

    广义的爬虫并不是仅仅定义为“爬数据”,恶意的黑客利用一些自动化程序“爬虫”来进行业务攻击和欺诈,例如撞库、占座、抢票、刷排名、接口滥用、刷红包等,趋利特征非常明显。常见爬虫主要会集中在类似航空、电商、咨讯、数据、金融、旅行等一些存在高价值数据、原创内容、高获利点的行业中。

    一.运营人员采用的方案

    解决方案

    难但并不是没有办法。和爬虫的对抗就像一场博弈,我们利用云上生态的优势降低防护成本,提高识别检测的实时性和精准度,逼得爬虫用来伪装的成本高于爬虫的获利时自然会放弃。我们建立独立的检测系统和防护体系,围而不全杀;用AI智能模型识别爬虫,让爬虫难以察觉识别逻辑而减缓变异进度;用人机的验证手段,做第二层的引擎判断,更灵活的对识别结果做处置,进一步减少对正常用户的误报。爬虫风险如何有序管理

    1. cookie支持

    环球彩票登陆 1

    跨多行业的爬虫行为分析,利用关系网络进行恶意爬虫的扩充发现。

    由于 cookie 门槛低,所以大家想到的就是浏览器支持的 js 技术。如果一个普通的 bot 程序支持 js ,问题则会复杂很多,但也可以实现。

    基于以上特征,黑客能高度模仿真实用户的行为,这对企业的防御手段提出了巨大挑战。传统的CC防御将重心放到了伪装网民(主要是浏览器)访问的识别上,但对于API接口来说,正常的访问请求很大可能不是来自浏览器,而是来自机器。因此,要从这些机器中识别出哪些是真正的用户、哪些是黑客控制的“肉鸡”成为难题。

    云端有技术专家负责产品的规则更新,迅速解决实时风险。

    作为一个网站的运营技术人员,当网站受到恶意 bot 的攻击时,例如爬虫或者扫描类行为,一般有以下 2 种解决方法:

    截至当日20点25分,黑客“肉鸡”已被全部封杀,QPS迅速回落,客户业务恢复正常。攻击者因没有更多可以利用的“肉鸡”,只能偃旗息鼓,鸣金收兵。

    产品优势突出

    二.技术人员采用的方案:

    环球彩票登陆 2

    沉淀网络上黑灰产的百万级已知针对性爬虫风险的IP/UA黑灰产数据。

    形象化描述就是比如一个购物网站,用户访问的路径可能为先登录,或者不登录直接进入主页搜索商品,或者逛街一样的浏览首页上的商品,查看类似商品选择购买或者不购买,最后退出。这就是一个合理的访问。假如一个访问一直在访问某类商品的价格,它是一个不合理的访问。如何度量这种合理和不合理呢? 隐马尔科夫的预测问题即可描述。

    在集群整体性能不足或某个节点故障时,UEWAF可自动屏蔽故障节点并开启备用节点,保障业务继续开展。同时,针对日益频繁的CC攻击,UEWAF特别建立了Anti CC隔离集群,在应对规模较大的CC攻击时,遭受攻击的域名流量会被牵引至Anti CC隔离集群,避免造成其他正常客户业务的波动。

    持续对抗的过程中,爬虫也是会学习进化的,从最初简单自动化脚本会逐步演变成模拟正常用户的访问请求,模拟小区宽带IP,模拟页面浏览停顿操作,模拟正常业务流程路径等等,我们变得越来越难识别恶意爬虫。

    3)存在大量的资源文件的页面,会导致请求该页面时的关联请求激增;

    发现问题

    难点其二在于业务渠道的多样性。行业的互联网化快速发展,尤其是移动端的兴起,一般客户业务中除基础的Web端外,移动端的H5/APP/小程序等也占据较大的业务流量。而爬虫往往攻击的是所有渠道中防护最薄弱及攻击成本最低的业务渠道,会持续在各渠道中切换尝试发现防护短板。如果防护方案比较单一,容易在对抗过程中产品顾此失彼的状态,最终防护失效,仍然造成业务影响。

    攻击者需要绕过这两种检测方法比较困难。极大的提高 bot 的成本,也是 bot 检测的目标之一。

    本文由『UCloud安全团队』原创,未经允许不得私自转载,比心~

    环球彩票登陆 3

    UCloud 使用创新的信息熵算法来检测会话的异常值度量。如果攻击者 bot 使用伪随机的时间间隔发起请求,该算法还能检测出来么?答案是的。大家可能疑惑,随机请求肯定会导致熵的增加,代表着系统的规律信息的减少。但是我们的熵算法也是会学习进化的,同样能检测出这种 bot 的请求。请看下面测试数据:

    7月7日20点15分,UEWAF安全运营团队接到客户紧急求助,客户反馈其多个域名遭到CC攻击,业务全部中断。

    云上资源是可以随时弹性扩容的,针对高峰业务能够自由收缩,帮助客户解决因大促等问题需要扩充机器而带来的成本。

    行为分析技术一般都是安全类公司的实现方案,具体方案上存在一定区别。有简单分析客户点击节奏、时间等属性的,也有比较复杂的学习模型。作为乙方公司,一般难以实现到行为分析模型这个级别,主要是成本和技术上的考量。

    (2)黑客做了充足准备,分析了该游戏客户端的业务逻辑,攻击请求与客户端真实请求相似度极高。

    当前产品防护场景主要集中在:

    将访问的 url 看成随机变量,大家知道 http referer 表示当前页面是从哪个页面链接过来的。因此直观上,url 的转换是一阶马尔科夫过程。也可以当做多阶马尔科夫过程,本质上是多阶马尔科夫过程,但是为了简单化,一阶也足够。

    近日,UEWAF成功防御黑客针对UCloud云上某游戏客户发起的超大规模CC(Challenge Collapsar)攻击。攻击者从7月7日20点11分左右开始发起攻击,攻击峰值出现在20点24分左右,QPS(每秒查询率)超过200万。

    环球彩票登陆 4

    5. IP 情报技术

    结合企业业务类型、访问频率以及基于机器学习的行为分析技术,UEWAF实现了高效的源站保护模型,在创新信息熵检测机制与精准IP信誉库的协助下,大幅提升了攻击来源识别的准确率,可有效防御针对API接口的CC攻击。

    产品为SAAS模式,反向代理接入非常轻量和灵活,对七层流量做一次转发,通过云上综合的爬虫防护引擎识别并过滤爬虫流量,帮助客户降低恶意的自动化程序带来的业务影响。干净的业务流量会被继续转发到源站,保证业务正常运行。

    1.行为分析技术

    (UEWAF高可用架构示意图)

    产品除了能快速甄别爬虫的行为特征,还可以实现对不同风险等级的爬虫识别结果做不同的处置,合法爬虫做放行,恶意爬虫做阻断,遇到可疑的爬虫去做一个挑战或者校验,多验一次身来做最终判断。

    1)秒杀、抢购等业务导致的瞬间请求激增;

    (QPS 趋势图)

    据了解,目前国内外有不少做恶意爬虫流量管理的厂商,侧重点也不尽相同,但阿里云爬虫风险管理产品则是侧重于多层的防护,除了人机识别等检测方式,还会通过行为分析、威胁情报、机器学习算法等方式辅助检测,可以覆盖包括APP在内的各种环境,云上反向代理的方式接入也非常轻量和灵活。

    4)复杂业务本身会提供一些接口给其他服务,速率方面的浮动范围很大;

    基于反向代理实现了“替身式”防御,攻击流量全部在UEWAF Worker节点上拦截掉,攻击流量将禁止传到源站。为了实现高可用,内部采用L4 switch报文转发,通过多个节点建立集群去分担流量,保证了服务的高可用性和拓展的灵活性。

    环球彩票登陆 5

    隐马尔科夫原理图示:

    (1)攻击针对游戏客户端API接口;

    1、云端部署

    4. 行为分析技术

    背景

    爬虫中也并不是完全都是恶意爬虫流量,有一部分友好的爬虫,例如搜索引擎爬虫、第三方合作伙伴程序、Robots 协议程序等。安全运维不但要区分出正常人请求和机器爬虫请求,还需要放行友好的爬虫,这会对爬虫识别检测精细度要求较高,并对不同类型的爬虫要有分类和标记。

    查看请求日志,如 apache 的 access 日志,人工扫描分析日志内容并发现异常,可识别出恶意 bot 。

    在网络层IP封堵实现上,UEWAF定制了Linux内核,能够以极低的性能损失为代价封堵百万级别的IP地址,保障UEWAF Worker节点的性能。

    产品建设了一整套有层次的爬虫检测模块,主要分为基础防护层、云端情报层、机器学习层,进行信息传递和鉴别,从提供流量上自定义爬虫特征规则工具,到共享云端优势的行业爬虫攻击情报,再到定制贴合客户业务的机器学习算法,逐步递进,快速帮助客户打造一套量身定做的反爬虫策略体系。

    恶意 bot 流量造成的业务网站平台服务不可用、用户体验降低、网站漏洞安全问题、业务故障等问题,导致企业数据被爬、接口被刷、CC攻击导致服务不可用等,给企业带来极高的风险及难以估计的损失。

    UEWAF 安全运营团队立即启动紧急预案。但鉴于攻击规模较大,已经触发过UEWAF集群自动扩容,为保障集群上其他客户的业务不受影响,所以 UEWAF 安全运营团队第一时间将该客户流量牵引至Anti CC隔离集群。

    云上的威胁情报资源非常丰富,能够发现针对行业的集中式攻击,并可以将情报应用在行业客户的防御系统中。

    作为技术人员,采用的方法则多依赖技术特征的局限性生效,一般有以下 5 种技术解决方案:

    网络空间的攻防是没有硝烟的战场。作为UCloud自主研发的一款云端企业级Web防护服务产品,UEWAF基于云安全大数据能力,可以过滤海量恶意访问,避免网站资产数据泄露,保障网站的安全性与可用性。

    环球彩票登陆 6

    很多 bot 作为浏览器插件方式工作,或者通过修改浏览器而实现,因此同样会返回正确的设备指纹来伪造成一个真实的浏览器或者移动终端;

    总结

    环球彩票登陆 7

    环球彩票登陆 8

    通过分析,发现受攻击的域名主要是作为API(应用程序编程接口)为手机客户端提供服务,常规的防御方式无法在短时间内将攻击流量压制,随后UEWAF安全运营团队为客户启用紧急防御模式。在该模式下,UEWAF会结合使用UCloud安全中心积累多年的IP信誉库和机器学习等技术,计算来源IP的恶意度,迅速将被黑客利用的绝大部分“肉鸡”IP封杀在网络层。

    环球彩票登陆 9

    环球彩票登陆 10

    在CC攻击防御中,客户源站为第一保护对象,UEWAF会首先保证源站业务正常。其次在识别和清洗攻击流量过程中,会对部分攻击IP实施网络层封堵,以保证UEWAF Worker节点有足够的端口及带宽为正常用户提供服务。

    爬虫业务目的非常明确,识别行业的集中式攻击,达成行业内共享风险防控。

    IP 白名单。攻击者一般会将 ua 伪造成正常的搜索引擎的 ua 或者普通的浏览器的 ua 。白名单机制对前面一种伪造方式有效果。建立起一套 ua 和 ip 的白名单库,即可识别出伪造的ua。但是成本会提高很多,需要维护ua和ip的白名单库。而且对第二种伪造的普通的ua无效。

    UEWAF作为UCloud云安全解决方案-天罡旗下核心产品,基于UCloud云平台强大的计算资源及自身领先的技术能力,在用户业务遭遇CC攻击或者业务突发时,能够进行自身服务的快速扩展,不存在性能瓶颈等问题。与此同时,利用强大的云端情报收集能力并结合其他情报厂商的信息,UEWAF可以过滤海量的恶意访问,守护网络安全。

    爬虫风险管理产品是一款云盾推出的新安全产品。

    X 轴是时间,Y 轴是访问的 url 的抽象标识。

    当前,CC攻击已经成为游戏、金融、电商等行业常用的攻击手段。为保证线上业务系统的正常运行,企业应高度重视,加强安全防范措施。

    2、生态体系

    钓鱼。正常的 bot 会请求 robots.txt 文件,然后遵循 robots.txt 描述进行后续的 bot 行为(robots.txt是一种君子协议,对允许和不允许 bot 访问的内容进行标记)。借用此机制,如果在robots.txt中将一个不存在的url标注为拒绝,然后在网页中,内嵌这个隐藏的url连接,隐藏意味着human不会点击到这个连接,但是恶意的bot有很大概率会访问。事情变得简单很多,只需要在日志里过滤访问这个url的ip即可。但是这种防御方法仅能对抗低级的恶意bot,攻击者绕过此检测机制,仅需一行代码控制bot不请求上面提到的那个url即可。

    通过大数据安全分析,本次攻击的特征如下:

    恶意爬虫流量往往会引发企业一系列安全问题,并对业务造成一定利益损失,甚至请求量级过大也会同步造成服务器的不可用。防爬任务困难重重

    缺点:适用性较差。

    前言

    环球彩票登陆 11

    左图是检测出的恶意 bot 的会话的熵值,右图是正常人访问的熵值,纵坐标表示熵值,横坐标是迭代次数。很容易区分这两者的区别。不仅在值上区别明显,而且模式上也有很显著的区分度。重点说明,左图下面的 3 条线分别对应着完全随机 bot 30s/20s/10s 随机的时间间隔发起请求的熵值,算法取得了很好的效果。(涉及技术算法保密性问题,这里不透露具体实现细节)

    爬虫风险管理产品是阿里云云盾推出的新安全产品,1月底正式宣布商业化上线,提供可以覆盖Web/H5/API/APP多种业务形态的爬虫风险解决方案,对爬虫风险进行有序管理。恶意爬虫引发高风险

    限制源 IP 的请求速度。方案简单,但对阈值的设置要求很高,不适用于以下 4 种场景

    随着传统行业互联网化及大类业务的数据化,使爬虫风险逐渐成为一个风险爆发点。有网络数据报告统计,目前互联网中超过60%的流量都是批量自动化的爬虫流量。

    环球彩票登陆 12

    同时,产品内提供了数据可视化模块,从不同维度展示给用户,包括数据和数据之间的关联,让用户参与爬虫特征数据和防护数据之间关系的探索,不断沟通和迭代,不仅清晰地向用户展示爬虫入侵的每一步,也提高了用户反爬虫的策略决策能力。数据模块还集成了阿里云的SLS日志服务,可以查询和定位详细的日志内容,帮助用户了解防护情况和流量细节。

    上面提到,bot 会使用浏览器插件模拟人的请求行为,例如鼠标的点击等,单纯的判断鼠标是否点击不足以判断恶意 bot 。恶意 bot 最终都会请求 web 服务。恶意表现的是在“行为”上,行为是一个抽象概念,因此难度也很高。

    共享亿级阿里系的设备端的风险情报。

    IP 情报的价值在于一个简单的道理:正常的 IP(客户端)在相近时间范围内表现出的活动多为正常的,异常的 IP 则相反。例如被用来发起 ddos 攻击或者 cc 攻击的代理或者肉鸡,并不会只发起一次攻击,而是会长期的到处发起攻击。

    国内方面,微步在线作为一个威胁情报提供商。 IP 威胁情报多作为辅助技术使用,而且很方便, 对于发现的潜在威胁,结合 IP 情报信息使判断更准确。对于网络恶意 bot 而言,攻击方几乎都是使用代理或者肉鸡来请求数据,情报的价值是非常有用的。

    2.创新的信息熵检测机制

    3. 设备指纹技术(浏览器指纹)

    “行为”是有时间维度上属性的,发生的行为是一系列动作在时间维度上的偏序关系,动作是客户端发起的请求的抽象。行为分析模型首先会动态追踪活动的会话,模型会智能的选择合适的检测时机触发评估逻辑。

    环球彩票登陆 13

    因此在没有理想阈值的条件下,限制源 IP 请求速度会导致较高的误报率,相比恶意 bot 带来的危害,高误报引起的后果对企业而言或许更加严重。

    3. ip威胁情报技术

    设备指纹技术会计算关于浏览器的 50 以上属性参数的 hash 值,甚至更高级的收集客户端的动作,比如鼠标点击信息、返回等。近期流行的画布 (canvas) 指纹技术,基本含义就是调用设备接口生成一个复杂定义的图像,由于硬件配置、软件版本等因素的影响,生成的图像在像素级别存在一定区别,以此可作为一种指纹。

    UCloud 使用双重异常检测机制,提高异常识别的准确性。接下来就是识别 bot 是正常的还是恶意的。对于bot行为的细分,涉及到一些领域知识的结合。例如爬虫的行为和 cc 的行为有明显的区别,这属于分类器的问题,这里就不全部介绍了。 对于爬虫行为,UCloud 使用的 IP 情报中心识别出正常的 bot 。 客户可以对识别结果进行标记,bot 的检测不存在绝对的正确,例如很多客户使用的网站的监控工具,识别出来,可能会被分类为监控,但是如果客户自己的配置不正确,监控请求量非常高,可能会被标记为异常结果。

    bot 支持 js ,但不是浏览器,或者 bot 的 ua 和指纹不匹配,这种都很容易识别。但对于一些高级的 bot ,这个方案也有局限性

    url 通过抽象泛化为标识,如果不泛化会导致观测状态数量巨大,降低模型速度同时也会导致过拟合。隐马尔科夫的学习过程是无监督的,极大的方便了行为模型基线的建立,此学习过程是随着时间持续进行的。

    四.结束语

    攻击方使用自己关联的 IP ,容易被追踪而导致法律起诉的问题,目前依据国内法律和此方面的起诉经验,爬数据这类能够胜诉需要被爬方保留足够的证据外加一些运气成分。

    bot 是一个网络程序,如果这个程序写的简单,它往往不支持cookie,但 cookie 是浏览器支持的特性。利用这个特性可以通过在服务端写入 cookie ,然后检查请求所带来的 cookie 的方式来查证是否是 bot,但由于让 bot 支持 cookie 的时间成本很低,所以这个方法的效果比较有限。

    2)代理模式,如大多数高校机构以及手机运营商的网关;

    设备指纹冲突概率较高,代理机器很多是云主机或者其他方式统一装机的机器。完全相同的硬件,操作系统版本,软件版本导致算出来的指纹是一样的,因此会使得误报率增高。

    优点:成本低廉,操作简单,能抵御绝大多数低级的恶意 bot 。

    例如一个爬虫 bot ,不论它做深度优先还是广度优先的遍历,或者改进的针对特定模式 url 的爬虫时,不论它访问频率是高是低,请求资源表现出的偏序关系是异常的。这种偏序关系里即包含了“异常”的来源。

    人在请求资源的时候,下一个请求和上一个请求是否存在关联?答案是肯定的,因为正常的人不会随机乱请求 url 资源。因此这也会导致时间间隔随机变量和上一个值也是存在关联性。本质上,至少是一阶马尔科夫过程。如果认为当前的请求和前面的多个请求都有关系,那就是多阶马尔科夫过程。

    恶意 bot 访问目标的 url 资源,以及它提交的这些参数构成本质上的“恶意行为”,上面提到的很多恶意 bot 的技术都是为此目标服务的。越来越多的移动终端,对服务请求的表现本身就已经不是浏览器行为,如果不使用行为分析技术,这些都会触发误报。

    UCloud 安全中心产品 UEWAF 的 bot 检测引擎作为向外输出的安全方案,使用基于机器学习技术的行为分析技术 创新的信息熵检测机制 IP 威胁情报技术 。 目前基于机器学习的分析模型是bot检测最有前景的方向。 UCloud 假定客户访问不仅仅是通过浏览器,移动端的非浏览器的终端同样兼容。bot 行为,不论正常或者恶意,相对于人为操作的行为而言,都是一种“异常”。从过去的经验看,人不会触发这些 bot 行为。

    前言

    bot 篡改指纹信息返回,服务器端无法校验指纹信息的伪造性。这种机制很容易被开发 bot 的团队绕过,因为目前 ssl 体系主要用的是服务器的身份校验,绝大多数网站还没使用 https ,如果引入非对称体系的加密通信,或客户端的身份校验,在现阶段还无法实现。当然,如果有一天客户端身份都能被验证,安全问题就简单多了;很多公司拥有专门的爬虫团队和反爬虫团队,用于爬取竞争对手数据和反竞争对手爬自己的数据;

    互联网安全公司 Imperva Incapsula 公布的《2016年机器流量报告》(Bot Traffic Report 2016)显示恶意 bot 流量( bot :即“机器人”流量,即自动化程序流量)占整体网络流量的比例高达 28.9% 。

    随着机器技术在图像识别方面的成功应用,这类接口的bot自动完成也成为可能。分类器还可以智能的识别出注册,登录,验证码,手机短信等等这类敏感接口的异常访问,及时告知客户此类安全风险。

    环球彩票登陆 14

    信息熵可以用来衡量离散随机事件的出现概率。对于网络资源的访问,这里被当成一个离散事件。网络 bot 请求资源时,时间间隔上存在不同:人是依据主观需求对目标资源进行点击触发,而 bot 是程序设定好的,例如间隔多久,或者伪造随机时间触发等。

    环球彩票登陆 15

    2. JavaScript支持

    那么为了保障网站平台的正常运行,企业要如何防御恶意 bot 流量?

    基于多年的运营积累,UCloud 拥有大量的 IP 情报信息,例如上面提到的 bot 白名单,同时也有恶意 IP 情报。拥有业界活跃的搜索引擎的 IP 名单,客户不用担心会将搜索引擎 IP 标记为恶意 bot 。 同时也和业界共享有 IP 情报信息,以提供更加准确有效的结果。

    在学习过程中,有异常数据混入怎么办?其实这并不影响基线数据的建立,基线最终的阈值可以使用数学方法进行去除异常点。正常的东西总是很相近,但是异常的东西之间存在很大差异,模型基线的建立是允许有噪音数据的。模型用于异常检测,并不是直接输出 bot 的标识,后续还有异常的分类识别。

    环球彩票登陆 16

    本文综合介绍了在保障网站平台正常运行时,企业的运营和技术人员通常会采用的一些恶意 bot 流量防御方案,以及 UCloud 安全中心产品 UEWAF 在网络 bot 检测上的研究与探索。该模型的实际检测效果突出,使用多种检测技术相结合的方式,前期需依据网站的访问量情况进行一段时间的学习,之后自动更新学习,能帮助客户用更加高效的方式解决bot攻击问题,提高客户网站的商业价值。

    UCloud 结合HMM 检测模型,资源泛化模型,会话追踪技术和评估智能触发算法成功的将行为模型在工程上实践应用,并且达到优异效果。实测搜索引擎的 bot 检测中,准确率达到98.6%。机器学习的误报和漏报是不可避免的,下面讲解到的熵检测机制和 IP 情报技术正用于此目的。

    三.UCloud的解决方案

    行为分析采取的技术可不限于隐马尔科夫模型,例如贝叶斯网络,马尔科夫随机场这种学习的概率模型都可以完成这个任务。概率模型的一个巨大优势是计算性能高,可以将识别过程实时化处理。

    本文由环球彩票登陆发布于环球彩票登陆,转载请注明出处:企业要如何防御恶意 bot 流量?环球彩票登陆

    关键词: 环球彩票登陆 阿里 云端 爬虫

上一篇:抖音短视频竞品分析环球彩票登陆

下一篇:没有了