>
2021-02-26|
分享到:
|3918 |文章来源:量观网络

《大数据平台安全白皮书》解读

摘要

当前,数据成为国家基础性战略资源、重要生产要素,大数据平台提供了存储、计算和分析能力,使得海量静态数据“活动”起来,并释放出自身价值。随着企业大数据平台基础支撑能力不断提升,数据资源不断丰富,平台面临的数据安全问题与挑战也日益增加。

信通院《大数据平台安全研究报告》以2020年卓信大数据平台安全专项行动中积累的安全检测数据为基础,从平台配置安全隐患和安全漏洞的分布规律、产生原因、危害影响、修复难度等维度分析了大数据平台的安全现状。同时,详细分析了形成该安全现状的问题根源,并给出了相应的解决方案建议。最后,从监管、标准、技术研究等方面提出了大数据平台安全未来的工作方向。

概述

大数据产业的蓬勃发展所带来的安全问题愈发凸显。大数据自身蕴藏的巨大价值和集中化的存储管理模式,使得大数据环境成为网络攻击的重点目标,针对大数据的勒索攻击和数据泄露问题日益严重,全球大数据安全事件呈频发态势。在此背景下,大数据安全需求正在催生相关安全技术、解决方案及产品的研发和生产,但与大数据产业的发展速度相比,其安全技术领域的发展明显滞后。

目前,大数据平台往往独立设计、开发,并根据业务需求对平台组件进行“堆积木式”搭建,采用了与以往完全不同的软件产品组成大数据平台。若对工具组件的安全管控不当,极易造成非法访问、敏感数据泄露等安全风险。

hadoop系为例,一个大数据平台至少包含20到30种软件,这些软件形成了非常广阔的供给面——黑客可以利用供给面中的软件获得账号密码、敏感数据,甚至整个集群的控制权。除了利用错误配置或漏洞对大数据平台实施入侵外,勒索软件、挖矿软件等恶意软件也乐于瞄准大数据平台。

简析

报告显示,在组件配置类安全隐患上,最为突出的问题包括:日志记录不完整、身份认证机制未开启、账号权限未最小化、审计日志文件权限未最小化、组件间数据传输未加密,服务连接数未限制和敏感配置数据(如口令数据)未加密等。这些配置管理上的安全隐患极易造成敏感数据泄露或被篡改、集群拒绝服务等安全危害。

在组件安全漏洞方面,Kafka信息泄露、Zookeeper安全绕过、Zookeeper本地信息泄露、Hive身份认证等占据检出漏洞的大多数。

从单个组件来看,排在Top3的是HDFS、MapReduce和Yarn。究其原因,在于这些组件是最早产生的Hadoop组件。Hadoop生态架构在设计初期对用户身份鉴别、访问控制、密钥管理、安全审计等方面考虑较少,在大数据应用中,往往对这些组件缺乏严格的测试管理和安全认证。

其中,存储类组件(如Hbase、HDFS)和计算类组件(Hive、Spark、MapReduce)要比平台类组件(Yarn、Zookeeper)和传输交换类组件(如Flume、Kafka)更易存在漏洞隐患。

因此,为了应对上述安全问题,必须定期对整个大数据安全平台的所有组件进行安全检测和安全加固,且至少应包含漏洞检查、配置检查、木马检查以及后门检测等。

参考

IBM Security Guardium 核心安全措施:

对来自各种应用和用户的Hadoop和NoSQL的数据访问进行全面实时监控。在应用或用户违反安全策略时进行实时预警并在SIEM仪表盘中显示警告信息。

通过审计和报告方式来满足合规要求并能提供法律所要求的合规证据。

对高流量、高速度、多类型的大数据进行全面的变更管理。

对企业的全部数据(数据库、应用、文件、大数据)等进行集中式、自动化的管控。

通过加密、屏蔽、掩码等方式保护敏感数据。

评估和解决大数据环境中的漏洞,保证大数据系统自身是安全的。

Microsoft Azure平台核心安全措施:

网络安全:企业管理员可在虚拟网络 (VNET) 中创建群集,并使用网络安全组 (NSG) 限制对虚拟网络的访问。只有入站 NSG 规则中允许的 IP 地址才能与HDInsight 群集通信。

身份认证:提供基于 Active Directory 的身份验证、多用户支持和基于角色的访问控制。

授权:管理员可以配置基于角色的访问控制 (RBAC) 来确保ApacheHive、HBase和 Kafka的安全性,只需使用 Apache Ranger 中的这些插件即可,通过配置 RBAC 策略将权限与组织中的角色相关联。

审核:管理员可以查看和报告对 HDInsight 群集资源与数据的所有访问,跟踪对资源的未经授权或非故意的访问。管理员还可以查看和报告对在 Apache Ranger 支持的终结点中创建的访问控制策略进行的所有更改。

文章评论

请输入您的留言: