Focus 焦点

数据安全治理和技术

文/黄琳

伴随着国内外相关法律法规的出台，以及数据泄露事件的频发，数据的价值正得到各界的肯定，政府部门以及各企事业单位在数据安全领域的投入也在迅速增大，各国也都相继出台了相关法律法规：我国正式生效的《中华人民共和国网络安全法》；欧盟在2018年5月正式生效的《General Data Protection Regulation》（简称GDPR）；以及我国今年正式出台的《信息安全技术个人信息安全规范》和即将颁布的《数据出境管理办法》等，都将数据作为最重要的防护对象。

以数据的全生命周期的安全防护为目标，以数据安全治理为辅助手段，为用户提供全方位的数据安全技术支持和服务。

一、数据安全治理过程

用户的数据安全并非单单填补几台相关产品就能做到，行业差异化以及用户价值数据的不同决定了数据安全治理的差异化，新华三采用因事制宜的流程化方案来应对这些差异，如下图1：

图1. 数据安全治理基本环形图

主要分为以下四步：

步骤一：协助用户梳理关键数据、数据分级分类和风险评估。搞清楚用户的价值数据是什么？哪些行为会对用户价值数据产生不利影响和造成怎样的利益损失？各个阶段用户的权限分别是什么？

步骤二：协助用户制定策略和管控方法。通过对数据进行分级分类，对成员进行角色划分，对使用场景和敏感数据进行定义；结合技术手段和行业合作，预定义具有行业属性的推荐策略；

步骤三：通过技术手段执行数据安全治理。主要通过五大引擎七大系统，覆盖数据安全全系列需求，构建出具有行业特色的解决方案。如下图2所示：

图2.数据安全五大引擎七大系统

基于内容的深度识别也是新华三数据安全最基本的识别引擎，关注应用层数据细粒度的深度识别，支持识别五百多种文件格式，三百多种协议和应用，采用关键字、正则表达式等基础匹配方法，并结合词典检测、数据标识符以及指纹对比等高级比对方法，做到高质量高性能的识别和匹配；智能学习引擎使用自然语言处理和文本分类算法，采用人工智能理论和机器学习技术，构造出能够理解和识别内容的学习工具，帮助用户有针对性地对关键数据进行聚类和分类。同时支持OCR技术，提取图片中的文字信息进行敏感信息识别和分类，进而自动进行网络图片的监控和过滤；数据发现引擎能够协助用户突破传统检索方法，自动发现价值数据。通过对数据资产进行识别、分类；对风险进行准确判断，根据预先对系统训练和设置的策略，进行全自动的分类、分级、甄别、标记和监控；对分布在终端、服务器以及大数据环境中的数据进行智能发现和梳理；可视化引擎是新华三数据安全直接面向客户的手段。用户能够直观地了解环境中的数据风险及细节，能进行清晰高效的事件展示和事件检索。结合多维度用户事件展示，结合后台行为关联分析、历史行为分析，能够进一步查看潜在用户行为风险，给用户更直观的风险展示；数据脱敏引擎对数据进行不可逆单向转换的过程，以防数据被重新识别，保护用户数据隐私。

七大系统基于五大引擎技术，根据不同的使用场景构造出不同的防护和审计系统。

步骤四：根据技术反馈结果反向分析并再次指导用户治理。对通过技术手段得到的审计结果进行深度评估，衡量现有的数据梳理和策略设计是否有遗漏，现有的技术手段是否还不足。据此分析结果反过来指导用户梳理，并将其转化成策略和技术手段进一步实施，进而形成一个精益求精的数据安全防护网。

数据安全治理过程的建设让数据安全不再是单单的口号和产品，而是有理论和技术以及法规支撑的系统集合。

二、技术特点

数据安全以保护用户价值数据的全生命周期安全为目标，采用精准的数据识别、行为分析以及人工智能和机器学习技术，为用户提供高效的数据安全解决方案，保障用户从数据采集、数据传输、数据存储、数据使用、数据交换、数据销毁全生命周期的安全。让用户对自己的数据做到可知、可视、可管。

（1）数据安全感控平台

数据安全感控平台拥有统一管控和展示的能力。能实时快速的了解各维度的TOP问题，如下图3所示，可以直观地观察到各用户的安全程度，并根据事实作出有效分析。

图3.数据安全感控平台展示1

如下图4所示，展示高危泄露手段和细节，并分析产生这种现象的可能原因。

图4.数据安全感控平台展示2

针对用户的敏感数据流向、资产分布都有直观的感受，方便用户梳理数据。如下图5所示：

图5.数据安全感控平台展示3

同时拥有统一强大的管理能力，管控在网的所有新华三的数据安全产品，权限和策略统一管控，让整体有章可循，用户体验便捷方便。

（2）强大的数据安全处理引擎和系统

数据安全五大引擎从基本深度内容识别到智能识别，从网络传输过程的数据分析到数据库存储和操作的分析，多角度完成数据全生命周期的安全监控和防护。

通过机器学习和集成AI硬件加速芯片等方式提高智能学习算法的响应速度；并根据客户需要在行业特定场景中积累更多的学习样本，不断地优化深度学习算法的准确性和性能调优，并根据实际场景结合云端计算能力，为用户带来更智能的体验。

（3）基于用户行为的智能分析

通过机器学习，智能学习正常用户行为；结合学习模型，识别出用户异常行为，最后进行关联分析并对用户进行溯源取证。运用机器学习的能力，实现多维度的关联分析，有利于用户识别出在线和潜在的安全风险。

如下图所示，数据安全管控平台生成的报表会根据基础数据分析给出一些处理建议：

图6.事件分析建议

不仅限于此类处理建议，根据事件、空间等维度，突发事件或者高于学习的统计值的行为都会被单独分析，并给出建议，协助用户更合理的重视潜在的安全风险。

三、行业特点

（1）大数据下的数据安全

随着国家大数据战略的实施，以及加快建设数字中国核心理念的提出，越来越多的企业和政府单位选择大数据架构作为业务平台的核心架构。大数据架构的核心特点就是计算存储一体化，并带有大量的数据流动、抽取、交互、碰撞，随后是集中存储。其特点带来更多的安全需求，也决定了传统的，以加密为主的数据安全技术已经不能满足其业务特点。

大数据场景下数据安全的难点在于对于不同类型的数据库的审计以及对数据流转路径的监控。针对第一个问题，大数据环境中，MPP、Hbase、Mango DB等非传统数据库占比很大，传统的数据库审计类产品完全不能够对其中特殊的SQL语句及数据架构进行识别，因此，需要对数据库审计类的产品进行有针对性的升级。针对第二个问题，对于数据路径流转的监控，包括对数据分布的发现，对业务流量中数据的识别，对数据流经资产的可视化展现等手段。上述要求，结合新华三整体的安全解决方案，对所有技术手段的日志进行统一的存储及分析，进行统一的可视化展现，可以完美的解决在大数据环境中数据安全问题。

（2）私有云场景下的数据安全

云计算的出现完全改变了IT基础架构的构建方式，我们在享受资源充分利用及业务弹性扩展带来的好处的同时，也要面临网络边界模糊，业务流量不易审计的安全问题。数据的存储的方式也从原有独享的物理存储介质变为共享的逻辑存储介质。其架构特点带来的变革，使得传统数据安全的技术手段难以在私有云环境中适配发挥。

私有云计算场景下数据安全的难点在于对云环境中业务流量的数据内容的识别以及对各个租户数据分布的可视化展现。针对第一个问题，新华三在私有云内构建数据安全检测/防护资源池，配合私有云SDN网络控制器，实现业务流量的引导或镜像，完成对业务流量内数据内容的检测识别，进而实现数据安全防护。针对第二个问题，数据安全管控平台通过私有云管理平台获取租户信息，并通过数据发现实现对各个租户逻辑存储空间内的数据识别，管理平台将识别后的信息同获取到的信息进行管理，并进行可视化的展现。

（3）场景化部署

数据安全一定是要和行业数据紧密联系，推出标准化的内置策略和敏感数据标识，用于典型行业和场景的非典型部署。

以数字原生企业来说，每个企业都希望能够充分利用数据，其目的是激活暗数据（价值尚不明确的业务数据），分析冷数据（有价值但不常被访问的数据），产生热数据（频繁被访问的高价值数据），辨识陈旧数据（可清理的低价值数据），数据的流动带来价值通知也带来安全隐患。对于数字原生企业而言，核心数据就是生产力，保护企业核心信息资产不受损失是根本目的。数字原生企业需要发现数据，其次保护数据不被泄露。目前主要的数据资产流失途径包括开发人员泄露、IT运维人员泄露、企业管理者泄露，流失的方法主要是U盘等存储介质拷贝、技术交换过程中的违规交换、邮件等外发手段。

再如政务大数据应用中数据共享交换。随着大数据战略的提升，国家推进数据资源的开放共享，与此同时，国家也对数据共享交换平台提出了明确责任，保障安全。按照保守秘密、维护权益的要求，政务部门间信息共享各方须承担共享信息的安全保密责任和相应法律责任，确保共享数据安全。针对该场景中的数据特点进行数据安全防护。我们已在某政务大数据共享交换平台中部署上我们的数据安全产品，用来解决数据交换中的数据安全问题。

四、结束语

数据安全并不是一个全新的概念，是在过去这十年来多个小领域各自为战之后的一个综合性概念，也是随着国家战略发展而必然出现的。我们的优势在于可以将数据安全融入到新华三云计算、大数据以及强大的网络资源环境中，形成更完备的解决方案。但是，正是由于我们进入的较晚，在原始产品专业性上还需要更多的努力和追赶。

结合五大引擎七大系统构建出来的全方位的数据安全防护技术，结合行业特点进行数据安全治理，致力于保护用户价值数据。数据安全技术本身也会持续发展，致力于带给用户更好更智能的体验。

三、 行业特点

三、行业特点