nosql缺陷,浅谈nosql技术及应用论文

nosql数据库的几大类型

1. 键值数据库

公司主营业务：成都网站制作、做网站、移动网站开发等业务。帮助企业客户真正实现互联网宣传，提高企业的竞争能力。创新互联建站是一支青春激扬、勤奋敬业、活力青春激扬、勤奋敬业、活力澎湃、和谐高效的团队。公司秉承以“开放、自由、严谨、自律”为核心的企业文化，感谢他们对我们的高要求，感谢他们从不同领域给我们带来的挑战，让我们激情的团队有机会用头脑与智慧不断的给客户带来惊喜。创新互联建站推出陵水黎族免费做网站回馈大家。

相关产品：Redis、Riak、SimpleDB、Chordless、Scalaris、Memcached

应用：内容缓存

优点：扩展性好、灵活性好、大量写操作时性能高

缺点：无法存储结构化信息、条件查询效率较低

使用者：百度云（Redis）、GitHub（Riak）、BestBuy（Riak）、Twitter（Ridis和Memcached）

2. 列族数据库

相关产品：BigTable、HBase、Cassandra、HadoopDB、GreenPlum、PNUTS

应用：分布式数据存储与管理

优点：查找速度快、可扩展性强、容易进行分布式扩展、复杂性低

使用者：Ebay（Cassandra）、Instagram（Cassandra）、NASA（Cassandra）、Facebook（HBase）

3. 文档数据库

相关产品：MongoDB、CouchDB、ThruDB、CloudKit、Perservere、Jackrabbit

应用：存储、索引并管理面向文档的数据或者类似的半结构化数据

优点：性能好、灵活性高、复杂性低、数据结构灵活

缺点：缺乏统一的查询语言

使用者：百度云数据库（MongoDB）、SAP（MongoDB）

4. 图形数据库

图形数据库-使用图作为数据模型来存储数据。

相关产品：Neo4J、OrientDB、InfoGrid、GraphDB

应用：大量复杂、互连接、低结构化的图结构场合，如社交网络、推荐系统等

优点：灵活性高、支持复杂的图形算法、可用于构建复杂的关系图谱

缺点：复杂性高、只能支持一定的数据规模

使用者：Adobe（Neo4J）、Cisco（Neo4J）、T-Mobile（Neo4J）

传统数据库与新型数据库的优缺点

一：传统数据库

(1）传统索引不适于海量数据

传统行存数据库索引需要手工设定，对应用不完全透明，随场景和需求的变化需要不断调整，人工维护成本很高。并且传统索引占用存储空间很大，甚至高于数据本身，造成查询效率的下降。

（2）数据装载速度慢

因为索引需要重新创建，加载性能会变的很糟糕。分析型架构系统要解决这些个问题，必须最大限度地减少磁盘 I/O ，提升查询效率，减小人工维护成本。南大通用分析型数据库GBase8a (以下简称GBase 8a)通过列存储模式、数据压缩、智能化的索引、并行处理、并发控制、高效的查询优化器等技术，使得上述问题得到有效解决。以下各节将描述 GBase 8a 的创新架构如何实现这些目标。

二：新型数据库

新型数据库采用分布式并行计算架构，部署于X86通用服务器，满足大数据实时交易需求，成本低、扩展性高，突破了传统数据库性能瓶颈。

分布式非关系型数据库技术创新

非关系型数据库即NoSQL，抛弃了关系数据库复杂的关系操作、事务处理等功能，仅提供简单的键值对(Key, Value)数据的存储与查询，换取高扩展性和高性能，满足论坛、博客、SNS、微博等互联网类应用场景下针对海量数据的简单操作需求。主要技术创新为:

(1) 简单的数据操作换取高效响应。NoSQL仅支持按照Key(关键字)来存储和查询Value(数据)，不支持对非关键字数据列的高效查询;因数据操作简单、数据间一般不需要关联操作，故系统可支持高并发和较快的响应速度。

(2) 多种一致性策略满足业务需求。不同于传统关系型数据库仅支持强一致性策略，NoSQL还支持弱一致性和最终一致性等多种策略，可根据应用场景进行对应配置。例如，对写入操作频繁，但数据读取最新版本要求并不严格的应用，如互联网网页数据的存储和分析应用，可以采用最终一致性策略;而对订购关系存储的应用，则必须用强一致性策略，保证总是读取最新版本数据

大数据下的地质资料信息存储架构设计

颉贵琴胡晓琴

(甘肃省国土资源信息中心)

摘要为推进我国地质资料信息服务集群化产业化工作，更大更好地发挥地质资料信息的价值，本文针对我国现有的地质资料信息集群化共享服务平台存在的缺陷和问题，基于现有系统的存储架构，设计了一种大数据下的地质资料信息存储架构，以便于我国地质资料信息服务集群化产业化工作能够适应大数据时代的数据存储。

关键词大数据地质资料存储 NoSQL 双数据库

0 引言

新中国成立60多年来，我国形成了海量的地质资料信息，为国民经济和社会发展提供了重要支撑。但在地质资料管理方面长期存在资料信息分散、综合研究不够、数字化信息化程度不高、服务渠道不畅、服务能力不强等问题，使地质资料信息的巨大潜在价值未能得到充分发挥。为进一步提高地质工作服务国民经济和社会发展的能力，充分发挥地质资料信息的服务功能，扩大服务领域，国土资源部根据国内外地质工作的先进经验，做出了全面推进地质资料信息服务集群化产业化工作的部署。

目前，全国各省地质资料馆都在有条不紊地对本省成果、原始和实物地质资料进行清理，并对其中重要地质资料进行数字化和存储工作。然而，由于我国地质资源丰富，经过几十年的积累，已经形成了海量的地质资料，数据量早已经超过了几百太字节(TB)。在进行地质资料信息服务集群化工作中，随着共享数据量的不断增大，传统的数据存储方式和管理系统必然会展现出存储和检索方面的不足以及系统管理方面的缺陷。为了解决该问题，需要设计更加先进的数据存储架构来实现海量地质资料的存储。

而大数据(Big Data)作为近年来在云计算领域中出现的一种新型数据，科技工作者在不断的研究中，设计了适合大数据存储管理的非关系型数据库NoSQL进行大数据的存储和管理。本文将针对我国现有的地质资料信息集群化共享服务平台存在的缺陷和问题，利用大数据存储管理模式的思想，提出一种海量地质资料存储架构，改进现有系统存储架构，以便于我国全面推进地质资料信息服务集群化产业化工作。

1 工作现状

1.1 国内外地质资料信息的存储现状

在美国，主要有两大地质资料公共服务平台，分别是地球科学信息中心(ESIC)、地球资源观测和科学中心(EROS)，其目的是通过为社会和政府提供更加便利、快速的地质信息服务。20世纪90年代初，澳大利亚出台了国家地球科学填图协议，采用先进的科学方法和技术进行数据存储，从而形成了第二代澳大利亚陆地地质图。

目前，我国地质资料信息服务集群化产业化工作刚刚起步，虽然国土资源部信息中心已经开发了地质资料信息集群化共享服务平台，并倡导各地方用户使用该系统。但由于各个地方早期的工作背景不一致，因此各地方所使用的存储系统也不尽相同，主要有Access、SQL Server、Oracle、MySQL等系统。本文以国土资源部信息中心开发的地质资料信息集群化共享服务平台的存储系统MySQL为例说明。该系统是基于关系数据库管理系统MySQL的一套分布式存储检索系统。该系统的部署使得我国地质资料信息服务集群化产业化工作取得了重大进展，同时也为我国建立标准统一的地质资料信息共享服务平台和互联互通的网络服务体系奠定了坚实的基础。然而，该系统的研发并没有考虑到地质资料信息进一步集群化以及在未来地质资料信息进入大数据时代的信息共享和存储管理问题，也没有给出明确的解决方案。

1.2 大数据的存储架构介绍

大数据是近年在云计算领域中出现的一种新型数据，具有数据量大、数据结构不固定、类型多样、查询分析复杂等特点。传统关系型数据库管理系统在数据存储规模、检索效率等方面已不再适合大数据存储。NoSQL(Not Only SQL)是与关系数据库相对的一类数据库的总称。这些数据库放弃了对关系数据库的支持，转而采用灵活的、分布式的数据存储方式管理数据，从而可以满足大数据存储和处理的需求。NoSQL基于非关系型数据存储的设计理念，以键值对进行存储，采用的数据字的结构不固定，每一个元组可以有不一样的字段，且每个元组可以根据自己的需要增加一些自己的键值对，可以减少一些检索时间和存储空间。目前，应用广泛的 NoSQL 数据库有 Google BigTable、HBase、MongoDB、Neo4 j、Infinite Graph等。

2 大数据下的地质资料信息存储架构设计

根据国土资源部做出的全面推进地质资料信息服务集群化产业化工作的部署，国土资源部倡导全国地质资料馆使用国土资源部信息中心开发的地质资料信息集群化共享服务平台，实现地质资料信息的存储和共享。该系统采用了数据库管理系统MySQL作为数据存储系统。

为了与现有系统和现有的工作进行对接，并为将来地质资料进入大数据时代后的存储工作做准备，本文设计了一种能用于海量地质资料信息存储并且兼容MySQL的分布式的数据存储架构(图1)。

整个系统可以根据不同的用户等级分为不同的用户管理层，由于图幅限制，在图1 中仅仅展示了3级：国家级管理层(即共享服务平台用户层)、省级管理层以及市级管理层(可根据实际需要延伸至县级)。

每级管理层的每个用户可以单独管理一个服务器。如国土资源部信息中心可以单独管理一个服务器；甘肃省国土资源信息中心可以单独管理一个服务器，陕西省国土资源信息中心可以单独管理一个服务器；甘肃的若干个市级国土资源局可以根据需要分别管理各自的服务器。

在服务器上分别安装两套数据库管理系统，一套是原有的MySQL数据库管理系统，另一套是为大数据存储而配备的NoSQL型数据库管理系统。在服务器上还专门开发一个数据库管理器中间件，用于进行用户层和数据库的通信以及两套数据库之间的通信。

由于各个管理层都各自维护自己的数据库和数据。当用户需要进行数据存储时，他所影响的数据库仅仅是本地数据库，存储效率较高；当用户需要从多个数据库读取数据时，顶层的共享服务平台会根据用户需求进行任务分解，将任务分发给下层的管理层进行数据库读取，由于各个数据库并行读取，从而提高了数据库读取效率。

图1 大数据下的地质资料信息存储架构框图

2.1 用户管理层

用户管理层根据权限范围，分为多层(本文以3层为例)。

位于顶层的国家级管理层(共享服务平台用户层)负责用户访问权限的分配、与其直接关联的数据库的访问、下级管理层任务的分配等工作。

用户访问权限的分配是指为访问本共享服务平台的个人用户和单位用户分配数据的使用权限、安全性的设计等。

与其直接关联的数据库访问是指直接存储在其本地数据库上的数据的访问。在该数据库中不仅要存储所需要的地质资料，还要存储注册用户信息等数据。

下级管理层任务分配是指如果用户需要访问多个下层数据库，用户只需要输入查询这几个下层数据库的命令，而如何查找下层数据库则由该功能来完成。例如某用户要查找甘肃、陕西、上海、北京的铁矿分布图，则用户只需要输入这几个地方及铁矿等查询条件，系统将自动把各个省的数据库查询任务分派到下级管理层。

同理，位于下层的省级管理层和市级管理层除了没有用户访问权限功能外，其余功能与国家级管理层是相同的。各层之间的数据库通过互联网相互连接成分布式的数据库系统。

2.2 MySQL和NoSQL的融合

MySQL是关系型数据库，它支持SQL查询语言，而NoSQL是非关系型数据库，它不支持SQL查询语言。用户要想透明地访问这两套数据库，必须要设计数据库管理器中间件，作为用户访问数据库的统一入口和两套数据库管理系统的通信平台。本文所设计的数据库管理器简单模型如图2所示。

图2 数据库管理器模型

服务器管理器通过用户程序接口与应用程序进行通讯，通过MySQL数据库接口与MySQL服务器通讯，通过NoSQL数据库接口与NoSQL数据库接口通讯。当应用程序接口接收到一条数据库访问命令之后，交由数据库访问命令解析器进行命令解析，从而形成MySQL访问命令或者NoSQL访问命令，通过相应的数据库接口访问数据库；数据库返回访问结果后经过汇总，由应用程序接口返回给应用程序。

两套数据库可以通过双数据库通信协议进行相互的通信和互访。此通信协议的建立便于地质工作人员将已经存入MySQL数据库的不适合结构化存储的数据转存到NoSQL数据库中，从而便于系统的升级和优化。

2.3 系统的存储和检索模式

在本存储框架设计中，系统采用分布式网络存储模式，即采用可扩展的存储结构，利用分散在全国各地的多台独立的服务器进行数据存储。这种方式不仅分担了服务器的存储压力，提高了系统的可靠性和可用性，还易于进行系统扩展。另外，由于地质资料信息存储的特殊性，各地方用户的数据存储工作基本都是在本地服务器进行，很少通过网络进行远程存储，所以数据存储效率较高。

在一台数据库服务器上安装有MySQL和NoSQL型两套数据库管理系统，分别用于存储地质资料信息中的结构化数据和非结构化数据。其中，NoSQL型数据库作为主数据库，用于存储一部分结构化数据和全部的非结构化数据；而MySQL数据库作为辅助数据库，用于存储一部分结构化的数据，以及旧系统中已经存储的数据。使用两套数据库不仅可以存储结构化数据而且还可以适用于大数据时代地质资料信息的存储，因此系统具有很好的适应性和灵活性。

2.4 安全性设计

地质资料信息是国家的机密，地质工作人员必须要保证它的安全。地质资料信息进入数字化时代之后，地质资料常常在计算机以及网络上进行传输，地质资料信息的安全传输和保存更是地质工作人员必须关注和解决的问题。在本存储架构的设计中设计的安全问题主要有数据库存储安全、数据传输安全、数据访问安全等问题。

数据库设计时采用多边安全模型和多级安全模型阻止数据库中信息和数据的泄露来提高数据库的安全性能，以保障地质信息在数据库中的存储安全；当用户登录系统访问数据库时，必须进行用户甄别和实名认证，这主要是对用户的身份进行有效的识别，防止非法用户访问数据库；在对地质资料进行网络传输时，应该首先将数据进行加密，然后再进行网络传输，以防止地质信息在传输过程中被窃取。

3 结语

提高地质资料数字化信息化水平，是国外地质工作强国的普遍做法。为推进我国地质资料信息服务集群化产业化工作，本文针对我国现有的地质资料信息集群化共享服务平台存在的缺陷和问题，利用大数据存储管理模式的思想，基于现有系统的存储架构，设计了一种大数据下的地质资料信息存储架构，以便于我国地质资料信息服务集群化产业化工作能够适应大数据时代的数据存储。该存储架构的设计只涉及了简单模型的构建，具体详细复杂的功能设计和软件实现还需要在进一步的研究工作中完成。

参考文献

[1]吴金朋.一种大数据存储模型的研究与应用[D].北京：北京邮电大学计算机学院，2012.

[2]吴广君，王树鹏，陈明，等.海量结构化数据存储检索系统[J].计算机研究与发展，2012，49(Suppl)：1～5.

[3]黄

，易晓东，李姗姗，等.面向高性能计算机的海量数据处理平台实现与评测[J].计算机研究与发展，2012，49(Suppl)：357～361.

newsql和nosql的区别和联系

在大数据时代，“多种架构支持多类应用”成为数据库行业应对大数据的基本思路，数据库行业出现互为补充的三大阵营，适用于事务处理应用的OldSQL、适用于数据分析应用的NewSQL和适用于互联网应用的NoSQL。但在一些复杂的应用场景中，单一数据库架构都不能完全满足应用场景对海量结构化和非结构化数据的存储管理、复杂分析、关联查询、实时性处理和控制建设成本等多方面的需要，因此不同架构数据库混合部署应用成为满足复杂应用的必然选择。不同架构数据库混合使用的模式可以概括为：OldSQL+NewSQL、OldSQL+NoSQL、NewSQL+NoSQL三种主要模式。下面通过三个案例对不同架构数据库的混合应用部署进行介绍。

OldSQL+NewSQL 在数据中心类应用中混合部署

采用OldSQL+NewSQL模式构建数据中心，在充分发挥OldSQL数据库的事务处理能力的同时，借助NewSQL在实时性、复杂分析、即席查询等方面的独特优势，以及面对海量数据时较强的扩展能力，满足数据中心对当前“热”数据事务型处理和海量历史“冷”数据分析两方面的需求。OldSQL+NewSQL模式在数据中心类应用中的互补作用体现在，OldSQL弥补了NewSQL不适合事务处理的不足，NewSQL弥补了OldSQL在海量数据存储能力和处理性能方面的缺陷。

商业银行数据中心采用OldSQL+NewSQL混合部署方式搭建，OldSQL数据库满足各业务系统数据的归档备份和事务型应用，NewSQL MPP数据库集群对即席查询、多维分析等应用提供高性能支持，并且通过MPP集群架构实现应对海量数据存储的扩展能力。

商业银行数据中心存储架构

与传统的OldSQL模式相比，商业银行数据中心采用OldSQL+NewSQL混合搭建模式，数据加载性能提升3倍以上，即席查询和统计分析性能提升6倍以上。NewSQL MPP的高可扩展性能够应对新的业务需求，可随着数据量的增长采用集群方式构建存储容量更大的数据中心。

OldSQL+NoSQL 在互联网大数据应用中混合部署

在互联网大数据应用中采用OldSQL+NoSQL混合模式，能够很好的解决互联网大数据应用对海量结构化和非结构化数据进行存储和快速处理的需求。在诸如大型电子商务平台、大型SNS平台等互联网大数据应用场景中，OldSQL在应用中负责高价值密度结构化数据的存储和事务型处理，NoSQL在应用中负责存储和处理海量非结构化的数据和低价值密度结构化数据。OldSQL+NoSQL模式在互联网大数据应用中的互补作用体现在，OldSQL弥补了NoSQL在ACID特性和复杂关联运算方面的不足，NoSQL弥补了OldSQL在海量数据存储和非结构化数据处理方面的缺陷。

数据魔方是淘宝网的一款数据产品，主要提供行业数据分析、店铺数据分析。淘宝数据产品在存储层采用OldSQL+NoSQL混合模式，由基于MySQL的分布式关系型数据库集群MyFOX和基于HBase的NoSQL存储集群Prom组成。由于OldSQL强大的语义和关系表达能力，在应用中仍然占据着重要地位，目前存储在MyFOX中的统计结果数据已经达到10TB，占据着数据魔方总数据量的95%以上。另一方面，NoSQL作为SQL的有益补充，解决了OldSQL数据库无法解决的全属性选择器等问题。

淘宝海量数据产品技术架构

基于OldSQL+NoSQL混合架构的特点，数据魔方目前已经能够提供压缩前80TB的数据存储空间，支持每天4000万的查询请求，平均响应时间在28毫秒，足以满足未来一段时间内的业务增长需求。

NewSQL+NoSQL 在行业大数据应用中混合部署

行业大数据与互联网大数据的区别在于行业大数据的价值密度更高，并且对结构化数据的实时处理、复杂的多表关联分析、即席查询、数据强一致性等都比互联网大数据有更高的要求。行业大数据应用场景主要是分析类应用，如：电信、金融、政务、能源等行业的决策辅助、预测预警、统计分析、经营分析等。

在行业大数据应用中采用NewSQL+NoSQL混合模式，充分利用NewSQL在结构化数据分析处理方面的优势，以及NoSQL在非结构数据处理方面的优势，实现NewSQL与NoSQL的功能互补，解决行业大数据应用对高价值结构化数据的实时处理、复杂的多表关联分析、即席查询、数据强一致性等要求，以及对海量非结构化数据存储和精确查询的要求。在应用中，NewSQL承担高价值密度结构化数据的存储和分析处理工作，NoSQL承担存储和处理海量非结构化数据和不需要关联分析、Ad-hoc查询较少的低价值密度结构化数据的工作。

当前电信运营商在集中化BI系统建设过程中面临着数据规模大、数据处理类型多等问题，并且需要应对大量的固定应用，以及占统计总数80%以上的突发性临时统计(ad-hoc)需求。在集中化BI系统的建设中采用NewSQL+NoSQL混搭的模式，充分利用NewSQL在复杂分析、即席查询等方面处理性能的优势，及NoSQL在非结构化数据处理和海量数据存储方面的优势，实现高效低成本。

集中化BI系统数据存储架构

集中化BI系统按照数据类型和处理方式的不同，将结构化数据和非结构化数据分别存储在不同的系统中：非结构化数据在Hadoop平台上存储与处理;结构化、不需要关联分析、Ad-hoc查询较少的数据保存在NoSQL数据库或Hadoop平台;结构化、需要关联分析或经常ad-hoc查询的数据，保存在NewSQL MPP数据库中，短期高价值数据放在高性能平台，中长期放在低成本产品中。

结语

当前信息化应用的多样性、复杂性，以及三种数据库架构各自所具有的优势和局限性，造成任何一种架构的数据库都不能完全满足应用需求，因此不同架构数据库混合使用，从而弥补其他架构的不足成为必然选择。根据应用场景采用不同架构数据库进行组合搭配，充分发挥每种架构数据库的特点和优势，并且与其他架构数据库形成互补，完全涵盖应用需求，保证数据资源的最优化利用，将成为未来一段时期内信息化应用主要采用的解决方式。

目前在国内市场上，OldSQL主要为Oracle、IBM等国外数据库厂商所垄断，达梦、金仓等国产厂商仍处于追赶状态;南大通用凭借国产新型数据库GBase 8a异军突起，与EMC的Greenplum和HP的Vertica跻身NewSQL市场三强;NoSQL方面用户则大多采用Hadoop开源方案。

非关系型数据库有哪些优缺点？

非关系型数据库严格上不是一种数据库，应该是一种数据结构化存储方法的集合，可以是文档或者键值对等。当初我在黑马程序员培训时候就学过。

优点：

1、格式灵活：存储数据的格式可以是key,value形式、文档形式、图片形式等等，文档形式、图片形式等等，使用灵活，应用场景广泛，而关系型数据库则只支持基础类型。

2、速度快：nosql可以使用硬盘或者随机存储器作为载体，而关系型数据库只能使用硬盘；

3、高扩展性；

4、成本低：nosql数据库部署简单，基本都是开源软件。

缺点：

1、不提供sql支持，学习和使用成本较高；

2、无事务处理；

3、数据结构相对复杂，复杂查询方面稍欠。

非关系型数据库的分类和比较：

1、文档型

2、key-value型

3、列式数据库

4、图形数据库

保护大数据安全的10个要点

一项对2021年数据泄露的分析显示，总共有50亿份数据被泄露，这对所有参与大数据管道工作的人来说，从开发人员到DevOps工程师，安全性与基础业务需求同等重要。

大数据安全是指在存储、处理和分析过于庞大和复杂的数据集时，采用任何措施来保护数据免受恶意活动的侵害，传统数据库应用程序无法处理这些数据集。大数据可以混合结构化格式(组织成包含数字、日期等的行和列)或非结构化格式(社交媒体数据、PDF 文件、电子邮件、图像等)。不过，估计显示高达90%的大数据是非结构化的。

大数据的魅力在于，它通常包含一些隐藏的洞察力，可以改善业务流程，推动创新，或揭示未知的市场趋势。由于分析这些信息的工作负载通常会将敏感的客户数据或专有数据与第三方数据源结合起来，因此数据安全性至关重要。声誉受损和巨额经济损失是大数据泄露和数据被破坏的两大主要后果。

在确保大数据安全时，需要考虑三个关键阶段:

当数据从源位置移动到存储或实时摄取(通常在云中)时，确保数据的传输

保护大数据管道的存储层中的数据(例如Hadoop分布式文件系统)

确保输出数据的机密性，例如报告和仪表板，这些数据包含通过Apache Spark等分析引擎运行数据收集的情报

这些环境中的安全威胁类型包括不适当的访问控制、分布式拒绝服务(DDoS)攻击、产生虚假或恶意数据的端点，或在大数据工作期间使用的库、框架和应用程序的漏洞。

由于所涉及的架构和环境复杂性，大数据安全面临着许多挑战。在大数据环境中，不同的硬件和技术在分布式计算环境中相互作用。比如：

像Hadoop这样的开源框架在设计之初并没有考虑到安全性

依赖分布式计算来处理这些大型数据集意味着有更多的系统可能出错

确保从端点收集的日志或事件数据的有效性和真实性

控制内部人员对数据挖掘工具的访问，监控可疑行为

运行标准安全审计的困难

保护非关系NoSQL数据库

这些挑战是对保护任何类型数据的常见挑战的补充。

静态数据和传输中数据的可扩展加密对于跨大数据管道实施至关重要。可扩展性是这里的关键点，因为除了NoSQL等存储格式之外，需要跨分析工具集及其输出加密数据。加密的作用在于，即使威胁者设法拦截数据包或访问敏感文件，实施良好的加密过程也会使数据不可读。

获得访问控制权可针对一系列大数据安全问题提供强大的保护，例如内部威胁和特权过剩。基于角色的访问可以帮助控制对大数据管道多层的访问。例如，数据分析师可以访问分析工具，但他们可能不应该访问大数据开发人员使用的工具，如ETL软件。最小权限原则是访问控制的一个很好的参考点，它限制了对执行用户任务所必需的工具和数据的访问。

大数据工作负载所需要的固有的大存储容量和处理能力使得大多数企业可以为大数据使用云计算基础设施和服务。但是，尽管云计算很有吸引力，暴露的API密钥、令牌和错误配置都是云中值得认真对待的风险。如果有人让S3中的AWS数据湖完全开放，并且对互联网上的任何人都可以访问，那会怎么样?有了自动扫描工具，可以快速扫描公共云资产以寻找安全盲点，从而更容易降低这些风险。

在复杂的大数据生态系统中，加密的安全性需要一种集中的密钥管理方法，以确保对加密密钥进行有效的策略驱动处理。集中式密钥管理还可以控制从创建到密钥轮换的密钥治理。对于在云中运行大数据工作负载的企业，自带密钥 (BYOK) 可能是允许集中密钥管理而不将加密密钥创建和管理的控制权交给第三方云提供商的最佳选择。

在大数据管道中，由于数据来自许多不同的来源，包括来自社交媒体平台的流数据和来自用户终端的数据，因此会有持续的流量。网络流量分析提供了对网络流量和任何潜在异常的可见性，例如来自物联网设备的恶意数据或正在使用的未加密通信协议。

2021年的一份报告发现，98%的组织感到容易受到内部攻击。在大数据的背景下，内部威胁对敏感公司信息的机密性构成严重风险。有权访问分析报告和仪表板的恶意内部人员可能会向竞争对手透露见解，甚至提供他们的登录凭据进行销售。从内部威胁检测开始的一个好地方是检查常见业务应用程序的日志，例如 RDP、VPN、Active Directory 和端点。这些日志可以揭示值得调查的异常情况，例如意外的数据下载或异常的登录时间。

威胁搜寻主动搜索潜伏在您的网络中未被发现的威胁。这个过程需要经验丰富的网络安全分析师的技能组合，利用来自现实世界的攻击、威胁活动的情报或来自不同安全工具的相关发现来制定关于潜在威胁的假设。具有讽刺意味的是，大数据实际上可以通过发现大量安全数据中隐藏的洞察力来帮助改进威胁追踪工作。但作为提高大数据安全性的一种方式，威胁搜寻会监控数据集和基础设施，以寻找表明大数据环境受到威胁的工件。

出于安全目的监视大数据日志和工具会产生大量信息，这些信息通常最终形成安全信息和事件管理(SIEM)解决方案。

用户行为分析比内部威胁检测更进一步，它提供了专门的工具集来监控用户在与其交互的系统上的行为。通常情况下，行为分析使用一个评分系统来创建正常用户、应用程序和设备行为的基线，然后在这些基线出现偏差时进行提醒。通过用户行为分析，可以更好地检测威胁大数据环境中资产的保密性、完整性或可用性的内部威胁和受损的用户帐户。

未经授权的数据传输的前景让安全领导者彻夜难眠，特别是如果数据泄露发生在可以复制大量潜在敏感资产的大数据管道中。检测数据泄露需要对出站流量、IP地址和流量进行深入监控。防止数据泄露首先来自于在代码和错误配置中发现有害安全错误的工具，以及数据丢失预防和下一代防火墙。另一个重要方面是在企业内进行教育和提高认识。

框架、库、软件实用程序、数据摄取、分析工具和自定义应用程序——大数据安全始于代码级别。无论是否实施了上述公认的安全实践，代码中的安全缺陷都可能导致数据泄漏。通过在软件开发生命周期中检测自研代码及开源组件成分的安全性，加强软件安全性来防止数据丢失。

网站栏目：nosql缺陷,浅谈nosql技术及应用论文
网站地址：http://cdxtjz.cn/article/dssspoj.html