快捷搜索:

您的位置:环球彩票登陆 > 环球彩票登陆 > 盘点大数量剖析的十二大特长【环球彩票登陆】

盘点大数量剖析的十二大特长【环球彩票登陆】

发布时间:2019-10-15 08:49编辑:环球彩票登陆浏览(73)

    对于这些新的数据库产品来说,缺少云的支持也是一个严重的劣势,想要托管在别家的云服务中还同时与其竞争将是非常困难的。Gartner分析人员Rick Greenwald称新兴的数据库厂商来说其产品并不能满足市场上客户的所有需求,所以恐怕只能让传统数据库大厂降降价或者添加一些新的特性罢了,想改朝换代还早得很。所以现在这些新兴的数据库厂商恐怕没有几家能够避免被收购或者破产的命运。

    最新发布的大数据创新成果包括:

    Teradata在数据库分析领域不断推陈出新,但在结构化数据、半结构化数据和大部分非结构化数据领域几乎没有很大成果。这也就是为什么该公司要收购Aster Data——一家提供SQL-MapReduce框架的公司。MapReduce处理拥有广泛的市场需求,因为存在着大量的互联网点击数据、传感数据和社交媒体内容。

    此外Algebraix Data提供了一种全新的看待数据的方式。它在集合理论的基础上经过五年的研发创造出了一种将所有数据转化为数学对象并进行运算的方法,这种方法被他们自己起了一个名字叫做数据代数。据称Algebraix Data可以大幅提升计算的速度和性能。

     

    全球各行各业的组织机构已经意识到,最准确的商务决策来自于事实,而不是凭空臆想。这也就意味着,他们需要在内部交易系统的历史信息之外,采用基于数据分析的决策模型和技术支持。互联网点击数据、传感数据、日志文件、具有丰富地理空间信息的移动数据和涉及网络的各类评论,成为了海量信息的多种形式。

    环球彩票登陆 1

    原文出处:

    MapReduce能将大数据问题分解成多个子问题,将它们分配到成百上千个处理节点之上,然后将结果汇集到一个小数据集当中,从而更容易分析得出最后的结果。

    新技术的出现并不会成为关系型数据库的终结,因为关系型数据库自身也在不断的演进中,而且数据中总是会有一部分结构化的数据。不过随着物联网和非易失内存技术NVDIMM的发展新的数据库也会占有自己的一席之地。数据库行业的发展如何,就让我们拭目以待吧。

    • Oracle Big Data Discovery是 “可视化的Hadoop”,也是面向大数据洞察的,集发现、探索、转变、挖掘和分享为一体的端到端产品。大数据资产将被企业内更多的业务分析师利用,帮助减少风险并加速大数据项目的价值转化。
    • Oracle GoldenGate for Big Data是一个基于Hadoop技术的产品,能让客户从异构交易型系统中将实时数据传入大数据系统中,目标包括Apache Hadoop、Apache Hive、 Apache HBase 和Apache Flume。通过把现有实时的架构合并到大数据解决方案中,客户能够强化其数据分析项目,同时确保其大数据库与生产系统时刻保持一致。
    • Oracle Big Data SQL 1.1将Oracle SQL拓展至Hadoop 和NoSQL,同时拥有与Oracle数据库一样的安全性。它通过一条Oracle SQL语句的快速查询,即可在Hadoop、NoSQL和Oracle数据库中透明地访问所有数据。Oracle Big Data SQL 1.1将Hadoop和Oracle数据库之间的集成变得更加紧密,且查询性能较此前的版本提高了40%。
    • Oracle NoSQL Database 3.2.5是一个适应性解决方案,能够让开发人员创建高性能的新一代应用。该最新版本提供了可预测的低延迟,RESTful API和基于Thrift的C API,并与Oracle大数据平台实现了集成。基于Oracle Big Data SQL,Oracle NoSQL Database 3.2.5还支持数据定义语言(DDL),使得用SQL来查询NoSQL数据变得更加容易。  

    环球彩票登陆 2

    在今天看来Hadoop有些过于重量级了。虽然它其实并不是一个数据库,但它却成为了很多企业进行大数据分析的核心。Hadoop让企业可以轻松地运行分布式并行系统,而且扩展也非常容易。容易扩展这一特性使企业可以以较低的开销进行横向扩展而非较昂贵的纵向扩展。

    以下是部分节选:

    环球彩票登陆 3

    关系型数据库一个可能的替代产品是众多的NoSQL数据库。NoSQL数据库中使用最为广泛的是MongoDB,它在数据库流行榜中排名第四。很多NoSQL数据库为了追求速度和性能在一致性上做出了妥协,但对于企业环境而言,数据一致性还是很重要的一点。NoSQL数据库通常也不能使用SQL进行查询,这对于企业中现有系统的集成是一项很大的挑战。尽管NoSQL的扩展型很好,但如果无法与现有系统进行集成那么在企业中的使用进程注定会很缓慢。

    它既可应用在任意事务环境中,也可以应用在数据仓库(但不能同时进行)。Exadata的混合柱状压缩能够实现列存储数据库的某些高效率特点,提供高达10:1的压缩比,而大部分行存储数据库的平均压缩比为4:1。

    有些使用关系型数据库的企业发现随着数据量的增多加快,现有系统处理起来显得越来越力不从心,即便添置更多的服务器也只是延缓所出现的问题而不能根治。当这些企业逐步迁移到Hadoop等大数据平台后立即发现系统的容错性、可用性、稳定性和性能都得到了提升,一些帮助企业进行迁移的工具也让企业应用可以平稳地过渡到新平台。分布式计算的应用、64位寻址空间的使用和网络带宽的升级也直接或间接地促成了数据库技术的进步。

    业界比较一致对大数据的定义是:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

    从前我们的企业要么是没想到要进行数据分析,要么就是用了并不趁手的工具。

     

    除了软硬件条件的限制不复存在,更重要的是对数据库的需求也在改变。仅仅十年前互联网中大部分还都只是静态网站,而现在各种web service、在线购物等等已经发展得十分成熟,这些都要求数据库的扩展性必须得到提升。此外企业对于数据的使用也发展到了一个新的阶段。可能从前大部分企业只是记录一下交易数据比如卖了多少货然后生成一下报表,今天有了大数据分析这个工具企业拿数据做的事可就多了去了。

    环球彩票登陆 4

    这些新技术是否能够适应市场的需求还需要时间来检验,不过在这些替代产品百花齐放的时候传统的数据库厂商也并没有坐以待毙。比如Oracle早在上世纪九十年代就发展出了支持非结构化数据的方法,在2013年发布的Oracle 12c中也加入了对JSON的支持。Oracle认为SQL是供商务分析人员使用的最好工具,他们不必成为程序员就可以从数据库中获得自己需要的信息。市场需要的并不是一个新数据库,而是现有的商业模式发生了改变,市场的大方向仍然是关系型。

    甲骨文大数据分析系统设施

    现在提到数据库,大家第一个想到的恐怕还是统治数据库行业已达三十年之久的关系型数据库。不过这种情形可能很快就会发生变化。

    8.甲骨文讲述Engineered Systems的故事

    另一个可能的替代产品是NewSQL,它在保持SQL查询接口和ACID特性的同时提供了较好的扩展性,所以未来几年的发展势头不可小觑。比如DeepSQL就采用了和MySQL一样的API和关系模型,因此对于应用程序来说无需任何改动就可以使用。不过DeepSQL自己使用了机器学习的方式来进行数据库的优化,免除了在不同环境中进行数据库优化所需的人力。

    Hadoop可以运行在低成本的硬件产品之上,通过扩展可以成为商业存储和数据分析的替代方案。它已经成为很多互联网巨头,比如AOL、 eHarmony(美国在线约会网站)、易趣、Facebook、Twitter和Netflix大数据分析的主要解决方案。也有更多传统的巨头公司比如摩根大通银行,也正在考虑采用这一解决方案。

    数据库厂商对大数据的关注是由数据发展的三个特征所决定的:数据量、数据产生的速度和数据的多样性。显然关系型数据库的概念在提出时并不能考虑到数据在今天的发展,因此根据今天数据发展的特点来发展新型数据库就显得有其必要性了。

    5.Infobright减少DBA工作量和查询时间

    向企业数据库发力的众多厂商各自的技术和手段可能有所不同,然而这些厂商都有一个共同点,那就是都聚焦在大数据这一热点之上。

    去年,IBM推出了基于DB2的Smart Analytic System(图中左侧),那么它为何还要收购另外的Netezza方案平台呢?因为前者是具备高扩展性企业数据仓库的平台,可以支持成千上万的用户和各类应用操作。比如,呼叫中心通常拥有大量的雇员需要快速回拨客户的历史通话记录。Smart Analytic System提供了整合信息的DB2数据库,预配置Cognos BI软件模块,可以在IBM Power System(RISC或者X86架构)上运行。

    Teradata平台产品家族

    环球彩票登陆 5

    其实,早在惠普收购之前,Vertica就推出有包括内存、闪存快速分析等一系列创新产品。它是首个新增Hadoop链接支持客户管理关系型数据的产品之一,也是首个基于云部署风险的产品平台之一。目前,Vertica支持惠普的云服务自动化解决方案。

    为了支持不同的分析,15.3版本的产品增加了分布式处理功能,来执行PlexQ网格中跨CPU的查询服务。为了确保实现最快速度的查询,PlexQ包含了一个逻辑服务器——让管理员对PlexQ网格的物理服务器组成虚拟群集,以便优化分析工作负载、用户需求和应用程序。

    1010data提供基于云计算大数据分析

    12.1010data提供基于云计算大数据分析

    环球彩票登陆 6

    Knowledge Grid查询引擎

    6.Kognitio提供三倍速度和虚拟多维数据集

    Sybase IQ和其他大多数的支持MPP功能的产品之间区别主要在于,它采用了全共享的方式。全共享的缺点是CPU会争相访问共享存储(通常是SAN),而这会降低查询性能。不过Sybase坚持认为,从优化查询的角度来说全共享会更加灵活,因为所有的CPU 都会访问所有的数据。所以,我们可以对某个特定的查询尽可能多(或者少)地分配计算资源。

    列存储数据库能够自动创建索引,而且无需进行数据分区和DBA调整。相比传统数据库,它可以减少90%的人工工作量,而且由 于其采用高数据压缩,在数据库许可和存储等方面的开支也可以减少一半。

    1.模块化EMC Appliance处理多种数据类型

    2010年EMC收购了Greenplum,随后,利用EMC自身存储硬件和支持复制与备份功能的Greenplum大规模并行处理(MPP)数据库,推出了EMC Greenplum Data Computing Appliance (DCA)。通过与SAS和MapR等合作伙伴,DCA扩大了对Greenplum的数据库支持 。

    SQL Server PDW

    2.Hadoop和MapReduce提炼大数据

    当数据以成百上千TB不断增长的时候,我们需要一种独特技术来应对这种前所未有的挑战。

    今年5月,EMC推出了自己的Hadoop软件工具,而且该公司还承诺,今年秋季发布的模块化DCA将支持Greenplum SQL/关系型数据库,Hadoop部署也能在同样的设备上得到支持。借助Hadoop,EMC能够解决诸如网络点击数据、非结构数据等真正大数据分析的困难。模块化的DCA也能够在同样的设备上支持长期保留的高容量的存储模块,从而满足监测需求。

    环球彩票登陆 7

    Kognitio是一家本身不生产硬件产品的数据库厂商,它看到了客户对快速部署的广泛兴趣和市场需求,推出了在惠普、IBM硬件产品上预配置有WX2数据库的Lakes、Rivers和Rapids解决方案。

    ParAccel大数据解决方案

    环球彩票登陆 8

    甲骨文在9月通过宣布Oracle SuperCluster(图中右侧),扩展了engineered systems产品家族。它采用了最新的Sun Sparc T-4芯片。SuperCluster支持全机架/半机架配置,而且用户可以在半机架容量基础上进行扩容。满额配置提供有1200个CPU线程,4TB内存,97TB至198TB磁盘存储,8.66TB闪存。

    Kognitio基于内存运算的数据仓库和数据分析

    Hadoop是一个开放源码的分布式数据处理系统架构,主要面向存储和处理结构化、半结构化或非结构化、真正意义上的大数据(通常成百上千的TB甚至PB级别数据)应用。网络点击和社交媒体分析应用,正在极大地推动应用需求。Hadoop提供的MapReduce(和其他一些环境)是处理大数据集理想解决方案。

    Teradata日前宣布了一项Aster Data MapReduce产品的计划,它建立在以往产品同样的硬件平台之上,而且在Teradata和Aster Data之间新增了两种集成方法。通过收购,Teradata打破了在数据仓储业被认为最广泛、最具扩展性的界限。

    极具挑战性的是,传统的数据库部署不能处理数TB数据,也不能很好的支持高级别的数据分析。在过去十几年中,大规模并行处理(MPP)平台和列存储数据库开启了新一轮数据分析史上的革命。而且近年来技术不断发展,我们开始看到,技术升级带来的已知架构之间的界限变得更加模糊。更为重要的是,开始逐步出现了处理半结构化和非结构化信息的NoSQL等平台。

    Netezza致力于为数字化营销公司、电信、和其他挖掘成百上千TB甚至PB级别数据的公司,提供高可扩展分析应用的解决方案。IBM的 Netezza TwinFin数据仓库设备,支持大规模并行处理,可以在一天时间内部署完毕。Netezza支持多种语言和方式进行数据库分析,其中包括Java、C、 C 、Python和MapReduce。与此同时,它还支持如SAS,IBM SPSS使用的矩阵操作方法和R编程语言。IBM Netezza最近增加了一个高容量长期存档设备以满足更多要求。

    今年年初微软发布的SQL Server R2 Parallel Data Warehouse(PDW,并行数据仓库),一改以往SQL Server部署时间需要花 费两年半时间的历史,它可以帮助客户扩展部署数百TB级别数据的分析解决方案。支持这一产品的包括有合作伙伴惠普的硬件平台。发布之初,虽然微软官网提供有让利折扣,但PDW售价仍超过13000美元/TB(用户和硬件访问量)。

    Sybase IQ

    Lakes能够以低成本、10TB数据存储和每个模块48个运算核心提供大容量存储服务。电信或金融服务公司,可以使用这种配置来扫描大量的分支结构的各种信息记录。Rivers则提供了容量和速度之间的平衡,预配置为2.5TB存储容量,它的每个模块拥有48个运算核心。而追求查询性能的 Rapids,其预配置提供有96个运算核心,每个模块仅仅为1.5TB。该产品方案主要针对金融公司在算法交易或者其他高性能要求方面的需求。

    环球彩票登陆 9

    内置的分析算法可以为分析师提供高级数学运算、数据统计、和数据挖掘等各种功能,同时,它还提供一个开放的API,可以扩展数据库的各种数据处理能力和第三方分析应用。

    环球彩票登陆 10

    Smart Analytic System及Netezza

    4.IBM提供运维和分析数据仓库

    其客户包括有对冲基金、全球各大银行、证券交易商,零售商和包装消费品公司。

    惠普Vertica实时分析平台

    正如标题所说,1010data能够提供基于云计算的大数据分析平台。很大数据库平台供应商提供基于云的沙箱测试和开发环境, 但1010data的管理数据库服务,主要针对将整个工作负载迁移到云的全过程。

    基于MPP大规模并行处理的PlexQ分布式查询平台,通过将任务分散到网格配置中的多台计算机,加速了高度复杂的查询。有报道说,它能提供比现有的IQ部署快12倍的交付能力。

    本文中,我们将向大家介绍迄今为止,包括EMC的Greenplum、Hadoop和MapReduce等提供大数据分析的产品。此外,惠普前段时间收购实时分析平台Vertica、IBM独立的基于DB2智能分析系统和Netezza的相关产品。当然,也有微软的Parallel Data Warehouse、SAP旗下公司Sybase的Sybase IQ数据仓库分析工具等。下面,就让我们来了解业界大数据分析的这十二大产品:

    微软在今年10月12日通过推出Apache Hadoop和相关的SQL Azure Hadoop服务,宣布进入大数据领域。Azure服务将在2011年底亮相,而相应的本地配套软件要在明年上半年推出,现在也不清楚微软是否会与其他硬件合作伙伴或者相关大数据设备厂商合作。

    大数据分析迎来大时代

    MapReduce结构图

    支持大数据分析的EMC Appliance

    SAP旗下的Sybase是列存储数据库管理系统的首批厂商,而且目前仍然是拥有2000多个客户的畅销厂商。今年夏天推出了Sybase IQ 15.3版本,该版本产品能够处理更多数据和更多数据类型,也能胜任更多查询,当然这主要得益于其包含了一个名叫PlexQ 的大规模并行处理功能。

    环球彩票登陆 11

    3.惠普Vertica电子商务分析

    7.微软SQL Server新增PDW功能

    环球彩票登陆 12

    ParAccel是ParAccel Analytic Database(PADB)的开发厂商——提供快速、选择性查询和列存储数据库,并基于大规模并行处理优势特点的产品。该公式表示,其平台支持一系列针对各种复杂、先进应用的工作负载报告和分析。

    环球彩票登陆 13

    11.Teradata从EDWs跨入大规模分析领域

    环球彩票登陆 14

    甲骨文表示,Exadata(图中左侧)是迄今以来发布的产品中最为成功的产品,自从2008年推出以来,已经拥有超过1000名客户。而 engineered system使得甲骨文11g数据库,可以支持基于X86的数据处理和磁盘存储层,其闪存缓存也使得可以实现超快速查询处理。

    Table functions被用来传送和接收第三方和采用C、C 等编写的定制算法的数据结果。ParAccel与Fuzzy Logix——一家提供各种描述统计学、统计实验模拟和模式识别功能库功能的服务商。此外, Table functions还支持MapReduce和广泛应用在金融服务的700多种分析技术。

    和很多产品一样,PDW使用了大规模并行处理来支持高扩展性,但微软进入这一市场实属“姗姗来迟”,而且在一定程度上说,数据仓库分析和内存分析计算市场落下了后腿。目前,微软寄希望于其整体数据库平台在市场上带来的差异化竞争力。这意味着,所有沿袭了基于微软平台的数据和数据管理,将被广泛应用在信息集成领域——Reporting and Analysis Services,而这一切都基于SQL Server数据库。

     

    在十月召开的Oracle OpenWorld中,甲骨文宣布将新增一个分布式pache Hadoop软件和相关的大数据设备。甲骨文也计划推出一个独立的基于开源BerkeleyDB产品的NoSQL。

    甲骨文声称,SuperCluster事务处理和数据仓库性能相比传统服务器架构能分别带来10倍和50倍速度提升。但作为一个专有的Unix机器,甲骨文想通过SuperCluster,在面向x86硬件的数据仓库部署迁移大潮中力挽狂澜。甲骨文的Exadata和Exalogic都基于x86 架构而且运行Linux系统。

    环球彩票登陆 15

    9.ParAccel大打列存储、MPP和数据库分析组合拳

    10.Sybase推进IQ列存储数据库

    一旦成为企业级数据仓库(EDW)的宣传者,近年来Teradata就已经放松了扩展Teradata数据库产品家族的步伐。该公司的高性能、高容量产品被广泛采用和复制,因为其中包括了很多企业工作量管理的功能模块,包括虚拟OLAP(三维立体式)分析模型 。

    InfoBright最新的4.0版本产品,新增了一个DomainExpert的功能。企业用户可以借此忽略不断重复的那些数据,比如邮箱地址 、URL和IP地址。与此同时,公司还可以增加与呼叫记录、业务交易或者地理位置信息相关的数据。Kowledge Grid查询引擎则可以帮助过滤那些静态数据而只关注那些变化的数据。也就是说,它可以帮助节省数据查询的时间,因为那些无关的数据无需进行解压缩和筛选。

    该服务支持一种提供“丰富而又高级的内置分析功能”,其中包括有预测分析。其一大卖点是服务包括了数据建模和设计、信息集成和数据转换。

    大数据分析迎来大时代

    今年二月被惠普收购的Vertica,是能提供高效数据存储和快速查询的列存储数据库实时分析平台。相比传统的关系数据库,更低的维护和运营成本,就可以获得更快速的部署、运行和维护。该数据库还支持大规模并行处理(MPP)。在收购之后,惠普随即推出了基于x86硬件的HP Vertica。通过MPP的扩展性可以让Vertica为高端数字营销、电子商务客户(比如AOL、Twitter、 Groupon)分析处理的数据达到PB级。

    何谓大数据?

    大数据,也就是国外常说的Big Data。IBM把大数据概括成了三个V,即大量化(Volume)、多样化(Variety)和快速化(Velocity)。这些特点也反映了大数据所潜藏的价值(Value),我们也可以认为,四个V高度概括了大数据的基本特征。

    Infobright列存储数据库,旨在为数十TB级别数据提供各类分析服务。而这一块也正是甲骨文和微软SQL Server的核心市场之一。InfoBright还表示,建立在MySQL基础之上的数据库也提供了另外一种选择,它专门针对分析应用、低成本简化劳动力工作、交付高性能的服务进行设计。

    今年, Kognitio新增了一个虚拟化OLAP风格的Pablo分析引擎。它提供了灵活的、为企业用户进行分析的解决方案。用户可升级选用WX2构建一个虚拟多维数据集。因此,WX2数据库中任何一个维度的数据都可在内存中用于快速分析。这种分析的前端接口是我们常见的Microsoft Excel。

    本文由环球彩票登陆发布于环球彩票登陆,转载请注明出处:盘点大数量剖析的十二大特长【环球彩票登陆】

    关键词: 环球彩票登陆 数据 行业 数据库 Big Data