熊宝宝配资

禹城信息社 网站股票配资 资讯列表 资讯内容

海潮信息:企业互联网化下的数据平台升级

2020-07-19| 发布者: 禹城信息社| 查看: 144| 评论: 3|来源:互联网

摘要: 原标题:海潮信息:企业互联网化下的数据平台升级|云·创课程实录来源:量子位Original主讲人|海潮信息数据库产...
 

原标题:海潮信息:企业互联网化下的数据平台升级 | 云·创课程实录 来源:量子位

Original 主讲人 | 海潮信息数据库产物线总司理-乔鑫张康 编辑整理量子位编辑 | 公众号 QbitAI

主讲人 | 海潮信息数据库产物线总司理-乔鑫

张康 编辑整理

熊宝宝配资量子位编辑 | 公众号 QbitAI

6月中旬起,量子位发起了以数据库为主题的系列公然课,约请来自海潮信息、蚂蚁集团、腾讯云等头部企业的数据库技能线卖力人,围绕数据库的行业现状、趋势与技能进展等内容,以线上直播的情势为各人带来3期分享。

第二期直播中,海潮信息数据库产物线总司理—乔鑫讲述了HTAP数据库的技能原理、优化方案以及开发部署提要等技能问题,为数百位观众带来前瞻的引导。

熊宝宝配资以下是分享内容实录,直播回放链接、PPT获取方式见文末。

当前数据库行业市场趋势

当前大数据期间,数据量连续的发作。在行业权势巨子陈诉中,我们可以或许从定性到定量有一个更清晰的认知:

熊宝宝配资从1970年到2005年,甚至2010年,数据的发展相对来讲比力缓慢,而且大部门数据是结构化数据。从2015年到2020年,数据量有了发作性的增长。一方面,结构化数据在连续增长,另一方面,非结构化数据迅速增长。在2015年时,结构化数据与非结构化数据各占半壁山河,但到了2020年时,结构化数据约占1/5,非结构化数据将占到4/5。

随着互联网、云计算、大数据的普及,数据量增长速率加速,数据的类型也越发富厚多样。根据IDC的预估来看,2020年整个数据量能到达50ZB,到2025年整体数据量将到达175ZB。

数据的结构分类

结构化数据、非结构化数据、半结构化数据都表示什么?

用技能的语言来讲,能用二维表的方式体现出来的数据就是结构化数据,用关系型数据库来做相应的支持和存储。结构化数据典型性的代表,有:银行账户信息、企业CRM、ERP信息等数据,包括我们在上学时的档案信息等。

熊宝宝配资与结构化数据相对应的就是非结构化的数据,结构化的数据是用二维表可以或许举行体现、存储管理,非结构化数据无法用二维表去体现和存储。非结构化数据的结构不规则、不完备,没有预界说的数据模子。好比我们通常看到的文本数据、图像数据、音视频数据等都属于非结构化数据。

熊宝宝配资在结构化数据和非结构化数据之间,另有半结构化数据。半结构化数据、包罗相干标志,用一些分开符可以对数据举行相应的支解,但是现实上内里照旧有大量的数据的结构是不规则的。邮件、html、xml等都是常见的半结构化数据。

数据的价值分类

熊宝宝配资上述分类是根据数据的类型举行分类,我们也实验着根据数据的价值分类,分为稠密数据和稀疏数据。

熊宝宝配资稠密数据具有三大特点,起首是价值密度比力大,数据容量较小。以金融行业为例,信用卡的数据就是稠密数据,用户的每一条消费记载都是有价值、不能丢失的。稠密数据的数据量通常是在GB到TB级别,少数能到达PB级,它的数据容量相对来讲还比力小。其次稠密数据的变更相对比力频仍,数据流量比力小。

稀疏数据也有三大特点,起首是数据价值密度比力小,但整个的数据的容量是比力大的,有几百TB甚至到达几十PB的范围。其次稀疏数据产生的速率比力快,数据来源比力多样。好比拍摄视频的摄像头,一天24小时都在记载、产生大量的数据,但是这些数据里的价值密度相对比力小,可能只有在产生某些事故时,我们去检察对应的某一段或者是某几帧来相识事故的情况,才体现出一些价值。

熊宝宝配资针对稠密的数据和稀疏的数据,我们用什么样的架构来举行支持呢?

熊宝宝配资稠密数据一般接纳焦点式架构来举行相应的支持。焦点式架构最主要的特点是数据的一致性要求非常高,节点级的可靠性要求也非常高。节点级的可靠性一方面是指软件(基础软件、操作体系、数据库),另一方面也指硬件(服务器、存储、网络等),对于可靠性的要求都非常高。焦点式架构的另一个特点是业务稳定性非常高,对于整体的运维来讲比力便捷。

熊宝宝配资稀疏数据一般接纳敏捷式架构来举行支持。敏捷式架构是一种漫衍式的方式,它的特点起首是在横向扩展有比力大的上风。另外稀疏数据也是有一定价值的,因此敏捷式架构的高可用更多从体系级举行相应的思量。从吞吐量上来讲,上述讲到稀疏数据有海量的数据,以是说敏捷式架构具有巨大的数据吞吐。末了敏捷式架构易于部署、开发敏捷,同时部署的成本比力低。

数据库产物的发展

数据库分类

熊宝宝配资起首是数据库的分类,主要包括关系型数据库、非关系型数据库和其他类型的数据库。

关系型数据库是我们评论的比力多的,好比在国际上比力有名的Oracle数据库、IBM的DB2数据库、微软的SQLServer数据库,以及MySQL,PG等开源数据库。海内的关系型数据库包括海潮的K-DB、达梦、人大金仓、神州通用、阿里OceanBase等。

非关系型数据库比力常用的如MongoDB、Redis、HBase等数据库。其他类型数据库常见的好比多媒体数据库、工程数据库、嵌入式数据库、时序数据库等。

从关系数据库的和非关系数据库的特点上来讲,关系型数据库一般适用于稠密数据,非关系型数据库适用于稀疏数据。相对应的,关系型数据库的特点是有固定的数据结构,对SQL的尺度支持做的比力好,对于庞大的数据库增、删、改、查操作都有很好的支持;但是相应的其横向扩展上存在一些困难。

熊宝宝配资非关系型数据库的特点一是数据的格式比力多样,二是横向扩展的能力比力高,而且它整个的架构比力机动;但在SQL尺度化上存在一些问题,而且对于一些庞大的数据操作还存在一些不足。

数据库的市场情况

接下来看一下全球数据库市场的排名情况,国际上比力认可的是DB-Engines Ranking的排名。我们发明排在前几名的是一些主流的关系型数据库,排到前四名的分别是Oracle、MySQL、SQL Server、PostgreSQL,关系型数据库现在连续占据全球数据库市场排名前线。

另外比年来许多非关系型数据库发展迅速,在排名上增长较快,好比第5名的MongoDB,第8名的Redis,但是从得分情况来看,与关系型数据库还存在一定差距。

再来看中国的数据库市场情况,关系型数据库Oracle的贩卖额占中国市场的40%-50%。

但是近几年我们也可以看到国产数据库百花齐放,据不完全统计,现在中国的数据库厂家到达百余家,尤其是18、19年国产数据库高速发展,关系型、非关系型的数据库产物,及相干技能上都日益成熟。海潮作为一家中国的数据库企业很欣喜能看到如许的现状。

企业数据平台升级方案

数据平台通用架构

从底层看,起首是数据源,包括结构化数据、半结构化数据、非结构化数据。然后通过获取层收罗这些数据去做ETL等相应处置惩罚。

熊宝宝配资再往上是数据层,主要包括两个部门:一部门是焦点库,包罗主数据库和数据堆栈,可以直接从获取层提取相应的数据;一部门是大数据平台,可以处置惩罚一些稀疏数据,而且把处置惩罚完的数据打到焦点库里边。

颠末数据层两部门的处置惩罚,接着向上提供数据的同一服务和开发,包括数据分析、数据挖掘、实时处置惩罚等能力。再往上是针对终极客户的业务应用,形成一些应用的支持。

熊宝宝配资联合上述两部门内容,焦点数据库内里存放的大部门是稠密数据,大数据平台里存放的大部门是稀疏数据。今天我主要先容焦点库如那边置惩罚稠密数据。

应用需求变化

在应用的需求层面,目前主要有4点变化。一是需要海量数据存储,数据总量大、数据增长快,已经到了PB级。二是要求数据实时入库,大量新增数据需要实时入库,同时还需要实时清算低价值数据。三是秒级分析和挖掘以防止价值点缺失,需要极高的查询相应速率。四是庞大的业务场景,频仍产生新建分区、建立索引、插入、更新等事情,对数据的一致性要求更强。

熊宝宝配资对于海量数据存储、秒级分析挖掘,现实上更多的是对传统OLAP数据库的一些要求。而对于数据实时入库、庞大业务场景,更多的是对OLTP的要求。但现实上许多客户既要求有OLTP这种实时入库的性能,同时也要有OLAP这种秒级分析和挖掘的性能。以是我们就需要进一步的数据平台升级,满足客户应用需求的变化。

海潮的漫衍式架构方案

海潮提供了一个漫衍式的架构方案—inData,是软硬件一体化的方案。

从软件来看,在计算节点上我们使用了K-DB数据库的计算引擎,和K-DB独占的K-RAC技能(类似于Oracle的功效,可以或许实现业务的动态负载,同时在 n-1个节点宕机时,剩下的节点还能保持高可用,对于用户业务的高可用性提供了很好的支持)。

从硬件来看,硬件分为存储、网络和计算几个条理。我们加了存储的虚拟化,把用户的全部数据分散到差别的存储节点上,这种计算节点和存储节点都可以用x86服务器来举行相应的支持。

海潮漫衍式架构的技能上风

起首是高扩展性,可以动态增长计算节点和存储节点。计算节点我们可以加到8个、16个或更多,存储节点的数目可以增长到千的数目级,而且随着节点数的增长,架构的性能、容量呈线性增长。

其次是高可靠性,海潮的漫衍式架构是全冗余的架构,没有单点妨碍。从硬件上来讲,在服务器、存储、网络方面都制止了单点妨碍。从软件层面来讲,我们也支持多副本技能,实现了数据级的冗余,可以实现数据的两副本或者三副本,实现整个体系级的高可靠性。

熊宝宝配资第三点是高性能,随着客户应用、业务的变化,对数据库性能的要求更高。海潮通过智能过滤、高速缓存、存储索引等技能,实现了海量的吞吐、微秒级的延迟。

熊宝宝配资第四点就是易管理,海潮提供了一体化的图形监控工具,可以智能辨认、定位妨碍源,实时监控数据库软硬件的状态,使用户的运维管理越发方便。

熊宝宝配资要害技能保障HTAP高性能

熊宝宝配资上述第三点睁开来讲,海潮主要是从4个方面提高了漫衍式架构的性能。

一是智能过滤技能。在应用智能过滤技能之前,如果要在计算节点上做一个庞大的大量的查询,就需要在存储节点上把整个的负荷要求的数据都传输到计算节点上,极大消耗了计算资源、占用了网络带宽。通过智能过滤技能,就把第一步的查询下移到了存储节点上,更好的利用了存储节点的计算能力,开释计算节点计算力。降低网络负载。

二是高速缓存技能。在计算节点的内存之间、存储节点的磁盘之间,我们用闪存做了一个热缓冲,缓存热数据,提高了对查询、插入等操作的相应速率。

三是配合智能过滤的存储索引技能。智能过滤更多的是开释计算资源和网络资源,而存储索引技能更多的开释了存储资源。我们对用户的数据做了透明处置惩罚、自动维护,建立一个自动的索引,极大地提升了索引效率。

四是列压缩技能。可以或许提升5-10倍的数据压缩率,同时消耗的计算资源较小,可以控制在1%-2%。

熊宝宝配资上述4种技能进一步提升了海潮一体化方案的性能,可以或许满足客户的海量数据录入需求,同时也会可以或许实现秒级的分析和挖掘需求。

熊宝宝配资海潮inData数据库一体机支持的场景主要包括五个部门。一是传统SAN架构的替换,大幅度降低采购成本、运维进一步简化。二是数据库的性能方面实现很大的加速。三是HTAP混淆负载,性能大幅提升,解决了IO、带宽瓶颈。四是数据库的整合,把分散的数据举行体系性的整合,同时建立起自己的数据库云平台。五是很好的替换了Oracle的Exadata,是去IOE的最佳实践,而且具有更高的性价比。

案例分享

末了先容一个客户案例。这个客户的特点一是数据量很大,数据初始总量约为200TB,同时天天新增1TB;二是需要实时入库,而且要求与原来的初始数据做出整合,实现秒级的数据分析和挖掘。

海潮提供的方案是,起首给给数据做双副本,包管业务的高可用;其次在计算节点和存储节点,针对客户的业务量和性能要求做了相应的测算和设置,接纳了定制化的4+30设置,即4个计算节点,30个存储节点。整体来看,很好的支持了客户的焦点库应用,而且可以或许支持其未来三年的数据增长。

熊宝宝配资末了为海潮的K-DB数据库做一个广告。K-DB已经服务于全行业,包括金融、能源、政府、交通等,为500多家客户、2000多套业务体系提供了数据库的支持。同时我们也希望未来有更多的用户来支持国产数据库的发展。海潮作为国产数据库厂商,一定会做好产物、做好技能,为中国的数据库发展添一份气力,谢谢各人。

传送门

直播回放链接:http://www.bilibili.com/video/BV1iK411n7N6

PPT获取方式:扫码添加小助手,备注“海潮”~

熊宝宝配资本文系网易期货配资 •网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,克制随意转载。

熊宝宝配资相识AI发展现状,捉住行业发展机遇

熊宝宝配资如何存眷、学习、用好人工智能?

熊宝宝配资每个事情日,量子位AI内参精选全球科技和研究最新动态,汇总新技能、新产物和新应用,梳理当日最热行业趋势和政策,搜索有价值的论文、教程、研究等。

同时,AI内参群为各人提供了交流和分享的平台,更好地满足各人获取AI资讯、学习AI技能的需求。扫码即可订阅:

AI社群 | 与优秀的人交流

量子位 QbitAI · 头条号签约作者

熊宝宝配资վ'ᴗ' ի 追踪AI技能和产物新动态

喜爱就点「在看」吧 !

(声明:本文仅代表作者观点,不代表新浪网态度。)

文章要害词: 网络文化

用微信扫描二维码分享至挚友和朋友圈

' + _substr(uids[i].name, 0, 14) + '

熊宝宝配资' + _substr(uids[i].v_reason, 0, 16) + '



分享至:
| 收藏
收藏 分享 邀请

最新评论(0)

Archiver|手机版|小黑屋|禹城信息社  

GMT+8, 2019-1-6 20:25 , Processed in 0.100947 second(s), 11 queries .

Powered by 禹城信息社 X1.0

© 2015-2020 禹城信息社 版权所有

微信扫一扫