当前位置: 首页 > 新闻中心 > ibm storage ceph:现代数据湖仓的理想技术底座

ibm storage ceph:现代数据湖仓的理想技术底座

发布时间:2024-02-04 19:50:33

  1. 数据仓库:IBM DB2 Datawarehouse介绍
  2. 数据库与数据仓库的区别
  3. IBM当年把PC部门卖给联想后,我还以为IBM破产倒闭了呢,没想今年市值居然超越了微软,它是靠什么复活的?

一、数据仓库:IBM DB2 Datawarehouse介绍

  db data warehouse edition (wde) 是一个用于灵活 可伸缩和集成的数据仓库和分析应用程序的业务智能平台 dwe以db udb作为它的核心引挚开始 并用一组仔细选择的分析功能来为business intelligence提供综合的开发和运行时平台 db udb跨各种服务器平台和架构进行容易的伸缩(从 gb到 tb数据库) 发布的tpc h基准的长时间和连续的跟踪记录证明了db 的伸缩效率 最终可伸缩性阈值和平台可移植能力 db udb data warehouse standard edition db udb data warehouse base edition和db udb data warehouse enterprise edition可用于aix linux solaris和windows系统

db udb enterprise server edition v 及其db database partioning feature是包括在data warehouse enterprise edition中的 db udb enterprise server edition v 中包括在db udb data warehouse base edition中的 db udb workgroup server unlimited edition v 中是与db udb data warehouse standard edition一起提供的

db udb v 中的data warehouse特性包括

用于大量可伸缩性的database partitioning feature

用于提高dba效率和所有规模的数据库的自动管理

多维数据集群 在olap和其他查询中使用的数据的优化存储选项

为仓库查询提供cube似的性能的具体化查询表

帮助维护实时仓库的online utilities

design advisor 使得易于为高性能的分析工作负荷设计优化的一组仓库对象(包括mqt 索引 分区和mdc)

用于高级分析的内置功能 包括回归 协方差 柱状图和移动窗口

具有行级和页级选项的示例功能

高级优化技术 包括具有动态位图索引的星连接算法

默认值的压缩(例如 大字符字段的尾随空白) 这提供了有效 低开销的技术 以减少大型仓库的磁盘需求

db universal database 允许您在任何时间 从企业中的任何位置 从任何应用程序访问任何信息 而且具有业界最低的总体拥有成本 最新版本通过 smart(self managed and resource tuning 自管理和资源调整) business intelligence增强功能及扩展能力提供了强大的自动化能力 以在您的公司中集成信息

lishixinzhi/article/program/db2/201311/21925

二、数据库与数据仓库的区别

简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。

数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。

数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。

数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的id。

单从概念上讲,有些晦涩。任何技术都是为应用服务的,结合应用可以很容易地理解。以银行业务为例。数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来,这里,可以简单地理解为用数据库记帐。数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据。比如,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。如果存款又多,消费交易又多,那么该地区就有必要设立atm了。

显然,银行的交易量是巨大的,通常以百万甚至千万次来计算。事务系统是实时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储很短一段时间的数据。而分析系统是事后的,它要提供关注时间段内所有的有效数据。这些数据是海量的,汇总计算起来也要慢一些,但是,只要能够提供有效的分析数据就达到目的了。

数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。那么,数据仓库与传统数据库比较,有哪些不同呢?让我们先看看w.h.inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。

“面向主题的”:传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。这一点,类似于传统农贸市场与超市的区别—市场里面,白菜、萝卜、香菜会在一个摊位上,如果它们是一个小贩卖的;而超市里,白菜、萝卜、香菜则各自一块。也就是说,市场里的菜(数据)是按照小贩(应用程序)归堆(存储)的,超市里面则是按照菜的类型(同主题)归堆的。

“与时间相关”:数据库保存信息的时候,并不强调一定有时间信息。数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。决策中,时间属性很重要。同样都是累计购买过九车产品的顾客,一位是最近三个月购买九车,一位是最近一年从未买过,这对于决策者意义是不同的。

“不可修改”:数据仓库中的数据并不是最新的,而是来源于其它数据源。数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据(有的数据库例如电信计费数据库甚至处理实时信息)。因此,数据仓库中的数据是极少或根本不修改的;当然,向数据仓库添加数据是允许的。

数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。

补充一下,数据仓库的方案建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大。为了更好地为前端应用服务,数据仓库必须有如下几点优点,否则是失败的数据仓库方案。

1.效率足够高。客户要求的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内,客户能看到昨天的数据分析。由于有的企业每日的数据量很大,设计不好的数据仓库经常会出问题,延迟1-3日才能给出数据,显然不行的。

2.数据质量。客户要看各种信息,肯定要准确的数据,但由于数据仓库流程至少分为3步,2次etl,复杂的架构会更多层次,那么由于数据源有脏数据或者代码不严谨,都可以导致数据失真,客户看到错误的信息就可能导致分析出错误的决策,造成损失,而不是效益。

3.扩展性。之所以有的大型数据仓库系统架构设计复杂,是因为考虑到了未来3-5年的扩展性,这样的话,客户不用太快花钱去重建数据仓库系统,就能很稳定运行。主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于数据量大很多,就运行不起来了。

三、IBM当年把PC部门卖给联想后,我还以为IBM破产倒闭了呢,没想今年市值居然超越了微软,它是靠什么复活的?

ibm之是把个人pc事业部卖给了联想,其中只包括台式电脑和笔记本电脑。其他的还是ibm自己的。ibm之所以要卖是因为pc事业不适合ibm未来的发展,ibm主攻服务器,为各种大中小企业做方案。个不同企业需要怎么样的网络,怎么样的服务器,对企业内部网络有什么需求,ibm都有专人来跟企业做符合哪个企业的计划方案。ibm目前主要来说就是做服务器和企业网络解决方案。

当初ibm只是卖了个人pc事业部给联想,早在2005年就卖了,所以2006年到2007年这段时间购买的ibm笔记本很多都没有了ibm的标志,只有thinkpad的logo。当初ibm为了thinkpad的品牌效应要求联想10年内不可以在thinkpad笔记本上出现联想标志。直到2008年奥运,联想成了唯一pc赞助商,你可以回顾看一下录像,奥运到处都充满了联想,包括打印机这样的非联想强项的产品。联想也是抓住这一机会在thinkpad上打上了lenovo的标志,为此联想也支付了一大笔违约金。但是这违约金怎么能跟奥运的独家赞助比呢。

ibm很多人都知道,浪潮知道吗?浪潮跟ibm很像,都是做服务器,给企业做方案。但是很多人都不知道浪潮,就知道联想什么的。浪潮的研发实力可是比联想牛b多了。只是浪潮涉及的方面我们一般接触不到,自然也没太多人去关注,一般人都在看着5000左右什么本子性价比高,可人家要看5w的服务器那个适合你们公司。领域不同,视角不同,我们老百姓一般接触不上。

购买服务器的人并不多,所以几乎看不见个城市会出现实体店卖服务器,ibm的代理全国只有几个,神州数码就是其中只1,个地级市是没有代理了,所有业务都由个代理的区域业务跟进。一般都称呼为大客户部。ibm还有自己的业务人员来跟进客户。他们会用某种方式弄到最终客户的联系方式,然后跟客户电话联系,会询问最近是否有采购服务器的计划。一般这样的电话联系方式一天几百个电话出去可能只有1-2个有回应的,这样的耐心很难得啊。如果是已经购买的客户,ibm也会不定期电话回访,询问使用中遇到的问题,小问题的话电话解决或者远程协助,问题严重的会安排上门处理。在售后服务方面可以说是态度一流的。在企业网络解决方案和服务器上,ibm到现在为止还是绝对的老大地位。

回头再说说ibm把think卖掉了,从目前来看think的产品已经不适合ibm的发展,还不如卖给一个市场拉力大的公司来操作,自己专攻拿手项目。到目前位置,没有那个公司能把服务器、企业网络解决方案和个人pc都做得风生水起的。联想是有服务器,但是联想在服务器领域并不强,联想只是靠着着品牌效应,但是联想在个人消费类产品和家庭消费类产品绝对比ibm牛x。要不是联想来接这个盘,我想think也发展不到今天。

其实联想在接收think后并不干涉think的研发,主要研发还是在日本和美国,联想主要是负责市场推广。一定层面上来说联想在帮think打工,但是这个打工仔的工资可是很高的。只要仔细观察一下现在联想很多机器的键盘跟think e笔记本的键盘非常像,联想昭阳系列商务机跟think的l410系列大客户机相仿程度甚至达到80%以上。乔布斯死了,很多人都说为什么中国出不了乔布斯,中国模仿能力这么强,为什么需要乔布斯。think的研发设计很多都给联想学了去,自从收购了think联想就有了商务机。自从被联想收购think就有了之前的sl系列,现在的e系列,x100系列消费类产品。可以说是两个相互依存的关系。

为什么一个网络一个服务器要做方案,一些小公司可能感觉不出来,可是一些全国性的或者跨几个市的企业,他们通常都需要一套自己的网络,财务数据,销售数据,库存,或者是建立一个公司自己的电子邮件服务器等等。想要实现这些功能并不是你到电脑城配一个高端的台式机就能解决的。比如电信用的服务器,从开始使用的时候,到寿终正寝n年下来几乎没关过机,就这点一般的电脑是不行的。所以服务器价格贵,但是很多公司都需要,不仅需要服务器还需要技术支持,需要一套详细的解决方案,ibm就是看准了这一点。企业客户不像个人客户买东西为了几十块钱,多送个鼠标垫跟你砍个半天。