数据蒋堂 目录下的全部文章
【数据蒋堂】第46期:大数据集群该不该透明化?

【数据蒋堂】第46期:大数据集群该不该透明化?

这好像是个多余的问题,大部分大数据平台都把集群透明化作为一个基本目标在努力实现。 所谓集群透明化,是指把一个多台机器的集群模拟得像一个巨大的单机,只是系统管理层面知道体系是由很多单机集群而成,应用程序…
【数据蒋堂】第45期:大数据计算语法的SQL化

【数据蒋堂】第45期:大数据计算语法的SQL化

发布时间:2018-03-06 分类:数据蒋堂 Tag:,,,
回归SQL是当前大数据计算语法的一个发展倾向。在Hadoop体系中,现在已经很少有人会自己从头来写MapReduce代码了,PIG Latin也处于被淘汰的边缘,而HIve却始终坚挺;即使是Spark…
【数据蒋堂】第44期:谈谈临时性计算

【数据蒋堂】第44期:谈谈临时性计算

发布时间:2018-02-27 分类:数据蒋堂 Tag:,,,,,
临时性计算,顾名思义,是指临时发生的一些计算需求。这种计算在日常数据处理中很常见,我们举一些例子: 应对业务部门的取数需求:比如销售部门想获得进行了某项促销活动前后的销售情况变化信息; 数据挖掘算法前…
【数据蒋堂】第43期:报表开发的现状

【数据蒋堂】第43期:报表开发的现状

发布时间:2018-02-22 分类:数据蒋堂 Tag:,,,,
报表开发,看起来只是数据呈现环节的事务,并不起眼,但仔细想想,它涉及的工作范围却非常广。如果把查询和交互分析也认为是报表事务的话(呈现形式本来也是报表),那么可以说,绝大多数ETL都是在为报表准备数据…
【数据蒋堂】第42期:RDB与NoSQL的访问性能

【数据蒋堂】第42期:RDB与NoSQL的访问性能

发布时间:2018-02-12 分类:数据蒋堂 Tag:,,,,
我们继续从软件角度上看外存数据源的性能,来考察数据库的性能特点,在这篇文章中,我们只关心数据的访问性能,而不涉及计算性能。 关系数据库 关系数据库也是很常见的数据存储方式。本质上讲,数据库其实也是一种…
【数据蒋堂】第41期:文件的性能分析

【数据蒋堂】第41期:文件的性能分析

发布时间:2018-02-06 分类:数据蒋堂 Tag:,,,,
我们以前讲过硬盘的性能特征,主要是针对硬件层面进行分析的,现在我们来考虑软件层面的差异。 理论上讲,软件可以穿过操作系统直接进行磁盘扇区的访问,但实在太过于麻烦而几乎不会实践机会,这里就不考虑了,我们…
【数据蒋堂】第40期:倍增分段技术

【数据蒋堂】第40期:倍增分段技术

发布时间:2018-01-23 分类:数据蒋堂 Tag:,
区块分段方案能够满足我们设定的4个目标。不过,除了处理区块标记的麻烦外,这个办法对于列存也不是非常适合。 数据按列分别存储后,分段时必须保证各列同步,即各列的分段点对应的是同一条记录的列,否则就会出错…
【数据蒋堂】第39期:数据分段讨论

【数据蒋堂】第39期:数据分段讨论

发布时间:2018-01-16 分类:数据蒋堂 Tag:,,
现代计算机一般都有多CPU核,而日益广泛应用的固态硬盘也有较强的并发能力,这些硬件资源都为并行计算提供了有力的保证。不过,要实现并行计算还需要有较好的数据分段技术,也就是能方便地把待计算的数据拆分成若…
【数据蒋堂】第38期:JOIN延伸 - 维度其它应用

【数据蒋堂】第38期:JOIN延伸 – 维度其它应用

发布时间:2018-01-09 分类:数据蒋堂 Tag:,,,
明确维度定义后,还可以换一种更清晰的方式来审视数据库的结构。 这是我们常见的E-R图: E-R图是个网状结构,实体(表)之间的外键关系直接画在图上,当实体较多时这个图就会显得非常零乱,关联线很随意,任…
【数据蒋堂】第37期:JOIN延伸 - 维度查询语法

【数据蒋堂】第37期:JOIN延伸 – 维度查询语法

发布时间:2018-01-03 分类:数据蒋堂 Tag:,,
有了维度定义后,我们就可以来梳理前面讲过的简化JOIN语法了。 先定义字段维度: 维度字段的维度为其本身; 外键字段的维度为相应外键表中关联字段的维度; 测度字段没有维度; 这是个递归定义。 &nbs…