数据蒋堂 目录下的全部文章
怎样生成有关联的测试数据

怎样生成有关联的测试数据

发布时间:2018-07-24 分类:数据蒋堂 Tag:,,,,
在向用户推荐新的数据处理技术,特别是涉及性能优化的场景时,经常会碰到生成测试数据的需求。毕竟,新方案要经过验证才能提交,而优化过程也不是一次就做完的,需要多次不断的迭代改进,这就需要有一套好的测试数据…
遍历复用

遍历复用

发布时间:2018-07-17 分类:数据蒋堂 Tag:
减少外存(硬盘)访问量一直是提高大数据计算性能的永恒话题,我们也讨论过列存、压缩等直接减少访问量甚至存储量的手段。除了这些存储层面的方法外,在算法和计算实现环节,也可以想办法减少外存的访问量。 遍历是…
一些数据压缩手段

一些数据压缩手段

发布时间:2018-07-10 分类:数据蒋堂 Tag:,,
我们知道,外存(硬盘)的性能远远低于内存,即使是同样复杂度的运算(CPU计算量相同),如果能减少外存的访问量,也会大大提高整体性能。甚至有时我们需要用CPU换硬盘,即宁可多消耗些CPU时也要减少硬盘访…
用HBase做高性能键值查询?

用HBase做高性能键值查询?

发布时间:2018-07-03 分类:数据蒋堂 Tag:,
最近碰到几家用户在使用HBase或者试图使用HBase来做高性能查询,场景也比较类似,就是从几十亿甚至上百亿记录中按键值找出相关记录来。按说,这种key-value式的数据库很适合用键值查询,HBas…
BI系统中容易被忽视的数据源功能

BI系统中容易被忽视的数据源功能

用户在选购BI解决方案的时候,常常会更关注界面环节的功能指标,比如美观性、操作的流畅性、移动端支持等等。毕竟,BI是要给业务人员使用的,这些看得见的内容一般不容易被遗漏。 然而,有些与数据源有关的后台…
这个产品能支持多大数据量?

这个产品能支持多大数据量?

发布时间:2018-06-05 分类:数据蒋堂 Tag:,,,
经常有用户会问这个问题,你家的产品能处理多大数据量?似乎是这个值越大产品就越牛。 这个问题,其实没多大意义。 能处理多大的数据量,还有个很关键的因素是期望的响应时间,在脱离这个因素单纯谈大数据产品的数…
最简单的大数据性能估算方法

最简单的大数据性能估算方法

发布时间:2018-06-05 分类:数据蒋堂 Tag:,,,
大数据的性能是个永恒的话题。不过,在实际工作中我们发现,许多人都不知道如何进行最简单的性能估算,结果经常被大数据厂商忽悠:)。 这个办法我在以往的文章中也提到过,不过没有以这个题目明确地点出来。 其实…
大清单报表的打印?

大清单报表的打印?

发布时间:2018-05-29 分类:数据蒋堂 Tag:,,,
我们谈了大清单报表的呈现方法,其实有时候这些报表还需要打印,比如银行打印流水对账单。 那么,打印是不是也要像呈现那样做一个缓存机制呢? 没有这个必要。打印和浏览不同,一般是从头到尾过一遍就行了,过程中…
大清单报表应当怎么做?

大清单报表应当怎么做?

发布时间:2018-05-29 分类:数据蒋堂 Tag:,,
在数据查询时,有时会碰到数据量很大的清单报表。用户输入的查询条件很宽泛,可能会从数据库中查出几百上千万行甚至过亿的记录。如果等着把这些记录全部检索出来再生成报表呈现,那需要很长时间,用户体验恶劣;而且…
大数据技术的4个E

大数据技术的4个E

发布时间:2018-05-15 分类:数据蒋堂 Tag:
大数据的4个V说法在业界已经尽人皆知,这是指的大数据本身的特征。现在我们来考察一下用于处理大数据的技术应该具有的特性。为方便记忆,类似4个V,我们把这些特性总结成4个E,用户在选择大数据技术解决方案时…