大数据的技术本质就是高性能,有了足够的性能,大数据分析才能实实在在地落地。
性能优化要在确定有限的硬件条件下实施,软件并不能改变硬件的速度,我们能做的是设计更低复杂度的算法,使实质的计算量降下去,自然也就能获得更高的运算性能。
有些大数据算法有较好的适应性,各种情况都能工作,但通常也会因为更保守而难以获得高性能。为了减少计算量,我们要仔细研究数据和任务的特征并加以利用,因地制宜地设计出合适的存储方案与计算方法。
本书的内容即是针对不同场景和目标讲述适用的存储方案和优化算法,程序员熟悉了这些基本算法的原理及应用前提后,灵活组合运用就可以得心应手地解决业务中的高性能问题了。了解这些算法和特征后,对于大数据产品的技术选型和理解也能有长足的进步。