集算器 应用场景


场景:库外计算
对于报表业务,除个别涉及数据量巨大,库内计算效率会更高,应当尽量少用存储过程,做算法外置,降低和数据库的耦合;库内计算资源是有限的,对于批处理过程,提前将数据外置,集算器可以替代数据库完成相同计算任务,节省库内计算资源,减少中间表的产生,为数据库瘦身。
集算器在该场景的优势
- 库外计算提升批处理效率
- 算法外置减少存储过程
- 数据外置为数据库瘦身
- 独立引擎为报表加速

场景:数据服务
数据中心对外提供的数据,经常来自多个异构数据源,使用SQL和存储过程没法跨库计算,利用集算器跨库计算能力,将数据事先清洗、脱敏、计算整理好,为数据接口层提供数据服务。
集算器在该场景的优势
- 多源混算做数据整理
- 更容易写的数据服务层

场景:复杂关系计算
SQL集合化很好,离散性不好,复杂计算用SQL很难写,集算器离散数据集模型是集合化和离散性的统一,更彻底的集合化;支持分组子集、有序聚合、逆分组;强化有序计算,实现跨行引用、有序分组、位置利用;多级游标、程序游标、有序游标解决大数据量下的分析计算。
集算器在该场景的优势
- 离散数据集模型
- 函数式编程语法
- 高级分析函数

场景:数据交换
使用集算器可将txt,csv,xlsx,nosql,json,xml等多样数据源先计算后入库;将数据抽取到分析库中再做计算,浪费宝贵的计算资源,也不是数仓的本职工作,使用集算器将分散的、异构数据源中的数据抽取到临时中间文件后进行清洗、转换、集成,最后加载到数据仓库。
集算器在该场景的优势
- 多样数据源先计算后入库
- 编程式ETL处理
- 数据迁移工具