离散数据集
离散数据集是一种代数理论体系,主要用于抽象结构化数据及其运算。
20世纪70年代中期,E.F.Codd教授提出了关系代数,奠定了关系数据库的理论基础,而基于关系代数发展出来的SQL也成为结构化数据计算和处理的标准。但随着时间的推移,关系代数理论越来越难以适应日益复杂的应用需求,也难以充分利用21世纪的硬件能力。用SQL实现复杂数据计算,不仅代码冗长难以维护,而且运算效率低下。
大约2008年,中国润乾软件公司开始着手研究新的结构化数据计算体系,在创始人蒋步星先生的带领下,经过8年反复实验,润乾公司提出了一套新的代数体系,用于解决关系代数面临的各种问题,命名为离散数据集。
与关系代数只注重数据的集合化相比,离散数据集理论在集合化的基础上引入了离散性,从而可以完成很灵活的有序计算,继而实现更彻底的集合化,这项理论特别注重数据的离散性,故因此命名,可以理解为离散性和集合化的统一。
离散数据集中提出了如序表、循环函数、定位计算、可计算游标、并行多路游标等一系列新的概念,并在这些概念上定义了自洽的运算操作,形成了一套完整的代数体系。基于此代数体系发展出来的程序设计语言SPL(Structured Process Language),比SQL能更简捷地描述复杂的数据计算需求,并获得更高效的运算性能。
目前,润乾公司已经开发出采用SPL语言的数据计算中间件产品——集算器,在多种复杂场景都取得了良好的应用效果。蒋步星先生正在将离散数据集理论整理成数学论文,预计将在2018年内发表。