Squeeze Compressor

overview

核心的想法是：对于可精确预测的数据，通过曲线拟合；对于难以合适预测的数据，通过二进制表示的分析来进行有损压缩。

压缩前需要的三个参数：绝对误差范围、相对误差范围、压缩率

以下是压缩的具体算法：

通过实验发现，建立曲线是压缩中最大的时间开销。鉴于有较低的转换开销、良好地保留了局部性的两个优势，使用数据数组原来在内存中的序列用来压缩会更好。

每个数据点都会检查其能否根据先前的数据，使用以下三种曲线近似方法的一种来表示，若可以，易知即可压缩成2bit的数据。

该部分会分为以下几步来实现：
假设有M个数据点

由以上的算法，可以看出，该部分的时间复杂度为O(n)，时间和数据量成线性关系十分优秀。

以下是二进制表示分析的过程

SZ压缩提高了数据压缩的速度以及压缩率。可以应用于CPU、GPU、FPGA以及其他科研领域。上文只是SZ的最初实现（SZ 0.1-1.0)的算法。目前SZ以及更新到SZ 3.0了

大部分内容来自于以下的论文：

SZ 0.1-1.0: Sheng Di, Franck Cappello, “Fast Error-bounded Lossy HPC Data Compression with SZ“, in IEEE International Parallel and Distributed Processing Symposium (IPDPS 2016), Chicago, IL, USA, 2016.

#research

Squeeze Compressor

https://pactheman123.github.io/2024/08/30/Squeeze-Compressor/

作者

Xiaopac

发布于

2024年8月30日

许可协议