2026-01-16

关于对齐的记录。

一开始我起的是 Memory Alignment，但是后面一想其实还有很多地方会用到对齐这个概念，于是改标题为 Data Alignment

定义

当内存地址 $a$ 是 $n$ 的倍数，其中 $n$ 是 2 的幂时，称地址 $a$ 是 $n$ 字节对齐的。

当被访问的数据长度是 $n$ 字节且起始地址 $n$ 字节对齐，那么该数据是对齐的，否则是不对齐的。

基本类型的对齐

结构体 struct 的根据成员的对齐要求进行对齐，保证每一个成员的起始地址都是对齐的。

首先规则是如下：

其中第二点由编译器的其他细节保证，其他两点需要编译器通过填充（Padding）来实现。

struct MixedData
{
    char Data1;
    short Data2;
    int Data3;
    char Data4;
};

最后，结构体成员的最大对齐要求是 4 字节，因此结构体的总大小需要是 4 的倍数。当前大小为 9 字节，需要在末尾填充 3 字节，使得总大小为 12 字节。

很显然可以通过调整成员顺序减少填充，减少内存占用：

struct MixedDataReordered
{
    char Data1;
    char Data4;
    short Data2;
    int Data3;
};

最后占用 8 字节，没有填充。

我这这块比较一头雾水，搜索信息然后试着理解的，如果有谬误请指教

对于早期 RISC 架构下的旧 ARM, MIPS 等的 CPU 非常严格，完全不允许读取不对齐的内存。

实际上 CPU 忽略后三位地址，只能读取字对齐的整段内存地址。

x86 架构的 CPU 则比较宽松，允许读取不对齐的内存，但是会带来性能损失。（通过读取两段内容然后由对齐器重新组合、移位加工来实现）

此外，CPU Cache 也是这样的，它按字读取，如果数据跨行，那就得读取两次。

data alignment

那么为了尽量减少读取次数，就需要将数据对齐。

首先考虑数据的首地址必须对齐，否则后续的元素/成员都无法对齐。

为了达到这点，C 语言标准规定 malloc、alloca、calloc 和 realloc 返回的内存地址至少是 max_align_t 类型对齐的。

以及大多数函数的栈帧必须按 16 字节边界对齐。

考虑由基本类型的数组，它的首地址对齐，数组的每个元素紧挨着，没有 Padding，由于基本类型的长度都是 2 的幂，那么数组的每个元素也都是对齐的。

考虑结构体，它的首地址对齐，如果成员间按需添加 Padding，就能避免一些成员跨越对齐边界。同时添加适当的 Padding 在末尾，能够使得结构体数组的每个元素也都是对齐的。

关于为什么这三条规则就能保证对齐（以下由 AI 生成…）：

假设我们有一个结构体 S，它在内存中的排布遵循以下变量定义：

编译器强制执行的三个规则：

要证明的目标是：对于数组中任意元素 $i$ 的任意成员 $j$ ，其物理地址 $Addr(i, j)$ 都能满足其自身的对齐要求 $A_j$ 。

即证明：

Addr(i, j) \equiv 0 \pmod{A_j}

展开物理地址公式根据内存布局，第 $i$ 个元素的第 $j$ 个成员的地址为：
$Addr(i, j) = P + (i \times Size) + O_j$
利用模运算性质拆解我们要计算 $Addr(i, j) \pmod{A_j}$ ：
$Addr(i, j) \pmod{A_j} = (P + i \times Size + O_j) \pmod{A_j}$

根据模算术性质，可以拆分为：
$(P \pmod{A_j} + (i \times Size) \pmod{A_j} + O_j \pmod{A_j}) \pmod{A_j}$
证明每一项都为 0 证明 $P \pmod{A_j} = 0$ ：

已知规则 2 规定 $P$ 是 $A_{max}$ 的倍数。

在计算机架构中，对齐要求 $A$ 永远是 2 的幂（1, 2, 4, 8, 16…）。

因为 $A_{max} = \max(\dots, A_j, \dots)$ ，所以 $A_{max}$ 必然能被 $A_j$ 整除。

既然 $P$ 是 $A_{max}$ 的倍数，那么 $P$ 也一定是 $A_j$ 的倍数。

故： $P \equiv 0 \pmod{A_j}$ 。
证明 $(i \times Size) \pmod{A_j} = 0$ ：

已知规则 3 规定 $Size$ 是 $A_{max}$ 的倍数。

同理，既然 $Size$ 是 $A_{max}$ 的倍数，它也必然是 $A_j$ 的倍数。无论 $i$ 是多少， $i \times Size$ 依然是 $A_j$ 的倍数。故： $(i \times Size) \equiv 0 \pmod{A_j}$ 。
证明 $O_j \pmod{A_j} = 0$ ：

这直接由规则 1（成员对齐规则）保证。

故： $O_j \equiv 0 \pmod{A_j}$ 。
结论将上述三项代入：
$Addr(i, j) \pmod{A_j} = (0 + 0 + 0) \pmod{A_j} = 0$
证明完毕。

有时为了节省内存空间，我们希望取消对齐要求，这时可以使用 #pragma pack 指令。

#pragma pack(push, 1) // 保存当前对齐状态，并设置新对齐为 1 字节
struct PackedStruct {
    char a;
    int b;
    char c;
};
#pragma pack(pop)      // 恢复之前的对齐状态

这样一个结构体占用的空间就是 6 字节，没有任何填充。

GCC 也支持通过 __attribute__((packed)) 来实现类似的效果：

struct __attribute__((packed)) PackedStruct {
    char a;
    int b;
    char c;
};

这样定义的结构体同样不会有填充字节，占用最小空间。