生日攻击

生日攻击是密码学的一种破译手段，利用了概率论中的生日问题，用于干扰两个或以上群体之间的通信。此攻击是对固定的重新排列模式作随机尝试攻击，仰赖较高的命中率（鸽笼原理）。生日攻击可在 ${\textstyle {\sqrt {2^{n}}}=2^{n/2}}$ 等级的时间内找到散列碰撞，低于原像攻击的 ${\textstyle 2^{n}}$ 。有研究给出一个笼统（但尚存争议^[1]）的估计，表示量子电脑能够进行生日攻击，进而可以破解防散列碰撞的抵御，并能把时间压缩到 ${\textstyle {\sqrt[{3}]{2^{n}}}=2^{n/3}}$ 的等级。^[2]

理解问题

举例来说，假设有一位老师带着一个有30位学生（n = 30）的班级，老师询问每位学生的生日（为了简化计算，忽略闰年），想要确认是否有两位学生的生日相同（这相当于稍后会提到的散列碰撞）。直觉上，这个概率可能看起来很小。但出乎意料的是，根据公式 $1-{\frac {365!}{(365-n)!\cdot 365^{n}}}$ 计算，至少有一位学生的生日与其他任一天的生日相同的概率（n = 30）约为70%。 ^[3]

如果老师挑选了一个特定的日期（例如 9 月 16 日），那么至少有一位学生在该特定日期出生的概率是 $1-(364/365)^{30}$ ，约7.9%。

在生日攻击中，攻击者会准备多个不同版本的良性和恶意合约，每个合约都有一个数字签名。目标是查找一对具有相同签名的良性和恶意合约。在这个假设的例子中，假设字符串的数字签名是其SHA-256散列值的第一个字节。找到的组合将以绿色表示——需要注意的是，找到两个良性合约（蓝色）或两个恶意合约（红色）的配对是无效的的。当受害者接受良性合约后，攻击者会将其替换为恶意合约，并声称受害者已签署该合约，因为数字签名作为证据可以证明此。

数学

定函数 $f$ ，攻击目标是找到符合 $f(x_{1})=f(x_{2})$ 的两个不同输入值 $x_{1},x_{2}$ 。这一对 $x_{1},x_{2}$ 被称之为碰撞。找出一对碰撞的方法可以是随机或伪随机地输入不同的数值，直到找出至少两个相同的结果为止。但由于生日问题，这种方法的效率不高。明确的说，若函数 $f(x)$ 所拥有的 $H$ 的不同输出有着相同可能性且 $H$ 足够大，要获取符合 $f(x_{1})=f(x_{2})$ 的一对不同的自变量 $x_{1}$ 和 $x_{2}$ ，函数平均需要大约 $1.25{\sqrt {H}}$ 个不同个自变量。

思考下面一个实验。从下列的H数集中随机均匀地选择n个值，因此将允许重复。使p（n; H）成为此实验中至少一个值被选择多于一次的概率。则概率可估计为

p(n;H)\approx 1-e^{-n(n-1)/(2H)}\approx 1-e^{-n^{2}/(2H)}

使n（p; H）为将选择的最小数值，这种情况下找到碰撞的概率至少为 p。通过颠倒上方的表达式，可得到了下列估计公式：

n(p;H)\approx {\sqrt {2H\ln {\frac {1}{1-p}}}}

将碰撞概率设为0.5，将得到

n(0.5;H)\approx 1.1774{\sqrt {H}}

使Q（H）成为在寻找首次碰撞前所期望的值的数量。此数量可通过下列公式进行估计：

Q(H)\approx {\sqrt {{\frac {\pi }{2}}H}}

举例：若使用64位哈希，则估计将有1.8 × 10¹⁹个不同的输出。若这些输出均可能发生（理想情况下），则攻击者“仅仅”需要约50亿次尝试（5.38 × 10⁹）就能通过暴力攻击生成碰撞。此值被称为 生日界限（birthday bound）^[4]而对于n位密码则需要2^n/2次。^[5]下列举出其他例子

位数	可能输出（H）	期望的随机碰撞可能性（2安全系数）（p）
位数	可能输出（H）	10⁻¹⁸	10⁻¹⁵	10⁻¹²	10⁻⁹	10⁻⁶	0.1%	1%	25%	50%	75%
16	2¹⁶ (~6.5 x 10⁴)	<2	<2	<2	<2	<2	11	36	190	300	430
32	2³² （~4.3 × 10⁹）	<2	<2	<2	3	93	2900	9300	50,000	77,000	110,000
64	2⁶⁴ （~1.8 × 10¹⁹）	6	190	6100	190,000	6,100,000	1.9 × 10⁸	6.1 × 10⁸	3.3 × 10⁹	5.1 × 10⁹	7.2 × 10⁹
128	2¹²⁸ （~3.4 × 10³⁸）	2.6 × 10¹⁰	8.2 × 10¹¹	2.6 × 10¹³	8.2 × 10¹⁴	2.6 × 10¹⁶	8.3 × 10¹⁷	2.6 × 10¹⁸	1.4 × 10¹⁹	2.2 × 10¹⁹	3.1 × 10¹⁹
256	2²⁵⁶ （~1.2 × 10⁷⁷）	4.8 × 10²⁹	1.5 × 10³¹	4.8 × 10³²	1.5 × 10³⁴	4.8 × 10³⁵	1.5 × 10³⁷	4.8 × 10³⁷	2.6 × 10³⁸	4.0 × 10³⁸	5.7 × 10³⁸
384	2³⁸⁴ （~3.9 × 10¹¹⁵）	8.9 × 10⁴⁸	2.8 × 10⁵⁰	8.9 × 10⁵¹	2.8 × 10⁵³	8.9 × 10⁵⁴	2.8 × 10⁵⁶	8.9 × 10⁵⁶	4.8 × 10⁵⁷	7.4 × 10⁵⁷	1.0 × 10⁵⁸
512	2⁵¹² （~1.3 × 10¹⁵⁴）	1.6 × 10⁶⁸	5.2 × 10⁶⁹	1.6 × 10⁷¹	5.2 × 10⁷²	1.6 × 10⁷⁴	5.2 × 10⁷⁵	1.6 × 10⁷⁶	8.8 × 10⁷⁶	1.4 × 10⁷⁷	1.9 × 10⁷⁷

表格展示了需要达到给定成功可能性的哈希数量n(p)，且假设所有哈希均有相同概率。为了比较，通常一块硬盘的不可修正比特错误率为10⁻¹⁸至10⁻¹⁵。^[6]理论上说，使用128位的MD5哈希或通用唯一识别码将在8200亿份文档时得到破解，即使它们的可能输出还要更多。

显而易见，若函数的输出不平均分布，碰撞则可能将被更快找到。哈希函数的“平衡”概念量化了其能抵御生日攻击（攻击平均的密钥分布）的次数。然而，确定哈希函数的平衡将需要计算所有输入，因此这种方法对于诸如MD及SHA系的流行哈希函数是不切实际的。^[7] 当计算 $n(p;H)$ 中的子表达式 $\ln {\frac {1}{1-p}}$ 翻译到常见的编程语言形式下时，例如log(1/(1-p))，公式由于有效位丢失（英语：loss of significance）对较小的 $p$ 的计算精度不高。例如，当log1p（如C99中一样）可用时，应直接使用可达到相同效果的表达式-log1p(-p)。^[8] 如果不这样做，上表的第一列将被计算为零，而第二列中的几项甚至没有一个正确的有效数字。

源码示例

下列是能准确生成上方表格中大多数数值的Python函数：

from math import log1p, sqrt

def birthday(probability_exponent, bits):
    probability = 10.0**probability_exponent
    outputs = 2.0**bits
    return sqrt(2.0*outputs*-log1p(-probability))

若代码保存在命名为birthday.py的文件中，用户可和下面的例子一样交互运行此程序：

$ python -i birthday.py
>>> birthday(-15, 128)
824963474247.1193
>>> birthday(-6, 32)
92.68192319417072

简单估计

一项经验法则可适用于此关系中的心算流程

p(n)\approx {n^{2} \over 2H}

可改写为

H\approx {n^{2} \over 2p(n)}

.

或

n\approx {\sqrt {2H\times p(n)}}

.

此公式在概率小于等于0.5时有效。

此近似方案在使用指数时可轻易使用。例如，假设构建32位哈希（ $H=2^{32}$ ）且希望碰撞概率为100万分之一（ $p\approx 2^{-20}$ ），需要的文档数为

n\approx {\sqrt {2\times 2^{32}\times 2^{-20}}}={\sqrt {2^{1+32-20}}}={\sqrt {2^{13}}}=2^{6.5}\approx 90.5

即与正确答案93次近似。

数字签名敏感度

数字签名可对生日攻击十分敏感。设想一条被首次计算 $f(m)$ （ $f$ 为密码散列函数）所签名的信息，且随后又使用了一些密钥来签名 $f(m)$ 。假设爱丽丝与鲍伯牵涉到签名诈骗合同。马洛里准备了一份正常合同 $m$ 和一份伪造合同 $m'$ 。马洛里随后发现 $m$ 所在的位置数可在不改变原意的情况下（如插入逗号、清空行、在句后增加一两个空格、替换同义词等等）被更改。通过结合这些更改，她可新建诸多 $m$ 的变体且均为正常合同。

相似情况下，马洛里也为伪造合同 $m'$ 新建了诸多变体。她随后应用哈希函数到所有变体直到她找到与正常合同有着相同哈希值 $f(m)=f(m')$ 的伪造合同位置。她随后将正常合同带给鲍勃签名。在鲍勃签名完后，马洛里将签名取下并依附到伪造签名上。此签名“证实了”鲍勃签署了伪造合同。

此例中，攻击概率与原始的生日问题稍有不同，因为马洛里将在寻找两份具有相同哈希的正常合同与伪造合同时将一无所获。马洛里的策略是生成一份伪造和一份正常的合同。生日问题公式适用于 $n$ 为合同对数的情况下。但马洛里所生成的哈希数实际上为 $2n$ 。

为避免这种攻击，用于签名方案的哈希函数的输出长度应够大以从计算角度防止生日攻击。换言之，位数应为防止普通暴力破解所需位数的两倍。

除了使用更大的位数长度外，签名者（鲍勃）可以在签名前做出一些随机且无害的更改，并且在自己的手上留下一份合同副本以在法庭上展示出他的签名与正常合同上的匹配，而不匹配伪造合同。

离散对数的波拉德ρ算法是使用生日攻击以计算离散对数的算法。

另请参阅

碰撞攻击（英语：Collision attack）
中途相遇攻击

脚注

^ Daniel J. Bernstein. Cost analysis of hash collisions : Will quantum computers make SHARCS obsolete? (PDF). Cr.yp.to. [29 October 2017]. （原始内容存档 (PDF)于2017-08-25）.
^ Brassard, Gilles; HØyer, Peter; Tapp, Alain. Quantum cryptanalysis of hash and claw-free functions. Springer, Berlin, Heidelberg: 163–169. 20 April 1998 [29 October 2017]. doi:10.1007/BFb0054319. （原始内容存档于2020-08-08）.
^ Birthday Problem. Brilliant.org. Brilliant_(website). [28 July 2023].
^ 请参阅上界和下界。
^ Jacques Patarin, Audrey Montreuil. Benes and Butterfly schemes revisited (PostScript, 可移植文档格式). Université de Versailles. 2005 [2007-03-15]. （原始内容存档于2007-09-29）.
^ Gray, Jim; van Ingen, Catharine. Empirical Measurements of Disk Failure Rates and Error Rates. 25 January 2007. arXiv:cs/0701166 .
^ Archived copy. [2006-05-02]. （原始内容存档于2008-02-23）.
^ Compute log(1+x) accurately for small values of x. Mathworks.com. [29 October 2017]. （原始内容存档于2012-08-30）.

参考文献

米希尔·贝拉尔（英语：Mihir Bellare），《等一下：哈希函数平衡及其对生日攻击的影响》（Tadayoshi Kohno: Hash Function Balance and Its Impact on Birthday Attacks） EUROCRYPT（英语：EUROCRYPT） 2004: pp401–418
《应用密码学》, 第二版。（Applied Cryptography, 2nd ed.）布鲁斯·施奈尔所著

外部链接

"What is a digital signature and what is authentication?" 来自RSA安全（英语：RSA (security firm)）加密的常见问题集。
"Birthday Attack" （页面存档备份，存于互联网档案馆） X5网络加密问答

[1] Daniel J. Bernstein. Cost analysis of hash collisions : Will quantum computers make SHARCS obsolete? (PDF). Cr.yp.to. [29 October 2017]. （原始内容存档 (PDF)于2017-08-25）.

[2] Brassard, Gilles; HØyer, Peter; Tapp, Alain. Quantum cryptanalysis of hash and claw-free functions. Springer, Berlin, Heidelberg: 163–169. 20 April 1998 [29 October 2017]. doi:10.1007/BFb0054319. （原始内容存档于2020-08-08）.

[3] Birthday Problem. Brilliant.org. Brilliant_(website). [28 July 2023].

[4] 请参阅上界和下界。

[5] Jacques Patarin, Audrey Montreuil. Benes and Butterfly schemes revisited (PostScript, 可移植文档格式). Université de Versailles. 2005 [2007-03-15]. （原始内容存档于2007-09-29）.

[6] Gray, Jim; van Ingen, Catharine. Empirical Measurements of Disk Failure Rates and Error Rates. 25 January 2007. arXiv:cs/0701166 .

[7] Archived copy. [2006-05-02]. （原始内容存档于2008-02-23）.

[8] Compute log(1+x) accurately for small values of x. Mathworks.com. [29 October 2017]. （原始内容存档于2012-08-30）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]