哈希

时间：2024-08-18 08:00:55编辑：笔记君

什么是哈希？

散列是指从可变大小的输入生成固定大小的输出的过程。这是通过使用称为散列函数（作为散列算法实现）的数学公式来完成的。

尽管并非所有哈希函数都涉及密码学的使用，但所谓的密码哈希函数是加密货币的核心。多亏了它们，区块链和其他分布式系统能够实现显着水平的数据完整性和安全性。

传统和加密散列函数都是确定性的。确定性意味着只要输入不变，散列算法将始终产生相同的输出（也称为摘要或散列）。

通常，加密货币的散列算法被设计为单向函数，这意味着如果没有大量的计算时间和资源，它们就无法轻易恢复。换句话说，从输入创建输出非常容易，但在相反的方向（仅从输出生成输入）相对困难。一般来说，越难找到输入，哈希算法被认为越安全。

不同的散列函数将产生不同大小的输出，但每种散列算法可能的输出大小始终是恒定的。例如，SHA-256 算法只能生成 256 位的输出，而 SHA-1 将始终生成 160 位的摘要。

为了说明这一点，让我们通过 SHA-256 哈希算法（比特币中使用的算法）运行“Bitcoin”和“bitcoin”这两个词。

请注意，微小的更改（第一个字母的大小写）会导致完全不同的哈希值。但由于我们使用 SHA-256，输出将始终具有 256 位（或 64 个字符）的固定大小 - 无论输入大小如何。此外，无论我们通过算法运行这两个单词多少次，两个输出都将保持不变。

相反，如果我们通过 SHA-1 哈希算法运行相同的输入，我们将得到以下结果：

值得注意的是，首字母缩略词 SHA 代表安全哈希算法。它指的是一组加密哈希函数，包括 SHA-0 和 SHA-1 算法以及 SHA-2 和 SHA-3 组。SHA-256 是 SHA-2 组的一部分，还有 SHA-512 和其他变体。目前，只有 SHA-2 和 SHA-3 组被认为是安全的。

传统的哈希函数具有广泛的用例，包括数据库查找、大文件分析和数据管理。另一方面，加密散列函数广泛用于信息安全应用，例如消息认证和数字指纹。就比特币而言，加密哈希函数是挖矿过程的重要组成部分，也在新地址和密钥的生成中发挥作用。

散列的真正威力在于处理大量信息时。例如，可以通过哈希函数运行一个大文件或数据集，然后使用其输出来快速验证数据的准确性和完整性。由于散列函数的确定性，这是可能的：输入将始终产生简化的、压缩的输出（散列）。这种技术消除了存储和“记住”大量数据的需要。

散列在区块链技术的背景下特别有用。比特币区块链有几个涉及散列的操作，其中大部分在挖掘过程中。事实上，几乎所有的加密货币协议都依赖散列来将交易组链接和压缩成块，并在每个块之间产生加密链接，从而有效地创建区块链。

同样，部署密码技术的散列函数可以定义为密码散列函数。一般来说，破解密码哈希函数需要无数次的蛮力尝试。对于“还原”加密哈希函数的人来说，他们需要通过反复试验来猜测输入是什么，直到产生相应的输出。然而，也有可能不同的输入产生完全相同的输出，在这种情况下会发生“冲突”。

从技术上讲，加密哈希函数需要遵循三个属性才能被视为有效安全。我们可以将这些描述为抗碰撞性、抗原像性和抗二次原像性。

在讨论每个属性之前，让我们用三个简短的句子总结它们的逻辑。

如前所述，当不同的输入产生完全相同的散列时，就会发生冲突。因此，哈希函数被认为是抗冲突的，直到有人发现冲突为止。请注意，任何散列函数都将始终存在冲突，因为可能的输入是无限的，而可能的输出是有限的。

换句话说，当发现碰撞的可能性非常低以至于需要数百万年的计算时，哈希函数是抗碰撞的。因此，尽管没有无冲突的哈希函数，但其中一些函数足够强大，可以被视为具有抵抗力（例如，SHA-256）。

在各种 SHA 算法中，SHA-0 和 SHA-1 组不再安全，因为已经发现冲突。目前，SHA-2 和 SHA-3组被认为是抗冲突的。

原像电阻的特性与单向函数的概念有关。当有人找到生成特定输出的输入的可能性非常低时，哈希函数被认为是抗原像的。

请注意，此属性与前一个属性不同，因为攻击者会试图通过查看给定的输出来猜测输入是什么。另一方面，当有人发现产生相同输出的两个不同输入时，就会发生冲突，但使用哪个输入并不重要。

原像抗性的特性对于保护数据很有价值，因为消息的简单散列可以证明其真实性，而无需披露信息。在实践中，许多服务提供商和 Web 应用程序存储和使用从密码生成的哈希值，而不是明文密码。

为简化起见，我们可以说第二原像电阻介于其他两个属性之间。当有人能够找到一个特定的输入，该输入生成与他们已经知道的另一个输入相同的输出时，就会发生二次原像攻击。

换句话说，第二原像攻击涉及寻找碰撞，但不是搜索生成相同散列的两个随机输入，而是搜索生成由另一个特定输入生成的相同散列的输入。

因此，任何抗碰撞的哈希函数也能抗第二原像攻击，因为后者总是意味着碰撞。然而，人们仍然可以对抗碰撞函数执行原像攻击，因为它意味着从单个输出中找到单个输入。

比特币挖矿有很多步骤涉及哈希函数，例如检查余额、链接交易输入和输出，以及对区块内的交易进行哈希处理以形成默克尔树。但比特币区块链安全的主要原因之一是矿工需要执行无数的散列操作，以便最终为下一个区块找到有效的解决方案。

具体来说，矿工在为其候选块创建哈希值时必须尝试几种不同的输入。本质上，如果他们生成以一定数量的零开头的输出哈希，他们将只能验证他们的块。零的数量决定了挖矿难度，它根据网络的哈希率而变化。

在这种情况下，哈希率表示在比特币挖矿中投入了多少计算机能力。如果网络的哈希率增加，比特币协议会自动调整挖矿难度，使挖出一个区块所需的平均时间保持在接近 10 分钟。相反，如果几个矿工决定停止挖矿，导致算力大幅下降，则会调整挖矿难度，使其更容易挖矿（直到平均出块时间回到10分钟）。

请注意，矿工不必发现冲突，因为他们可以生成多个散列作为有效输出（从一定数量的零开始）。所以对于某个区块有几种可能的解决方案，矿工只需要找到其中一种——根据挖矿难度确定的阈值。

由于比特币挖矿是一项成本密集型任务，矿工没有理由欺骗系统，因为这会导致重大的经济损失。加入区块链的矿工越多，它就变得越大越强大。（国内禁止参与挖矿）

毫无疑问，哈希函数是计算机科学中必不可少的工具，尤其是在处理大量数据时。当与密码学结合时，散列算法可以非常通用，以多种不同的方式提供安全性和身份验证。因此，加密哈希函数对几乎所有加密货币网络都至关重要，因此了解它们的属性和工作机制对于任何对区块链技术感兴趣的人肯定会有所帮助。

什么是哈希？

在Java中，哈希码代表了对象的一种特征，例如我们判断某两个字符串是否==，如果其哈希码相等，则这两个字符串是相等的。其次，哈希码是一种数据结构的算法。常见的哈希码的算法有：

1：Object类的hashCode.返回对象的内存地址经过处理后的结构，由于每个对象的内存地址都不一样，所以哈希码也不一样。

2： String类的hashCode.根据 String类包含的字符串的内容，根据一种特殊算法返回哈希码，只要字符串内容相同，返回的哈希码也相同。

3：Integer类，返回的哈希码就是Integer对象里所包含的那个整数的数值，例如Integer i1=new Integer(100),i1.hashCode的值就是100 。由此可见，2个一样大小的Integer对象，返回的哈希码也一样。

用最简单的方法来说，hashcode就是一个签名。当两个对象的hashcode一样时，两个对象就有可能一样。如果不一样的话两个对象就肯定不一样。

一般用hashcode来进行比较两个东西是不是一样的，可以很容易的排除许多不一样的东西。

最常用的地方就是在一堆东西里找一个东西。先用你要找的东西的hashcode和所有东西的hashcode比较，如果不一样的话就肯定不是你要找的东西。如果一样的话就很可能是你要找的东西。然后再进行仔细的比较两个东西是不是真的一模一样。

//一个不能加重复内容的容器

class Set {

Object[] objs = new Object[10]; //装东西的的数组

int size = 0; //已经有几个东西

//添加新东西，成功的话返回true，如果已经有了的话返回false

boolean add(Object o) {

for(int i=0;i

if(objs[i].hashCode() == o.hashCode()) //如果hashcode一样的话就说明两个有可能是一样的

if(objs[i].equals(o)) return false; //仔细的确认一下是不是真的一样，如果一样的话就不加入这个对象

}

objs[size++]=o; //确认没有过这个东西，加入数组

return true;

}

}

当使用这个类的时候要确保两个一样的东西的hashcode肯定是一样的。两个不同的东西的hashcode可以是一样的，不过这样会减慢运行速度，所以尽量避免（也就是所谓的碰撞）。

1.一个对象的散列码，什么是散列码呢，简单的说就是通过哈希算法算出来的一大窜数字之类的东西和内存有关.

如果对象1和对象2相等，说明他们的散列码相等！反过来就不一样了！

2.另外hashcode可以减少equals比较的次数，提高运算效率。如果你想深入hashcode到底怎么回事，还是查下权威资料！

回到最关键的问题，HashCode有什么用？不妨举个例子：

1、假设内存中有0 1 2 3 4 5 6 7 8这8个位置，如果我有个字段叫做ID，那么我要把这个字段存放在以上8个位置之一，如果不用HashCode而任意存放，那么当查找时就需要到8个位置中去挨个查找

2、使用HashCode则效率会快很多，把ID的HashCode%8，然后把ID存放在取得余数的那个位置，然后每次查找该类的时候都可以通过ID的HashCode%8求余数直接找到存放的位置了

3、如果ID的HashCode%8算出来的位置上本身已经有数据了怎么办？这就取决于算法的实现了，比如ThreadLocal中的做法就是从算出来的位置向后查找第一个为空的位置，放置数据；HashMap的做法就是通过链式结构连起来。反正，只要保证放的时候和取的时候的算法一致就行了。

4、如果ID的HashCode%8相等怎么办（这种对应的是第三点说的链式结构的场景）？这时候就需要定义equals了。先通过HashCode%8来判断类在哪一个位置，再通过equals来在这个位置上寻找需要的类。对比两个类的时候也差不多，先通过HashCode比较，假如HashCode相等再判断equals。如果两个类的HashCode都不相同，那么这两个类必定是不同的。

举个实际的例子Set。我们知道Set里面的元素是不可以重复的，那么如何做到？Set是根据equals()方法来判断两个元素是否相等的。比方说Set里面已经有1000个元素了，那么第1001个元素进来的时候，最多可能调用1000次equals方法，如果equals方法写得复杂，对比的东西特别多，那么效率会大大降低。使用HashCode就不一样了，比方说HashSet，底层是基于HashMap实现的，先通过HashCode取一个模，这样一下子就固定到某个位置了，如果这个位置上没有元素，那么就可以肯定HashSet中必定没有和新添加的元素equals的元素，就可以直接存放了，都不需要比较；如果这个位置上有元素了，逐一比较，比较的时候先比较HashCode，HashCode都不同接下去都不用比了，肯定不一样，HashCode相等，再equals比较，没有相同的元素就存，有相同的元素就不存。如果原来的Set里面有相同的元素，只要HashCode的生成方式定义得好（不重复），不管Set里面原来有多少元素，只需要执行一次的equals就可以了。这样一来，实际调用equals方法的次数大大降低，提高了效率。

哈希函数的三个特性

哈希函数的三个特性是任何对象作为哈希函数的输入都可以得到一个相应的哈希值；两个相同的对象作为哈希函数的输入，它们总会得到一样的哈希值；两个不同的对象作为哈希函数的输入，它们不一定会得到不同的哈希值。一般的线性表，树中，记录在结构中的相对位置是随机的，即和记录的关键字之间不存在确定的关系，因此，在结构中查找记录时需进行一系列和关键字的比较。这一类查找方法建立在“比较“的基础上，查找的效率依赖于查找过程中所进行的比较次数。理想的情况是能直接找到需要的记录，因此必须在记录的存储位置和它的关键字之间建立一个确定的对应关系f，使每个关键字和结构中一个唯一的存储位置相对应。哈希表中元素是由哈希函数确定的。将数据元素的关键字K作为自变量，通过一定的函数关系，计算出的值，即为该元素的存储地址。在哈希表中，不同的关键字值对应到同一个存储位置的现象。均匀的哈希函数可以减少冲突，但不能避免冲突。发生冲突后，必须解决；也即必须寻找下一个可用地址。哈希函数冲突的处理及解决方法：冲突：在哈希表中，不同的关键字值对应到同一个存储位置的现象。即关键字K1≠K2，但H（K1）=H（K2）。均匀的哈希函数可以减少冲突，但不能避免冲突。发生冲突后，必须解决；也即必须寻找下一个可用地址。解决冲突的方法：1、链接法（拉链法）。将具有同一散列地址的记录存储在一条线性链表中。例，除留余数法中，设关键字为（18,14,01,68,27,55,79），除数为13。散列地址为（5,1,1,3,1,3,1）。2、开放定址法。如果h(k）已经被占用，按如下序列探查：(h(k)+p⑴）%TSize,(h(k)+p⑵）%TSize，…，h(k)+p(i))%TSize。其中，h(k)为哈希函数，TSize为哈希表长，p(i）为探查函数。在h(k)+p(i-1)）%TSize的基础上，若发现冲突，则使用增量p(i)进行新的探测，直至无冲突出现为止。其中，根据探查函数p(i）的不同，开放定址法又分为线性探查法（p(i)=i:1,2,3，…）。

什么是哈希算法，哈希函数主要有哪些？

额。。LZ是不是看了小说绘的终极解密啊？
我也蛮感兴趣滴。。嘿嘿，
哈希函数是一般的线性表，树中，记录在结构中的相对位置是随机的，即和记录的关键字之间不存在确定的关系。
将数据元素的关键字K作为自变量，通过一定的函数关系（称为哈希函数），计算出的值，即为该元素的存储地址。表示为：
　　Addr = H（key）
　　为此在建立一个哈希表之前需要解决两个主要问题：
　　⑴构造一个合适的哈希函数
　　均匀性 H（key）的值均匀分布在哈希表中；
　　简单　以提高地址计算的速度
　　⑵冲突的处理
　　冲突：在哈希表中，不同的关键字值对应到同一个存储位置的现象。即关键字K1≠K2，但H（K1）= H（K2）。均匀的哈希函数可以减少冲突，但不能避免冲突。发生冲突后，必须解决；也即必须寻找下一个可用地址。　无论哈希函数设计有多么精细，都会产生冲突现象，也就是2个关键字处理函数的结果映射在了同一位置上，因此，有一些方法可以避免冲突。
1.拉链
　　拉出一个动态链表代替静态顺序储存结构，可以避免哈希函数的冲突，不过缺点就是链表的设计过于麻烦，增加了编程复杂度。此法可以完全避免哈希函数的冲突。
2.多哈希法
　　设计二种甚至多种哈希函数，可以避免冲突，但是冲突几率还是有的，函数设计的越好或越多都可以将几率降到最低（除非人品太差，否则几乎不可能冲突）。
3.开放地址法
　　开放地址法有一个公式：Hi=(H(key)+di) MOD m i=1,2,...,k(k<=m-1）
　　其中，m为哈希表的表长。di 是产生冲突的时候的增量序列。如果di值可能为1,2,3,...m-1，称线性探测再散列。
　　如果di取1，则每次冲突之后，向后移动1个位置.如果di取值可能为1,-1,2,-2,4,-4,9,-9,16,-16,...k*k,-k*k(k<=m/2）
　　称二次探测再散列。如果di取值可能为伪随机数列。称伪随机探测再散列。
4.建域法
　　假设哈希函数的值域为[0,m-1]，则设向量HashTable[0..m-1]为基本表，另外设立存储空间向量OverTable[0..v]用以存储发生冲突的记录。
LZ先把自己现阶段的函数搞定，会慢慢接触高等的函数滴，感觉蛮刺激的。。

哈希算法是什么呢?

哈希算法就是一种特殊的函数，不论输入多长的一串字符，只要通过这个函数都可以得到一个固定长度的输出值，这就好像身份证号码一样，永远都是十八位而且全国唯一。哈希算法的输出值就叫做哈希值。原理：哈希算法有三个特点，它们赋予了区块链不可篡改、匿名等特性，并保证了整个区块链体系的完整。第一个特点是具有单向性。比如输入一串数据，通过哈希算法可以获得一个哈希值，但是通过这个哈希值是没有办法反推回来得到输入的那串数据的。这就是单向性，也正是基于这一点，区块链才有效保护了我们信息的安全性。哈希算法的第二个特点是抗篡改能力，对于任意一个输入，哪怕是很小的改动，其哈希值的变化也会非常大。它的这个特性，在区块与区块的连接中就起到了关键性的作用。区块链的每个区块都会以上一个区块的哈希值作为标示，除非有人能够破解整条链上的所有哈希值，否则数据一旦记录在链上，就不可能进行篡改。哈希算法的第三个特点就是抗碰撞能力。所谓碰撞，就是输入两个不同的数据，最后得到了一个相同的输入。就跟我们逛街时撞衫一样，而坑碰撞就是大部分的输入都能得到一个独一无二的输出。在区块链的世界中，任何一笔交易或者账户的地址都是完全依托于哈希算法生产的。这也就保证了交易或者账户地址在区块链网络中的唯一性。无论这笔转账转了多少钱，转给了多少个人，在区块链这个大账本中都是唯一的存在。它就像人体体内的白细胞，不仅区块链的每个部分都离不开它，而且它还赋予了区块链种种特点，保护着整个区块链体系的安全。

哈希算法是什么呢?

哈希算法就是一种特殊的函数，不论输入多长的一串字符，只要通过这个函数都可以得到一个固定长度的输出值，这就好像身份证号码一样，永远都是十八位而且全国唯一。哈希算法的输出值就叫做哈希值。哈希算法也被称为“散列”，是区块链的四大核心技术之一。是能计算出一个数字消息所对应的、长度固定的字符串。哈希算法原理：Hash算法的原理是把输入空间的值映射到Hash空间内，由于Hash值的空间远小于输入的空间，而且借助抽屉原理，可以得出一定会存在不同的输入被映射成相同输出的情况，如果一个Hash算法足够好，那么他就一定会有更小的发生冲突的概率，也就是说，一个好的Hash算法应该具有优秀的抗碰撞能力。

上一篇：钢钙板

下一篇：海关清关