博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
java源码| HashMap源码分析
阅读量:2441 次
发布时间:2019-05-10

本文共 13530 字,大约阅读时间需要 45 分钟。

  • hash和HashMap基础知识
hash算法:
        把任意长度的输入(又叫做预映射,
pre-image
),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,所以不可能从散列值来确定唯一的输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。常用 HASH
函数:直接取余法乘法取整法平方取中
hash
冲突 :
        因为
不同的输入可能会散列成相同的输出,这种现象称为hash冲突。
对某个元素进行哈希运算,得到一个存储地址,然后要进行插入的时候,发现已经被其他元素占用
了,其实这就是所谓的
哈希冲突
,也叫哈希碰撞。哈希函数的设计至关重要,好的哈
希函数会尽可能地保证
计算简单
散列地址分布均匀
,
但是,我们需要清楚的是,数组是一块连续的固
定长度的内存空间,再好的哈希函数也不能保证得到的存储地址绝对不发生冲突。那么哈希冲突如何解
决呢?哈希冲突的解决方案有多种
:
开放定址法(发生冲突,继续寻找下一块未被占用的存储地址),
散列函数法链地址法,而
HashMap
即是采用了链地址法,也就是
数组
+
链表(jdk1.8中是数组+链表+红黑树)
的方式。
 
HashMap:
        
HashMap
是一个利用哈希表原理来存储元素的集合。遇到冲突时,
HashMap
是采用的链地址法来解
决,在
JDK1.7
中,
HashMap
是由 数组
+
链表构成的。但是在
JDK1.8
中,
HashMap
是由数组
+
链表
+
红黑树构成,新增了红黑树作为底层数据结构,结构变得复杂了,但是效率也变的更高效.
 
HashMap中用到的数据结构:
  • 数组:采用一段连续的存储单元来存储数据。对于指定下标的查找,时间复杂度为O(1);通过给定值进行查找,需要遍历数组,逐一比对给定关键字和数组元素,时间复杂度为O(n),当然,对于有序数组,则可采用二分查找,插值查找,斐波那契查找等方式,可将查找复杂度提高为O(logn);对于一般的插入删除操作,涉及到数组元素的移动,其平均复杂度也为O(n)
  • 线性链表:对于链表的新增,删除等操作(在找到指定操作位置后),仅需处理结点间的引用即可,时间复杂度为O(1),而查找操作需要遍历链表逐一进行比对,复杂度为O(n)
  • 二叉树:对一棵相对平衡的有序二叉树,对其进行插入,查找,删除等操作,平均复杂度均为O(logn)。
jdk1.8中HashMap结构图
  • HashMap源码分析
        
HashMap
是一个散列表,它存储的内容是键值对
(key-value)
映射,而且
key
value
都可以为
null
。它的源码如下:
public class HashMap
extends AbstractMap
implements Map
, Cloneable, Serializable{ //字段属性 //默认 HashMap 集合初始容量为16(必须是 2 的倍数) static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16 //集合的最大容量,如果通过带参构造指定的最大容量超过此数,默认还是使用此数 static final int MAXIMUM_CAPACITY = 1 << 30; //默认的填充因子 static final float DEFAULT_LOAD_FACTOR = 0.75f; //当桶(bucket)上的结点数大于这个值时会转成红黑树(JDK1.8新增) static final int TREEIFY_THRESHOLD = 8; //当桶(bucket)上的节点数小于这个值时会转成链表(JDK1.8新增) static final int UNTREEIFY_THRESHOLD = 6; /**(JDK1.8新增) * 当集合中的容量大于这个值时,表中的桶才能进行树形化 ,否则桶内元素太多时会扩容, * 而不是树形化 为了避免进行扩容、树形化选择的冲突,这个值不能小于 4 * TREEIFY_THRESHOLD */ static final int MIN_TREEIFY_CAPACITY = 64; //初始化使用,长度总是 2的幂 transient Node
[] table; //保存缓存的entrySet() transient Set
> entrySet; //此映射中包含的键值映射的数量。(集合存储键值对的数量) transient int size; /*** 跟前面ArrayList和LinkedList集合中的字段modCount一样,记录集合被修改的次数 * 主要用于迭代器中的快速失败 */ transient int modCount; //调整大小的下一个大小值(容量*加载因子)。capacity * load factor int threshold; //散列表的加载因子。 final float loadFactor; //构造方法 /*** 默认构造函数,初始化加载因子loadFactor = 0.75 */ public HashMap() { this.loadFactor = DEFAULT_LOAD_FACTOR; } /**** @param initialCapacity 指定初始化容量 * @param loadFactor 加载因子 0.75 */ public HashMap(int initialCapacity, float loadFactor) { //初始化容量不能小于 0 ,否则抛出异常 if (initialCapacity < 0) throw new IllegalArgumentException("Illegal initial capacity: " + initialCapacity); //如果初始化容量大于2的30次方,则初始化容量都为2的30次方 if (initialCapacity > MAXIMUM_CAPACITY) initialCapacity = MAXIMUM_CAPACITY; //如果加载因子小于0,或者加载因子是一个非数值,抛出异常 if (loadFactor <= 0 || Float.isNaN(loadFactor)) throw new IllegalArgumentException("Illegal load factor: " + loadFactor); this.loadFactor = loadFactor; //tableSizeFor()的主要功能是返回一个比给定整数大且最接近的2的幂次方整数,如给定10,返回2 的4次方16. this.threshold = tableSizeFor(initialCapacity); } // 返回大于等于initialCapacity的最小的二次幂数值。 // >>> 操作符表示无符号右移,高位取0。 // | 按位或运算 static final int tableSizeFor(int cap) { int n = cap - 1; n |= n >>> 1; n |= n >>> 2; n |= n >>> 4; n |= n >>> 8; n |= n >>> 16; return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1; } //添加元素 //hash(key)获取Key的哈希值,equls返回为true,则两者的hashcode一定相等,意即相等的对象必须具 有相等的哈希码。 public V put(K key, V value) { return putVal(hash(key), key, value, false, true); } /**** @param hash Key的哈希值 * @param key 键 * @param value 值 * @param onlyIfAbsent true 表示不要更改现有值 * @param evict false表示table处于创建模式 * @return */ final V putVal(int hash, K key, V value, boolean onlyIfAbsent, boolean evict) { Node
[] tab; Node
p; int n, i; //如果table为null或者长度为0,则进行初始化 //resize()方法本来是用于扩容,由于初始化没有实际分配空间,这里用该方法进行空间分配,后面 会详细讲解该方法 if ((tab = table) == null || (n = tab.length) == 0) n = (tab = resize()).length; //(n - 1) & hash:确保索引在数组范围内,相当于hash % n 的值 //通过 key 的 hash code 计算其在数组中的索引:为什么不直接用 hash 对 数组长度取模?因 为除法运算效率低 if ((p = tab[i = (n - 1) & hash]) == null) tab[i] = newNode(hash, key, value, null); //tab[i] 为null,直接将新的key- value插入到计算的索引i位置 else { //tab[i] 不为null,表示该位置已经有值了 Node
e; K k; //e节点表示已经存在Key的节点,需要覆盖value的节点 //table[i]的首个元素是否和key一样,如果相同直接覆盖value if (p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k)))) e = p; //节点key已经有值了,将第一个节点赋值给e //该链是红黑树 else if (p instanceof TreeNode) e = ((TreeNode
)p).putTreeVal(this, tab, hash, key, value); //该链是链表 else { //遍历链表 for (int binCount = 0; ; ++binCount) { //先将e指向下一个节点,然后判断e是否是链表中最后一个节点 if ((e = p.next) == null) { //创建一个新节点加在链表结尾 p.next = newNode(hash, key, value, null); //链表长度大于8,转换成红黑树 if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st treeifyBin(tab, hash); break; } //key已经存在直接终止,此时e的值已经为 p.next if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k)))) break; p = e; } } if (e != null) { // existing mapping for key V oldValue = e.value; if (!onlyIfAbsent || oldValue == null) //修改已经存在Key的节点的value e.value = value; afterNodeAccess(e); //返回key的原始值 return oldValue; } } ++modCount; //用作修改和新增快速失败 if (++size > threshold) //超过最大容量,进行扩容 resize(); afterNodeInsertion(evict); return null; } //获取元素 public V get(Object key) { // 若key为null,遍历table[0]处的链表(实际上要么没有元素,要么只有一个Entry对象),取出 key为null的value if (key == null) return getForNullKey(); // 若key不为null,用key获取Entry对象 Entry
entry = getEntry(key); // 若链表中找到的Entry不为null,返回该Entry中的value return null == entry ? null : entry.getValue(); } final Entry
getEntry(Object key) { if (size == 0) { return null; } // 计算key的hash值 int hash = (key == null) ? 0 : hash(key); // 计算key在数组中对应位置,遍历该位置的链表 for (Entry
e = table[indexFor(hash, table.length)]; e != null; e = e.next) { Object k; // 若key完全相同,返回链表中对应的Entry对象 if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k)))) return e; } // 链表中没找到对应的key,返回null return null; } //扩容 final Node
[] resize() { //将原始数组数据缓存起来 Node
[] oldTab = table; int oldCap = (oldTab == null) ? 0 : oldTab.length; //原数组如果为null,则长度赋值 0 int oldThr = threshold; int newCap, newThr = 0; if (oldCap > 0) { //如果原数组长度大于0 if (oldCap >= MAXIMUM_CAPACITY) { //数组大小如果已经大于等于最大值(2^30) threshold = Integer.MAX_VALUE; //修改阈值为int的最大值(2^31-1),这样以后就 不会扩容了 return oldTab; } //原数组长度扩大1倍(此时将原数组扩大一倍后的值赋给newCap)也小于2^30次方,并且原数组 长度大于等于初始化长度16 else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY && oldCap >= DEFAULT_INITIAL_CAPACITY) newThr = oldThr << 1; // double threshold // 阀值扩大1倍 //如果原数组长度扩大一倍后大于MAXIMUM_CAPACITY后,newThr还是0 }else if (oldThr > 0) // initial capacity was placed in threshold //旧容量为0,旧阀值大于0,则将新容量直接等于就阀值 //在第一次带参数初始化时候会有这种情况 //newThr在面算 newCap = oldThr; else { // zero initial threshold signifies using defaults //阀值等于0,oldCap也等于0(集合未进行初始化) //在默认无参数初始化会有这种情况 newCap = DEFAULT_INITIAL_CAPACITY; //数组长度初始化为16 newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY); //阀值等于 16*0.75=12 } //计算新的阀值上限 //此时就是上面原数组长度扩大一倍后大于MAXIMUM_CAPACITY和旧容量为0、旧阀值大于0的情况 if (newThr == 0) { float ft = (float)newCap * loadFactor; newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ? (int)ft : Integer.MAX_VALUE); } //将阀值上限设置为新阀值上限 threshold = newThr; //用于抑制编译器产生警告信息 @SuppressWarnings({"rawtypes","unchecked"}) //创建容器大小为newCap的新数组 Node
[] newTab = (Node
[])new Node[newCap]; //将新数组赋给table table = newTab; //如果是第一次,扩容的时候,也就是原来没有元素,下面的代码不会运行,如果原来有元素,则要将原来 的元素,进行放到新扩容的里面 if (oldTab != null) { //把每个bucket都移动到新的buckets中 for (int j = 0; j < oldCap; ++j) { Node
e; if ((e = oldTab[j]) != null) { oldTab[j] = null; //元数据j位置置为null,便于垃圾回收 if (e.next == null) //数组没有下一个引用(不是链表) //直接将e的key的hash与新容量重新计算下标,新下标的元素为e newTab[e.hash & (newCap - 1)] = e; else if (e instanceof TreeNode) //红黑树 ((TreeNode
)e).split(this, newTab, j, oldCap); else { // preserve order Node
loHead = null, loTail = null; Node
hiHead = null, hiTail = null; Node
next; do { next = e.next; //原索引 if ((e.hash & oldCap) == 0) { if (loTail == null) loHead = e; else loTail.next = e; loTail = e; } //原索引+oldCap else { if (hiTail == null) hiHead = e; else hiTail.next = e; hiTail = e; } } while ((e = next) != null); //原索引放到bucket里 if (loTail != null) { loTail.next = null; newTab[j] = loHead; } //原索引+oldCap放到bucket里 if (hiTail != null) { hiTail.next = null; newTab[j + oldCap] = hiHead; } } } } return newTab; }}
字段属性
        
①、
Node[] table
        我们说
HashMap
是由数组
+
链表
+
红黑树组成,这里的数组就是
table
字段。后面对其进行初始化长度默DEFAULT_INITIAL_CAPACITY= 16
②、
size
        集合中存放
key-value
的实时对数。
③、
loadFactor
        装载因子,是用来衡量
HashMap
满的程度,计算
HashMap
的实时装载因子的方法为:size/capacity,而不是占用桶的数量去除以
capacity
capacity 是桶的数量,也就是 table
的长度length。默认的负载因子0.75
是对空间和时间效率的一个平衡选择,建议大家不要修改,除非在时间和空间比较特殊的情况下,如果内存空间很多而又对时间效率要求很高,可以降低负载因子loadFactor
的值;相反,如果内存空间紧张而对时间效率要求不高,可以增加负载因子 loadFactor
的值,这个值可以大于1
④、
threshold
        
计算公式:threshold = 
capacity * loadFactor
。这个值是当前已占用数组长度的最大值。过这个数目就重新
resize(
扩容
)
,扩容后的
HashMap
容量是之前容量的两倍。
 
数组table中的节点元素是一个Entry类型的,对象,实体类代码如下:
static class Entry
implements Map.Entry
{ final K key; V value; /** 指向下一个元素的引用 */ Entry
next; int hash; /*** 构造方法为Entry赋值 */ Entry(int h, K k, V v, Entry
n) { value = v; next = n; key = k; hash = h; }}
 
添加元素
        添加过程:
①、判断键值对数组 table 是否为空或为null,否则执行resize()进行扩容;
②、根据键值key计算hash值得到插入的数组索引i,如果table[i]==null,直接新建节点添加,转向
⑥,如果table[i]不为空,转向③;
③、判断table[i]的首个元素是否和key一样,如果相同直接覆盖value,否则转向④,这里的相同指的是hashCode以及equals
④、判断table[i] 是否为treeNode,即table[i] 是否是红黑树,如果是红黑树,则直接在树中插入键值对,否则转向⑤;
⑤、遍历table[i],判断链表长度是否大于8,大于8的话把链表转换为红黑树,在红黑树中执行插入操作,否则进行链表的插入操作;遍历过程中若发现key已经存在直接覆盖value即可;
⑥、插入成功后,判断实际存在的键值对数量size是否超过了最大容量threshold,如果超过,进行扩容。
 
        put()
时,
HashMap
会先遍历
table
数组,用
hash
值和
equals()
判断数组中是否存在完全相同的key
对象, 如果这个
key
对象在
table
数组中已经存在,就用新的
value
代替老的
value
。如果不存在,就创建一个新的Entry
对象添加到
table[ i ]
处。如果该table[ i ]
已经存在其他元素,那么新
Entry
对象将会储存在
bucket
链表的表头,通过
next
指向原有的Entry
对象,形成链表结构(
hash
碰撞解决方案)。
 
if (p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k))))
此处先判断
p.hash == hash
是为了提高效率,仅通过(k =e.key) == key || key.equals(k)
其实也可以进行判断,但是
equals
方法相当耗时!如果两个key
hash
值不同,那么这两个
key
肯定不相同,进行
equals
比较是扯淡的! 所以先通过
p.hash == hash
该条件,将桶中很多不符合的节点
pass
掉。然后对剩下的节点继续判断。
 
形成单链表的关键代码如下:
/** * 将Entry添加到数组bucketIndex位置对应的哈希桶中,并判断数组是否需要扩容 */ void addEntry(int hash, K key, V value, int bucketIndex) {     // 如果数组长度大于等于容量×负载因子,并且要添加的位置为null     if ((size >= threshold) && (null != table[bucketIndex])) {         // 长度扩大为原数组的两倍         resize(2 * table.length);         hash = (null != key) ? hash(key) : 0;         bucketIndex = indexFor(hash, table.length);     }    createEntry(hash, key, value, bucketIndex); }/** * 在链表中添加一个新的Entry对象在链表的表头 */ void createEntry(int hash, K key, V value, int bucketIndex) {     Entry
e = table[bucketIndex]; table[bucketIndex] = new Entry<>(hash, key, value, e); size++; }
假设数组长度分别为15
16
,优化后的
hash
码分别为
8
9
,那么
&
运算后的结果如下:
h & (table.length-1)    hash   &   table.length-1
8 &       (15-1)
         0100   &        1110          = 0100
9 &       (15-1):         0101   &        1110          = 0100
-----------------------------------------------------------------------
8 &       (16-1)
         0100   &        1111          = 0101
9 &       (16-1)
         0101   &        1111          = 0101
 
        从上面的例子中可以看出:当它们和
15-1
1110
的时候,产生了相同的结果,也就是说它们会定 位到数组中的同一个位置上去,这就产生了碰撞,8
9
会被放到数组中的同一个位置上形成链表,那么查询的时候就需要遍历这个链表,得到8
或者
9
,这样就降低了查询的效率。同时,我们也可以发现,当数组长度为
15
的时候,
hash 值会与15-1
1110
)进行
,那么最后一位永远是
0
,而
0001
0011
0101
1001
1011
,0111,
1101
这几个位置永远都不能存放元素了,空间浪费相当大,更糟的是 这种情况中,数组可以使用的位置比数组长度小了很多,这意味着进一步增加了碰撞的几率,减慢了查询的效率!
 
n
2
次幂时,会满足一个公式:
(n - 1) & hash = hash % n
,计算更加高效。
只有是
2
的幂数的数字经过
n-1
之后,二进制肯定是
...11111111
这样的格式,这种格式计算的位置的时
候,完全是由产生的
hash
值类决定。
奇数
n-1
为偶数,偶数
2
进制的结尾都是
0
,经过
&
运算末尾都是
0
,会 增加
hash
冲突。
 

获取元素

        如果两个不同的keyhashcode相同,两个值对象储存在同一个bucket位置,要获取value,我们调用get()方法,HashMap会使用keyhashcode找到bucket位置,因为HashMap在链表中存储的是Entry键值对,所以找到bucket位置之后,会调用keyequals()方法,按顺序遍历链表的每个 Entry,直到找到想获取的 Entry 为止——如果恰好要搜索的 Entry 位于该 Entry 链的最末端(该 Entry 是最早放入该 bucket 中),那HashMap必须循环到最后才能找到该元素。

扩容

        
扩容(
resize
),集合是由数组
+
链表
+
红黑树构成,向
HashMap
中插入元素时,如果
HashMap
集合的元素已经大于了最大承载容量
threshold
capacity * loadFactor
),这里的
threshold
不是数组的最大长度。那么必须扩大数组的长度,
Java
中数组是无法自动扩容的,采用
的方法是用一个更大的数组代替这个小的数组。
        从上述代码可知:
if ((e.hash & oldCap) == 0)
如果判断成立,那么该元素的地址在新的数组中就不会改变。因为
oldCap
最高位的
1
,在
e.hash
对应的位上为
0
,所以扩容后得到的地址是一样的,位置不会改变 ,在后面的代
码的执行中会放到
loHead
中去,最后赋值给
newTab[j]
;如果判断不成立,那么该元素的地址变为 原下
标位置
+oldCap
,也就是
lodCap
最高位的
1
,在
e.hash
对应的位置上也为
1
,所以扩容后的地址改变
了,在后面的代码中会放到
hiHead
中,最后赋值给
newTab[j + oldCap]。
 
jdk1.7中扩容带来的问题:
数组扩容之后,最消耗性能的点就出现了:原数组中的数据必须重新计算其在新数组中的位置,并放进
去,这个操作是极其消耗性能的。所以如果我们已经预知
HashMap
中元素的个数,那么预设初始容量
能够有效的提高HashMap
的性能
重新调
HashMap
大小,当多线程的情况下可能产生条件竞争。因为如果两个线程都发现
HashMap
要重新调整大小了,它们会同时试着调整大小。在调整大小的过程中,存储在链表中的元素的次序会反
过来,因为移动到新的bucket位置的时候,HashMap并不会将元素放在链表的尾部,而是放在头部,这是为了避免尾部遍历(tail traversing)
。如果条件竞争发生了,那么就死循环了。
 
HashMap性能问题
        
HashMap
有两个参数影响其性能:初始容量负载因子。均可以通过构造方法指定大小。
容量
capacity
HashMap
bucket
哈希桶
(Entry
的链表
)
的数量,初始容量只是
HashMap
在创建时的容
量,最大设置初始容量是
2^30
,默认初始容量是16(必须为
2
的幂),解释一下,当数组长度为
2
n
幂的时候,不同的
key
通过
indexFor()
方法算得的数组位置相同的几率较小,那么数据在数组上分布就比
较均匀,也就是说碰撞的几率小,相对的,
get()
的时候就不用遍历某个位置上的链表,这样查询效率也
就较高了。
负载因子
loadFactor
HashMap
在其容量自动增加之前可以达到多满的一种尺度,默认值是
0.75
 
HashMap
并发安全问题
        在
jdk1.8
中对
HashMap
进行了优化,在发生
hash
碰撞,不再采用头插法方式(jdk1.7采用头插法),而是直接插入链表尾部,因此不会出现环形链表的情况,但是在多线程的情况下仍然不安全。
        
如果没有
hash
碰撞则会直接插入元素。如果线程
A和线程B同时进行put操作,刚好这两条不同的数据hash值一样,并且该位置数据为null,所以这线程AB都会进入第6行代码中。假设一种情况,线程A进入后还未进行数据插入时挂起,而线程B正常执行,从而正常插入数据,然后线程A获取CPU时间片,此时线程A不用再进行hash判断了,问题出现:线程A会把线程B插入的数据给覆盖
,发生线程不安全
 
总结HashMap并发带来的问题:
  1. jdk1.7中,在多线程环境下,扩容时会造成环形链或数据丢失(因为头插法插入数据)。
  2. jdk1.8中,在多线程环境下,会发生数据覆盖的情况。

转载地址:http://jfuqb.baihongyu.com/

你可能感兴趣的文章
sql plan baseline(二)
查看>>
第十章 sqlplus的安全性
查看>>
第十三章 sqlplus命令(一)
查看>>
第三章(backup and recovery 笔记)
查看>>
第一章(backup and recovery 笔记)
查看>>
第六章(backup and recovery 笔记)
查看>>
oracle备份功能简述
查看>>
[转]数据库三大范式
查看>>
恢复编录的创建和使用.txt
查看>>
truncate 命令使用
查看>>
[script]P_CHECK_BLACK.sql 检查当前用户下是否有varchar2字段的末尾包含空格
查看>>
实验-数据分布对执行计划的影响.txt
查看>>
实验-闪回数据库
查看>>
实验-闪回表
查看>>
oracle审计
查看>>
日期格式的转换
查看>>
JavaScript:charCodeAt()和codePointAt()的区别
查看>>
JavaScript:Array数组
查看>>
JavaScript:toString()和toLocaleString()的区别
查看>>
jquery 中remove()与detach()的区别
查看>>