導讀
JAVA簡單易用的特性,能夠讓研發人員在不了解JVM的底層運行機制的情況下依舊能夠編寫出功能完善的代碼。
但是對JVM的理解,是一個程序員普通和優秀的分水嶺。全面地了解JVM的工作原理,能夠更好地優化自己的代碼,并解決一些潛在的性能問題。
本文及后續文章將從原理聊起,對JVM的內存分配、GC、編譯等知識進行分析和總結。
1 JVM運行時內存劃分
1.1 運行時數據區域
??
?方法區
屬于共享內存區域,存儲已被虛擬機加載的類信息、常量、靜態變量、即時編譯器編譯后的代碼等數據。運行時常量池,屬于方法區的一部分,用于存放編譯期生成的各種字面量和符號引用。
JDK1.8之前,Hotspot虛擬機對方法區的實現叫做永久代,1.8之后改為元空間。二者區別主要在于永久代是在JVM虛擬機中分配內存,而元空間則是在本地內存中分配的。很多類是在運行期間加載的,它們所占用的空間完全不可控,所以改為使用本地內存,避免對JVM內存的影響。根據《Java虛擬機規范》的規定,如果方法區無法滿足新的內存分配需求時,將拋出OutOfMemoryError異常。
?堆
線程共享,主要是存放對象實例和數組。如果在Java堆中沒有內存完成實例分配,并且堆也無法再擴展時,Java虛擬機將會拋出OutOfMemoryError異常。PS:實際上寫入時并不完全共享,JVM會為線程在堆上劃分一塊專屬的分配緩沖區來提高對象分配效率。詳見:TLAB
?虛擬機棧
線程私有,方法執行的過程就是一個個棧幀從入棧到出棧的過程。每個方法在執行時都會創建一個棧幀(Stack Frame)用于存儲局部變量表、操作數棧、動態鏈接、方法出口等信息。如果線程入棧的棧幀超過限制就會拋出StackOverFlowError,如果支持動態擴展,那么擴展時申請內存失敗則拋出OutOfMemoryError。
?本地方法棧
和虛擬機棧的功能類似,區別是作用于Native方法。
?程序計數器
線程私有,記錄著當前線程所執行的字節碼的行號。其作用主要是多線程場景下,記錄線程中指令的執行位置。以便被掛起的線程再次被激活時,CPU能從其掛起前執行的位置繼續執行。唯一一個在 Java 虛擬機規范中沒有規定任何 OutOfMemoryError 情況的區域。注意:如果線程執行的是個java方法,那么計數器記錄虛擬機字節碼指令的地址。如果為native(底層方法),那么計數器為空。
1.2 對象的內存布局
在 HotSpot 虛擬機中,對象分為如下3塊區域:
?對象頭(Header)運行時數據:哈希碼、GC分代年齡、鎖狀態標志、偏向線程ID、偏向時間戳等。類型指針:對象的類型元數據的指針,如果對象是數據,還會記錄數組長度。
?對象實例數據(Instance Data)包含對象真正的內容,即其包括父類所有字段的值。
?對齊填充(Padding)對象大小必須是是8字節的整數倍,所以對象大小不滿足這個條件時,需要用對齊填充來補齊。
2 標記的方法和流程
2.1 判斷對象是否需要被回收
要分辨一個對象是否可以被回收,有兩種方式:引用計數法和可達性算法。
?引用計數法就是在對象被引用時,計數加1,引用斷開時,計數減1。那么一個對象的引用計數為0時,說明這個對象可以被清除。這個算法的問題在于,如果A對象引用B的同時,B對象也引用A,即循環引用,那么雖然雙方的引用計數都不為0,但如果僅僅被對方引用實際上沒有存在的價值,應該被GC掉。
?可達性算法通過引用計數法的缺陷可以看出,從被引用一方去判定其是否應該被清理過于片面,所以我們可以通過相反的方向去定位對象的存活價值:一個存活對象引用的所有對象都是不應該被清除的(Java中軟引用或弱引用在GC時有不同判定表現,不在此深究)。這些查找起點被稱為GC Root。
2.2 哪些對象可以作為GC Root呢?
1.JAVA虛擬機棧中的本地變量引用對象
2.方法區中靜態變量引用的對象
3.方法區中常量引用的對象
4.本地方法棧中JNI引用的對象
2.3 快速找到GC Root - OopMap
棧與寄存器都是無狀態的,保守式垃圾收集會直接線性掃描棧,再判斷每一串數字是不是引用,而HotSpot采用準確式垃圾收集方式,所有對象都存放在OopMap(Ordinary Object Pointer)中,當GC發生時,直接從這個map中尋找GC Root。
將GC Root存放到OopMap有兩個觸發時間點:
1.類加載完成后,HotSpot就會把對象內什么偏移量上是什么類型的數據計算出來。
2.即時編譯過程中,也會在特定的位置記錄下棧里和寄存器里哪些位置是引用。
2.4 更新OopMap的時機 - 安全點
導致OopMap更新的指令非常多,所以HotSpot只在特定位置進行記錄更新,這些位置叫做安全點。安全點位置的選取的標準是:“是否具有讓程序長時間執行”。比如方法調用、循環跳轉、異常跳出等等。
2.5 可達性分析過程
三色標記法
?白色:表示垃圾回收過程中,尚未被垃圾收集器訪問過的對象,在可達性分析開始階段,所有對象都是白色的,即不可達。
?黑色:被垃圾收集器訪問過的對象,且這個對象所有的引用均掃描過。黑色的對象是安全存活的,如果其他對象被訪問時發現其引用了黑色對象,該黑色對象也不會再被掃描。
?灰色:被垃圾收集器訪問過的對象,但這個對象至少有一個引用的對象沒有被掃描過。那么標記階段就是從GC Root的開始,沿著其引用鏈將每一個對象從白色標記為灰色最后標記為黑色的過程。
標記過程中不一致問題
由于這個階段是層層遞進的標記,所以過程中難免出現不一致的情況導致原本是黑色的對象被標記為白色,比如,當前掃描到B對象了,C對象尚未被訪問時,標記情況如下:
那么如果這時A對象取消了對B對象的引用,而GC Root增加了對C對象的引用,GC Root作為黑色標記不會再次被掃描,那么C對象在標記階段結束后仍然會保持白色,就會被清除掉。
解決方式
?增量更新
當黑色對象增加了對白色對象的引用時,將其從黑色改為灰色,等并發標記階段結束后,從GC Root開始順著對象圖再將灰色對象重新掃描一次,這個掃描過程會STW,不會再次產生不一致問題。CMS就采用了這種方式。
?原始快照(SATB)
當灰色對象刪除了白色對象的引用時,將其記錄在線程獨占的SATB Queue中,讓其在標記階段結束后被再次掃描。 G1、Shenandoah采用了這種方式。
示例
我們通過一個例子來展示兩種處理方式的不同,比如正常標記到對象A時,將其標記為灰色:
此時,用戶線程發生如下行為:
1.GC Root直接引用了C
2.A取消了引用B
理論上,C仍然是可達對象,不應被清除,而B不可達,應當被清除。
增量更新會記錄行為1,將GC Root標記為灰色,B不能訪問到被標記為可以回收:
等到重新標記階段再次訪問灰色的GC Root,順序將GC Root和C標記為黑色:
而原始快照會記錄行為2,將發生引用變化的對象全部記錄下來,等到重新標記階段再次訪問這些灰色,將其標記為黑色并順著對象圖掃描。
那么最終B作為浮動垃圾就被保存下來了,只能等到下一次GC時才能被回收。
3 分代模型
3.1 分代假說
弱分代假說(WeakGenerationalHypothesis):絕大多數對象都是朝生夕滅的。 強分代假說(StrongGenerationalHypothesis):熬過越多次垃圾收集過程的對象就越難以消亡。 跨代引用假說(IntergenerationalReferenceHypothesis):跨代引用相對于同代引用來說僅占極少數。
上述假說是根據實際經驗得來的,由此垃圾收集器通常分為“年輕代”和“年老代”:
?年輕代用來存放不斷生成且生命周期短暫的對象,收集動作相對高頻
?年老代用來存放經歷多次GC仍然存活的對象,收集動作相對低頻
3.2 空間分配擔保
如果在GC后新生代存貨對象過多,Survivor無法容納,那么將會把這些對象直接送入年老代,這就叫年老代進行了“分配擔保”。 為了保證年老代能夠足夠空間容納這些直接晉升的對象,在發生Minor GC之前,虛擬機必須先檢查年老代最大可用的連續空間,如果大于新生代所有對象總空間或者歷次晉升的平均大小,就會進行MinorGC,否則將進行FullGC以同時清理年老代。
3.3 記憶集和卡表
記憶集是一種用于記錄從非收集區域指向收集區域的指針集合的抽象數據結構。
記憶集的作用
新生代發生垃圾收集時(Minor GC),如果想確定這個新生代對象是否被年老代的對象引用,則需要掃描整個年老代,成本非常高。
如果我們能知道哪一部分年老代可能存在對新生代的引用,就可以降低掃描范圍。
所以我們可以在新生代建立一個全局數據結構叫“記憶集(Remembered Set)”,這個結構把年老代分為若干個小塊,標記了哪些小塊內存中存在引用了新生代對象的情況,等到Minor GC時,只掃描這部分存在跨代引用的內存塊即可。雖然在對象變化時增加了維護記憶集的成本,但相比垃圾收集時掃描整個年老代來說是值得的。
JVM通常在對象增加引用前設置寫屏障判斷是否發生跨代引用,如果有跨代情況,則更新記憶集。
卡表
實現記憶集時,可以有不同精度的粒度:可以指向內存地址,也可以指向某個對象,或者指向某一塊內存區域。精度越低,維護成本越低。指向某一塊內存區域的實現方式就是“卡表”。卡表通常就是一個byte數組,數組中每一個元素代表某一塊內存,其值是1或者0:當發生跨代引用時,就表示該元素“dirty”了,那么將將其設置為1,否則就是0。
4 垃圾回收算法
4.1 標記-清除(Mark-Sweep)
GC分為兩個階段,標記和清除。首先標記所有可回收的對象,在標記完成后統一回收所有被標記的對象。
缺點是清除后會產生不連續的內存碎片。碎片過多會導致以后程序運行時需要分配較大對象時,無法找到足夠的連續內存,而不得已再次觸發GC。
4.2 標記-復制(Mark-Copy)
將內存按容量劃分為兩塊,每次只使用其中一塊。當這一塊內存用完了,就將存活的對象復制到另一塊上,然后再把已使用的內存空間一次清理掉。
這樣使得每次都是對半個內存區回收,也不用考慮內存碎片問題,簡單高效。
缺點需要兩倍的內存空間。
一種優化方式是使用eden和survivior區,具體步驟如下:
eden和survivior區默認內存空間占比為8:1:1,同一時間只使用eden區和其中一個survivior區。標記完成后,將存活對象復制到另一個未使用的survivior區(部分年齡過大的對象將升級到年老代)。
這種做法,相比普通的兩塊空間的標記復制算法來說,只有10%的內存空間浪費,而這樣做的原因是:大部分情況下,一次young gc后剩余的存活對象非常少。
4.3 標記-整理(Mark-Compact)
標記-整理也分為兩個階段,首先標記可回收的對象,再將存活的對象都向一端移動,然后清理掉邊界以外的內存。
此方法避免標記-清除算法的碎片問題,同時也避免了復制算法的空間問題。 一般年輕代中執行GC后,會有少量的對象存活,就會選用復制算法,只要付出少量的存活對象復制成本就可以完成收集。
而年老代中因為對象存活率高,用標記復制算法時數據復制效率較低,且空間浪費較大。所以需要使用標記-清除或者標記-整理算法來進行回收。
所以通常可以先使用標記清除算法,當碎片率高時,再使用標記整理算法。
5 最后
本篇介紹了JVM中垃圾回收器相關的基礎知識,后續會深入介紹CMS、G1、ZGC等不同垃圾收集器的運作流程和原理,歡迎關注。
?
系列文章:
從原理聊JVM(一):染色標記和垃圾回收算法
從原理聊JVM(二):從串行收集器到分區收集開創者G1
從原理聊JVM(三):詳解現代垃圾回收器Shenandoah和ZGC
從原理聊JVM(四):JVM中的方法調用原理
從原理聊JVM(五):JVM中的編譯過程和優化手段?
審核編輯 黃宇
-
算法
+關注
關注
23文章
4675瀏覽量
94191 -
內存
+關注
關注
8文章
3096瀏覽量
74828 -
JVM
+關注
關注
0文章
159瀏覽量
12444
發布評論請先 登錄
相關推薦
如何一眼定位SQL的代碼來源:一款SQL染色標記的簡易MyBatis插件

智能垃圾投放站遠程監控智慧運維系統方案
垃圾短信?手機自動識別垃圾短信邏輯的分析
談JVM xmx, xms等內存相關參數合理性設置
聊聊JVM如何優化

基于PYNQ的智能垃圾分類系統
RFID智慧環衛護航城市垃圾精細化管理

MK米客方德SD NAND的垃圾回收機制

垃圾清運以及垃圾處理“神器”讓垃圾清運更高效。

垃圾中轉站無人值守物聯網解決方案

智能垃圾回收箱系統軟件設計

評論