绝色狂妃仙魅小说,小说阅读网免费小说,耳根

MySQL作為當(dāng)下最流行的開源關(guān)系型數(shù)據(jù)庫，有一個很關(guān)鍵和基本的能力，就是必須能夠保證數(shù)據(jù)不會丟。那么在這個能力背后，MySQL是如何設(shè)計(jì)才能保證不管在什么時間崩潰，恢復(fù)后都能保證數(shù)據(jù)不會丟呢？有哪些關(guān)鍵技術(shù)支撐了這個能力？本文將為我們一一揭曉。

一、前言

MySQL 保證數(shù)據(jù)不會丟的能力主要體現(xiàn)在兩方面：

能夠恢復(fù)到任何時間點(diǎn)的狀態(tài)；

能夠保證MySQL在任何時間段突然奔潰，重啟后之前提交的記錄都不會丟失；

對于第一點(diǎn)將MySQL恢復(fù)到任何時間點(diǎn)的狀態(tài)，相信很多人都知道，只要保留有足夠的binlog，就能通過重跑binlog來實(shí)現(xiàn)。

對于第二點(diǎn)的能力，也就是本文標(biāo)題所講的crash-safe。即在 InnoDB 存儲引擎中，事務(wù)提交過程中任何階段，MySQL突然奔潰，重啟后都能保證事務(wù)的完整性，已提交的數(shù)據(jù)不會丟失，未提交完整的數(shù)據(jù)會自動進(jìn)行回滾。這個能力依賴的就是redo log和unod log兩個日志。

因?yàn)閏rash-safe主要體現(xiàn)在事務(wù)執(zhí)行過程中突然奔潰，重啟后能保證事務(wù)完整性，所以在講解具體原理之前，先了解下MySQL事務(wù)執(zhí)行有哪些關(guān)鍵階段，后面才能依據(jù)這幾個階段來進(jìn)行解析。下面以一條更新語句的執(zhí)行流程為例，話不多說，直接上圖：

從上圖可以清晰地看出一條更新語句在MySQL中是怎么執(zhí)行的，簡單進(jìn)行總結(jié)一下：

從內(nèi)存中找出這條數(shù)據(jù)記錄，對其進(jìn)行更新；

將對數(shù)據(jù)頁的更改記錄到redo log中；

將邏輯操作記錄到binlog中；

對于內(nèi)存中的數(shù)據(jù)和日志，都是由后臺線程，當(dāng)觸發(fā)到落盤規(guī)則后再異步進(jìn)行刷盤；

上面演示了一條更新語句的詳細(xì)執(zhí)行過程，接下來咱們通過解答問題，帶著問題來剖析這個crash-safe的設(shè)計(jì)原理。

二、WAL機(jī)制

問題：為什么不直接更改磁盤中的數(shù)據(jù)，而要在內(nèi)存中更改，然后還需要寫日志，最后再落盤這么復(fù)雜？

這個問題相信很多同學(xué)都能猜出來，MySQL更改數(shù)據(jù)的時候，之所以不直接寫磁盤文件中的數(shù)據(jù)，最主要就是性能問題。因?yàn)橹苯訉懘疟P文件是隨機(jī)寫，開銷大性能低，沒辦法滿足MySQL的性能要求。所以才會設(shè)計(jì)成先在內(nèi)存中對數(shù)據(jù)進(jìn)行更改，再異步落盤。但是內(nèi)存總是不可靠，萬一斷電重啟，還沒來得及落盤的內(nèi)存數(shù)據(jù)就會丟失，所以還需要加上寫日志這個步驟，萬一斷電重啟，還能通過日志中的記錄進(jìn)行恢復(fù)。

寫日志雖然也是寫磁盤，但是它是順序?qū)懀啾入S機(jī)寫開銷更小，能提升語句執(zhí)行的性能（針對順序?qū)憺槭裁幢入S機(jī)寫更快，可以比喻為你有一個本子，按照順序一頁一頁寫肯定比寫一個字都要找到對應(yīng)頁寫快得多）。

這個技術(shù)就是大多數(shù)存儲系統(tǒng)基本都會用的WAL（Write Ahead Log）技術(shù)，也稱為日志先行的技術(shù)，指的是對數(shù)據(jù)文件進(jìn)行修改前，必須將修改先記錄日志。保證了數(shù)據(jù)一致性和持久性，并且提升語句執(zhí)行性能。

三、核心日志模塊

問題：更新SQL語句執(zhí)行流程中，總共需要寫3個日志，這3個是不是都需要，能不能進(jìn)行簡化？

更新SQL執(zhí)行過程中，總共涉及MySQL日志模塊其中的三個核心日志，分別是redo log（重做日志）、undo log（回滾日志）、binlog（歸檔日志）。這里提前預(yù)告，crash-safe的能力主要依賴的就是這三大日志。

接下來，針對每個日志將單獨(dú)介紹各自的作用，然后再來評估是否能簡化掉。

1、重做日志 redo log

redo log也稱為事務(wù)日志，由InnoDB存儲引擎層產(chǎn)生。記錄的是數(shù)據(jù)庫中每個頁的修改，而不是某一行或某幾行修改成怎樣，可以用來恢復(fù)提交后的物理數(shù)據(jù)頁（恢復(fù)數(shù)據(jù)頁，且只能恢復(fù)到最后一次提交的位置，因?yàn)樾薷臅采w之前的）。

前面提到的WAL技術(shù)，redo log就是WAL的典型應(yīng)用，MySQL在有事務(wù)提交對數(shù)據(jù)進(jìn)行更改時，只會在內(nèi)存中修改對應(yīng)的數(shù)據(jù)頁和記錄redo log日志，完成后即表示事務(wù)提交成功，至于磁盤數(shù)據(jù)文件的更新則由后臺線程異步處理。由于redo log的加入，保證了MySQL數(shù)據(jù)一致性和持久性（即使數(shù)據(jù)刷盤之前MySQL奔潰了，重啟后仍然能通過redo log里的更改記錄進(jìn)行重放，重新刷盤），此外還能提升語句的執(zhí)行性能（寫redo log是順序?qū)懀啾扔诟聰?shù)據(jù)文件的隨機(jī)寫，日志的寫入開銷更小，能顯著提升語句的執(zhí)行性能，提高并發(fā)量），由此可見redo log是必不可少的。

redo log是固定大小的，所以只能循環(huán)寫，從頭開始寫，寫到末尾就又回到開頭，相當(dāng)于一個環(huán)形。當(dāng)日志寫滿了，就需要對舊的記錄進(jìn)行擦除，但在擦除之前，需要確保這些要被擦除記錄對應(yīng)在內(nèi)存中的數(shù)據(jù)頁都已經(jīng)刷到磁盤中了。在redo log滿了到擦除舊記錄騰出新空間這段期間，是不能再接收新的更新請求，所以有可能會導(dǎo)致MySQL卡頓。（所以針對并發(fā)量大的系統(tǒng)，適當(dāng)設(shè)置redo log的文件大小非常重要！！！）

2、回滾日志 undo log

undo log顧名思義，主要就是提供了回滾的作用，但其還有另一個主要作用，就是多個行版本控制（MVCC），保證事務(wù)的原子性。在數(shù)據(jù)修改的流程中，會記錄一條與當(dāng)前操作相反的邏輯日志到undo log中（可以認(rèn)為當(dāng)delete一條記錄時，undo log中會記錄一條對應(yīng)的insert記錄，反之亦然，當(dāng)update一條記錄時，它記錄一條對應(yīng)相反的update記錄），如果因?yàn)槟承┰驅(qū)е率聞?wù)異常失敗了，可以借助該undo log進(jìn)行回滾，保證事務(wù)的完整性，所以undo log也必不可少。

3、歸檔日志 binlog

binlog在MySQL的server層產(chǎn)生，不屬于任何引擎，主要記錄用戶對數(shù)據(jù)庫操作的SQL語句（除了查詢語句）。之所以將binlog稱為歸檔日志，是因?yàn)閎inlog不會像redo log一樣擦掉之前的記錄循環(huán)寫，而是一直記錄（超過有效期才會被清理），如果超過單日志的最大值（默認(rèn)1G，可以通過變量 max_binlog_size 設(shè)置），則會新起一個文件繼續(xù)記錄。但由于日志可能是基于事務(wù)來記錄的（如InnoDB表類型），而事務(wù)是絕對不可能也不應(yīng)該跨文件記錄的，如果正好binlog日志文件達(dá)到了最大值但事務(wù)還沒有提交則不會切換新的文件記錄，而是繼續(xù)增大日志，所以 max_binlog_size 指定的值和實(shí)際的binlog日志大小不一定相等。

正是由于binlog有歸檔的作用，所以binlog主要用作主從同步和數(shù)據(jù)庫基于時間點(diǎn)的還原。

那么回到剛才的問題，binlog可以簡化掉嗎？這里需要分場景來看：

如果是主從模式下，binlog是必須的，因?yàn)閺膸斓臄?shù)據(jù)同步依賴的就是binlog；

如果是單機(jī)模式，并且不考慮數(shù)據(jù)庫基于時間點(diǎn)的還原，binlog就不是必須，因?yàn)橛衦edo log就可以保證crash-safe能力了；但如果萬一需要回滾到某個時間點(diǎn)的狀態(tài)，這時候就無能為力，所以建議binlog還是一直開啟；

根據(jù)上面對三個日志的詳解，我們可以對這個問題進(jìn)行解答：在主從模式下，三個日志都是必須的；在單機(jī)模式下，binlog可以視情況而定，保險(xiǎn)起見最好開啟。

四、兩階段提交

問題：為什么redo log要分兩步寫，中間再穿插寫binlog呢？

從上面可以看出，因?yàn)閞edo log影響主庫的數(shù)據(jù)，binlog影響從庫的數(shù)據(jù)，所以redo log和binlog必須保持一致才能保證主從數(shù)據(jù)一致，這是前提。

相信很多有過開發(fā)經(jīng)驗(yàn)的同學(xué)都知道分布式事務(wù)，這里的redo log和binlog其實(shí)就是很典型的分布式事務(wù)場景，因?yàn)閮烧弑旧砭褪莾蓚€獨(dú)立的個體，要想保持一致，就必須使用分布式事務(wù)的解決方案來處理。而將redo log分成了兩步，其實(shí)就是使用了兩階段提交協(xié)議（Two-phase Commit，2PC）。

下面對更新語句的執(zhí)行流程進(jìn)行簡化，看一下MySQL的兩階段提交是如何實(shí)現(xiàn)的：

從圖中可看出，事務(wù)的提交過程有兩個階段，就是將redo log的寫入拆成了兩個步驟：prepare和commit，中間再穿插寫入binlog。

如果這時候你很疑惑，為什么一定要用兩階段提交呢，如果不用兩階段提交會出現(xiàn)什么情況，比如先寫redo log，再寫binlog或者先寫binlog，再寫redo log不行嗎？下面我們用反證法來進(jìn)行論證。

我們繼續(xù)用update T set c=c+1 where id=2這個例子，假設(shè)id=2這一條數(shù)據(jù)的c初始值為0。那么在redo log寫完，binlog還沒有寫完的時候，MySQL進(jìn)程異常重啟。由于redo log已經(jīng)寫完了，系統(tǒng)重啟后會通過redo log將數(shù)據(jù)恢復(fù)回來，所以恢復(fù)后這一？c的值是1。但是由于binlog沒寫完就crash？，這時候binlog？面就沒有記錄這個語？。因此，不管是現(xiàn)在的從庫還是之后通過這份binlog還原臨時庫都沒有這一次更新，c的值還是0，與原庫的值不同。

同理，如果先寫binlog，再寫redo log，中途系統(tǒng)crash了，也會導(dǎo)致主從不一致，這里就不再詳述。

所以將redo log分成兩步寫，即兩階段提交，才能保證redo log和binlog內(nèi)容一致，從而保證主從數(shù)據(jù)一致。

兩階段提交雖然能夠保證單事務(wù)兩個日志的內(nèi)容一致，但在多事務(wù)的情況下，卻不能保證兩者的提交順序一致，比如下面這個例子，假設(shè)現(xiàn)在有3個事務(wù)同時提交：

T1 （--prepare--binlog---------------------commit） T2 （-----prepare-----binlog----commit） T3 （--------prepare-------binlog------commit）解析： redo log prepare的順序：T1 --》T2 --》T3 binlog的寫入順序：T1 --》 T2 --》T3 redo log commit的順序：T2 --》 T3 --》T1

結(jié)論：由于binlog寫入的順序和redo log提交結(jié)束的順序不一致，導(dǎo)致binlog和redo log所記錄的事務(wù)提交結(jié)束的順序不一樣，最終導(dǎo)致的結(jié)果就是主從數(shù)據(jù)不一致。

因此，在兩階段提交的流程基礎(chǔ)上，還需要加一個鎖來保證提交的原子性，從而保證多事務(wù)的情況下，兩個日志的提交順序一致。所以在早期的MySQL版本中，通過使用prepare_commit_mutex鎖來保證事務(wù)提交的順序，在一個事務(wù)獲取到鎖時才能進(jìn)入prepare，一直到commit結(jié)束才能釋放鎖，下個事務(wù)才可以繼續(xù)進(jìn)行prepare操作。通過加鎖雖然完美地解決了順序一致性的問題，但在并發(fā)量較大的時候，就會導(dǎo)致對鎖的爭用，性能不佳。除了鎖的爭用會影響到性能之外，還有一個對性能影響更大的點(diǎn)，就是每個事務(wù)提交都會進(jìn)行兩次fsync（寫磁盤），一次是redo log落盤，另一次是binlog落盤。大家都知道，寫磁盤是昂貴的操作，對于普通磁盤，每秒的QPS大概也就是幾百。

五、組提交

問題：針對通過在兩階段提交中加鎖控制事務(wù)提交順序這種實(shí)現(xiàn)方式遇到的性能瓶頸問題，有沒有更好的解決方案呢？

答案自然是有的，在MySQL 5.6 就引入了binlog組提交，即BLGC（Binary Log Group Commit）。binlog組提交的基本思想是，引入隊(duì)列機(jī)制保證InnoDB commit順序與binlog落盤順序一致，并將事務(wù)分組，組內(nèi)的binlog刷盤動作交給一個事務(wù)進(jìn)行，實(shí)現(xiàn)組提交目的。具體如圖：

第一階段（prepare階段）：

持有prepare_commit_mutex，并且write/fsync redo log到磁盤，設(shè)置為prepared狀態(tài)，完成后就釋放prepare_commit_mutex，binlog不作任何操作。

第二個階段（commit階段）：這里拆分成了三步，每一步的任務(wù)分配給一個專門的線程處理：

Flush Stage（寫入binlog緩存）

① 持有Lock_log mutex ［leader持有，follower等待］

② 獲取隊(duì)列中的一組binlog（隊(duì)列中的所有事務(wù)）

③ 寫入binlog緩存

Sync Stage（將binlog落盤）

①釋放Lock_log mutex，持有Lock_sync mutex［leader持有，follower等待］

②將一組binlog落盤（fsync動作，最耗時，假設(shè)sync_binlog為1）。

Commit Stage（InnoDB commit，清楚undo信息）

①釋放Lock_sync mutex，持有Lock_commit mutex［leader持有，follower等待］

② 遍歷隊(duì)列中的事務(wù)，逐一進(jìn)行InnoDB commit

③ 釋放Lock_commit mutex

每個Stage都有自己的隊(duì)列，隊(duì)列中的第一個事務(wù)稱為leader，其他事務(wù)稱為follower，leader控制著follower的行為。每個隊(duì)列各自有mutex保護(hù)，隊(duì)列之間是順序的。只有flush完成后，才能進(jìn)入到sync階段的隊(duì)列中；sync完成后，才能進(jìn)入到commit階段的隊(duì)列中。但是這三個階段的作業(yè)是可以同時并發(fā)執(zhí)行的，即當(dāng)一組事務(wù)在進(jìn)行commit階段時，其他新事務(wù)可以進(jìn)行flush階段，實(shí)現(xiàn)了真正意義上的組提交，大幅度降低磁盤的IOPS消耗。

針對組提交為什么比兩階段提交加鎖性能更好，簡單做個總結(jié)：組提交雖然在每個隊(duì)列中仍然保留了prepare_commit_mutex鎖，但是鎖的粒度變小了，變成了原來兩階段提交的1/4，所以鎖的爭用性也會大大降低；另外，組提交是批量刷盤，相比之前的單條記錄都要刷盤，能大幅度降低磁盤的IO消耗。

六、數(shù)據(jù)恢復(fù)流程

問題：假設(shè)事務(wù)提交過程中，MySQL進(jìn)程突然奔潰，重啟后是怎么保證數(shù)據(jù)不丟失的？

下圖就是MySQL重啟后，提供服務(wù)前會先做的事 -- 恢復(fù)數(shù)據(jù)的流程：

對上圖進(jìn)行簡單描述就是：奔潰重啟后會檢查redo log中是完整并且處于prepare狀態(tài)的事務(wù)，然后根據(jù)XID（事務(wù)ID），從binlog中找到對應(yīng)的事務(wù)，如果找不到，則回滾；找到并且事務(wù)完整則重新commit redo log，完成事務(wù)的提交。

下面我們根據(jù)事務(wù)提交流程，在不同的階段時刻，看看MySQL突然奔潰后，按照上述流程是如何恢復(fù)數(shù)據(jù)的。

時刻A（剛在內(nèi)存中更改完數(shù)據(jù)頁，還沒有開始寫redo log的時候奔潰）：

因?yàn)閮?nèi)存中的臟頁還沒刷盤，也沒有寫redo log和binlog，即這個事務(wù)還沒有開始提交，所以奔潰恢復(fù)跟該事務(wù)沒有關(guān)系；

時刻B（正在寫redo log或者已經(jīng)寫完redo log并且落盤后，處于prepare狀態(tài)，還沒有開始寫binlog的時候奔潰）：

恢復(fù)后會判斷redo log的事務(wù)是不是完整的，如果不是則根據(jù)undo log回滾；如果是完整的并且是prepare狀態(tài)，則進(jìn)一步判斷對應(yīng)的事務(wù)binlog是不是完整的，如果不完整則一樣根據(jù)undo log進(jìn)行回滾；

時刻C（正在寫binlog或者已經(jīng)寫完binlog并且落盤了，還沒有開始commit redo log的時候奔潰）：

恢復(fù)后會跟時刻B一樣，先檢查redo log中是完整并且處于prepare狀態(tài)的事務(wù)，然后判斷對應(yīng)的事務(wù)binlog是不是完整的，如果不完整則一樣根據(jù)undo log回滾，完整則重新commit redo log；

時刻D（正在commit redo log或者事務(wù)已經(jīng)提交完的時候，還沒有反饋成功給客戶端的時候奔潰）：

恢復(fù)后跟時刻C基本一樣，都會對照redo log和binlog的事務(wù)完整性，來確認(rèn)是回滾還是重新提交。

七、總結(jié)

至此對MySQL 的crash-safe原理細(xì)節(jié)就基本講完了，簡單回顧一下：

首先簡單介紹了WAL日志先行技術(shù)，包括它的定義、流程和作用。WAL是大部分?jǐn)?shù)據(jù)庫系統(tǒng)實(shí)現(xiàn)一致性和持久性的通用設(shè)計(jì)模式。；

接著對MySQL的日志模塊，redo log、undo log、binlog、兩階段提交和組提交都進(jìn)行了詳細(xì)介紹；

最后講解了數(shù)據(jù)恢復(fù)流程，并從不同時刻加以驗(yàn)證。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

MySQL

MySQL

+關(guān)注

關(guān)注
1

文章
854

瀏覽量
27837
關(guān)系型數(shù)據(jù)庫

關(guān)系型數(shù)據(jù)庫

+關(guān)注

關(guān)注
0

文章
8

瀏覽量
2402

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

MySQL是如何保證數(shù)據(jù)不會丟的

評論