前言
在日常編程中, 數(shù)值類型 ( numeric types )是我們打交道最多的類型,可能沒有之一。除了最熟悉的 int
,還有 long
、float
、double
等。正因太熟悉,我們往往不會(huì)深究它們的底層原理。因?yàn)槠綍r(shí)的工作中,知道個(gè)大概,也夠用了。
但,在某些業(yè)務(wù)場(chǎng)景下,比如金融業(yè)務(wù),數(shù)值運(yùn)算不準(zhǔn)確會(huì)帶來災(zāi)難性的后果。這時(shí),你就必須清楚數(shù)值類型的二進(jìn)制表示、截?cái)唷⑥D(zhuǎn)型等原理,否則很難保證運(yùn)算結(jié)果的正確性。
另外,數(shù)值類型也是一個(gè)容易被黑客攻擊的點(diǎn),考慮如下一段代碼:
// C++
/* Declaration of library function memcpy */
void *memcpy(void *dest, void *src, size_t n);
/* Kernel memory region holding user-accessible data */
#define KSIZE 1024
char kbuf[KSIZE];
/* Copy at most maxlen bytes from kernel region to user buffer */
int copy_from_kernel(void *user_dest, int maxlen) {
/* Byte count len is minimum of buffer size and maxlen */
int len = KSIZE < maxlen ? KSIZE : maxlen;
memcpy(user_dest, kbuf, len);
return len;
}
如果你熟悉數(shù)值類型的原理,一定會(huì)敏銳察覺出第 10 行存在 int
到 size_t
的類型轉(zhuǎn)換。在 64 位系統(tǒng)中,size_t
通常被定義為 unsigned long
類型,如果攻擊者在調(diào)用 copy_from_kernel
時(shí),特意傳入一個(gè)負(fù)數(shù)的 maxlen
,轉(zhuǎn)型到 memcpy
中的 n
將會(huì)是一個(gè)很大的正數(shù),從而導(dǎo)致了內(nèi)存拷貝的越界!
數(shù)值類型是計(jì)算機(jī)編程的基礎(chǔ),用的很多,也很重要,理解它的底層原理,有助于寫出正確的代碼,避免一些意料之外的錯(cuò)誤 。
每個(gè)計(jì)算機(jī)系統(tǒng)都有固定的 word size ,也即常說的 xx 位,它也是指針的大小,跟 虛擬內(nèi)存 相關(guān),比如一個(gè) w 位系統(tǒng)上的應(yīng)用程序,最多能夠訪問 byte 大小的虛擬內(nèi)存。
最常用的是 32 位 和 64 位 系統(tǒng),某些數(shù)值類型在它們之上會(huì)有些差異,比如 long 類型 在 32 位系統(tǒng)上是 32 bit 大小,在 64 位系統(tǒng)上是 64 bit 大小。 考慮如今 64 位系統(tǒng)逐漸成為主流,本文會(huì)以它作為基礎(chǔ),進(jìn)行數(shù)值類型的介紹 。
整數(shù)
在計(jì)算機(jī)系統(tǒng)中,整數(shù)可以分成 無符號(hào) ( unsigned )整數(shù) 和 有符號(hào) ( signed )整數(shù) 兩大類,這之下,按照類型表示的 bit 位大小,又可細(xì)分成 8 位的 char/byte/int8
、16 位的 short/innt16
、32 位的 int/int32
和 64 位的 long/int64
,它們的取值范圍如下:
類型 | 最小值 | 最大值 |
---|---|---|
[signed] char |
-128 | 127 |
unsigned char |
0 | 255 |
short |
-32,768 | 32,767 |
unsigned short |
0 | 65,535 |
int |
?2,147,483,648 | 2,147,483,647 |
unsigned int |
0 | 4,294,967,295 |
long |
?9,223,372,036,854,775,808 | 9,223,372,036,854,775,807 |
unsigned long |
0 | 18,446,744,073,709,551,615 |
死記這個(gè)表不容易,下面我們將試圖從二進(jìn)制編碼層面去理解它。
二進(jìn)制編碼
整數(shù)在計(jì)算機(jī)系統(tǒng)上都是以二進(jìn)制存儲(chǔ)的,對(duì)于一個(gè) w 位的整數(shù) ,它的二進(jìn)制表示寫成這樣:
其中, 取值 或 。
無符號(hào)編碼(Unsigned Encodings)
在二進(jìn)制表示的基礎(chǔ)上,無符號(hào)編碼 是這樣:
比如,w = 4 場(chǎng)景下的一些例子:
由上述可知, 無符號(hào)編碼無法表示負(fù)數(shù),因此只能表示無符號(hào)整數(shù) 。為了表示有符號(hào)整數(shù),還要探尋另一種編碼方式。
原碼編碼(True Form Encodings)
為了區(qū)分正數(shù)和負(fù)數(shù),很容易想到使用一個(gè) bit 位作為 符號(hào)位 , 表示正數(shù), 表示負(fù)數(shù)。在無符號(hào)編碼的基礎(chǔ)上,使用最高位作為符號(hào)位,其他位含義不變,得出 原碼編碼 形式:
比如,w = 4 場(chǎng)景下的一些例子:
雖然原碼編碼方式簡(jiǎn)單直觀,但它還存在兩個(gè)問題:
(1) 存在兩種編碼形式
原碼編碼方式下, 存在兩種編碼形式, 和 。同一個(gè)整數(shù)值,卻有兩種編碼,這對(duì)計(jì)算機(jī)系統(tǒng)來說沒什么意義,反而是一種浪費(fèi)。
(2)帶負(fù)數(shù)的加法運(yùn)算不正確
原碼編碼方式下,兩個(gè)正數(shù)的加法沒問題,一旦帶上負(fù)數(shù),結(jié)果就出錯(cuò)了:
所以,原碼編碼方式,注定不會(huì)被使用。
補(bǔ)碼編碼(Two's-complement Encodings)
于是,補(bǔ)碼編碼 被發(fā)明,它也是建立在無符號(hào)編碼的基礎(chǔ)上,仍然取最高位為符號(hào)位,編碼方式是這樣:
它與無符號(hào)編碼的唯一區(qū)別是,最高位的取值從 變成了 。
比如,w = 4 場(chǎng)景下的一些例子:
補(bǔ)碼編碼很巧妙地解決了原碼編碼的兩個(gè)問題:
首先,0 在補(bǔ)碼編碼下只有一種編碼形式, 。
此外,帶負(fù)數(shù)的加法運(yùn)算,也正確了。
因?yàn)檠a(bǔ)碼編碼的簡(jiǎn)單和正確性,目前,幾乎所有的計(jì)算機(jī)系統(tǒng),都采用補(bǔ)碼編碼來表示有符號(hào)整數(shù) 。
位運(yùn)算
位運(yùn)算主要包含 取反 、 與 、 或 、 異或 、移位 等幾種,我們?cè)跇I(yè)務(wù)開發(fā)時(shí)用得比較少,但如果你有閱讀開源代碼的習(xí)慣,就會(huì)經(jīng)常發(fā)現(xiàn)它們的蹤跡。如果碰巧對(duì)位運(yùn)算不熟悉,那么閱讀這些代碼,就同讀天書一般。
取反(~)、與(&)、或(|)、異或(^)的規(guī)則比較簡(jiǎn)單:
移位運(yùn)算,可以分成 左移 和 右移 兩種,其中,右移又可分為 邏輯右移 和 算術(shù)右移 。
左移(<<)運(yùn)算,是對(duì)二進(jìn)制整數(shù),向左移若干位,高位丟棄,低位補(bǔ)零 。也即,對(duì) 左移 位,得到 。
比如,對(duì) int i = -1
左移 10 位,會(huì)得到 i = -1024
的結(jié)果:
// Java語言
public static void main(String[] args) {
int i = -1;
System.out.println("Before << , i's value is " + i);
System.out.println("i's binary string is " + Integer.toBinaryString(i));
i <<= 10;
System.out.println("After << , i's value is " + i);
System.out.println("i's binary string is " + Integer.toBinaryString(i));
}
// 輸出結(jié)果:
Before << , i's value is -1
i's binary string is 11111111111111111111111111111111
After << , i's value is -1024
i's binary string is 11111111111111111111110000000000
在 C/C++ 中,兩種右移操作符都是 >>,對(duì)無符號(hào)整數(shù)用的是邏輯右移,對(duì)有符號(hào)整數(shù)用的是算術(shù)右移;在 Java 中,邏輯右移的操作符是 >>>,算術(shù)右移的操作符是 >>。為了方便區(qū)分,下文統(tǒng)一用 Java 的表示方法。
邏輯右移(>>>)運(yùn)算,是對(duì)二進(jìn)制整數(shù),向右移若干位,高位補(bǔ)零,低位丟棄 。也即,對(duì) 邏輯左移 k 位,得到 。
比如,對(duì) int i = -1
邏輯右移 10 位,會(huì)得到 i = 4194303
的結(jié)果:
// Java語言
public static void main(String[] args) {
int i = -1;
System.out.println("Before >>> , i's value is " + i);
System.out.println("i's binary string is " + Integer.toBinaryString(i));
i >>>= 10;
System.out.println("After >>> , i's value is " + i);
System.out.println("i's binary string is " + Integer.toBinaryString(i));
}
// 輸出結(jié)果:
Before >>> , i's value is -1
i's binary string is 11111111111111111111111111111111
After >>> , i's value is 4194303
i's binary string is 1111111111111111111111
算術(shù)右移(>>)運(yùn)算,是對(duì)二進(jìn)制整數(shù),向右移若干位,高位補(bǔ)符號(hào)位,低位丟棄 。也即,對(duì) 邏輯左移 k 位,得到 。
比如,對(duì) int i = -1
算術(shù)右移 10 位,仍會(huì)得到 i = -1
的結(jié)果:
// Java語言
public static void main(String[] args) {
int i = -1;
System.out.println("Before >> , i's value is " + i);
System.out.println("i's binary string is " + Integer.toBinaryString(i));
i >>= 10;
System.out.println("After >> , i's value is " + i);
System.out.println("i's binary string is " + Integer.toBinaryString(i));
}
// 輸出結(jié)果:
Before >> , i's value is -1
i's binary string is 11111111111111111111111111111111
After >> , i's value is -1
i's binary string is 11111111111111111111111111111111
目前為止,介紹移位運(yùn)算的原理時(shí),我們都默認(rèn) k < w,如果 k >= w 會(huì)怎樣 ?
比如, 左移 w 位,結(jié)果會(huì)是 嗎:
// Java語言
public static void main(String[] args) {
int i1 = -1;
System.out.println("Before << 31, i1's value is " + i1);
System.out.println("i1's binary string is " + Integer.toBinaryString(i1));
i1 <<= 31;
System.out.println("After << 31, i1's value is " + i1);
System.out.println("i1's binary string is " + Integer.toBinaryString(i1));
int i2 = -1;
System.out.println("Before << 32, i2's value is " + i2);
System.out.println("i2's binary string is " + Integer.toBinaryString(i2));
i2 <<= 32;
System.out.println("After << 32, i2's value is " + i2);
System.out.println("i2's binary string is " + Integer.toBinaryString(i2));
}
// 輸出結(jié)果:
Before << 31, i1's value is -1
i1's binary string is 11111111111111111111111111111111
After << 31, i1's value is -2147483648
i1's binary string is 10000000000000000000000000000000
Before << 32, i2's value is -1
i2's binary string is 11111111111111111111111111111111
After << 32, i2's value is -1
i2's binary string is 11111111111111111111111111111111
上述例子中, w = 32
,我們發(fā)現(xiàn) k = 31
時(shí),結(jié)果還符合預(yù)期;當(dāng) k = 32
時(shí),結(jié)果不是 0,而是 -1,也即相當(dāng)于 k = 0
時(shí)的結(jié)果。
原因是這樣,對(duì) w
位整數(shù) x
,當(dāng)執(zhí)行 x << k
時(shí),實(shí)際執(zhí)行的是 x << (k % w)
。所以,當(dāng) i2 << 32
時(shí),實(shí)際是 i2 << 32 % 32 = i2 << 0
。
右移操作也遵循同樣的規(guī)則,也即 x >> k = x >> (k % w)
, x >>> k = x >>> (k % w)
。
-
二進(jìn)制
+關(guān)注
關(guān)注
2文章
804瀏覽量
42168 -
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7636瀏覽量
90251 -
編程
+關(guān)注
關(guān)注
88文章
3685瀏覽量
94907 -
數(shù)值
+關(guān)注
關(guān)注
0文章
80瀏覽量
14539
發(fā)布評(píng)論請(qǐng)先 登錄
什么是計(jì)算機(jī)系統(tǒng)、計(jì)算機(jī)硬件和計(jì)算機(jī)軟件?
什么是計(jì)算機(jī)系統(tǒng)?硬件和軟件哪個(gè)更重要?
計(jì)算機(jī)系統(tǒng)中的軟件系統(tǒng)
嵌入式計(jì)算機(jī)系統(tǒng)概述
簡(jiǎn)單介紹微型計(jì)算機(jī)的組成
計(jì)算機(jī)系統(tǒng)概論
微型計(jì)算機(jī)系統(tǒng)
什么是計(jì)算機(jī)系統(tǒng)的容錯(cuò)性
深入理解計(jì)算機(jī)系統(tǒng)的數(shù)值類型
計(jì)算機(jī)系統(tǒng)對(duì)數(shù)值類型的編碼、運(yùn)算、轉(zhuǎn)換原理介紹2

計(jì)算機(jī)系統(tǒng)對(duì)數(shù)值類型的編碼、運(yùn)算、轉(zhuǎn)換原理介紹3

計(jì)算機(jī)系統(tǒng)對(duì)數(shù)值類型的編碼、運(yùn)算、轉(zhuǎn)換原理介紹4

評(píng)論