今年 8 月份,香港中文大學(xué)張克環(huán)教授研究組在 arxiv 上公布了一篇文章,展示了他們組對(duì)于智能家居隱私性的研究。文章作者嘗試使用 LSTM 模型對(duì)智能家居里的活躍設(shè)備進(jìn)行預(yù)測(cè)。該預(yù)測(cè)可以使服務(wù)提供商(ISP)猜測(cè)用戶正在家里使用什么類型的設(shè)備,從而有可能對(duì)擁有不同設(shè)備的用戶有不同的商業(yè)推廣手段。
在此之前,已經(jīng)有不少人做了相關(guān)的研究,但他們的研究大都是基于純凈的實(shí)驗(yàn)室環(huán)境,很難移植到復(fù)雜的現(xiàn)實(shí)環(huán)境中。作者通過分析真實(shí)世界中的 IoT 設(shè)備以及公開數(shù)據(jù)集,發(fā)現(xiàn)物聯(lián)網(wǎng)設(shè)備的流量與桌面流量和移動(dòng)流量相比有以下區(qū)別:
同一類別的設(shè)備有相似的流量模式(下圖為兩種語音助手識(shí)別語音命令時(shí)的流量變化情況)
設(shè)備都有「心跳」傳輸來保證網(wǎng)絡(luò)和設(shè)備的聯(lián)通,不同設(shè)備的「心跳」模式不同不同設(shè)備傳輸協(xié)議比例不同(下圖展示了 IoT 設(shè)備和非 IoT 設(shè)備的協(xié)議使用情況)
作者認(rèn)為,這些特征表明即使是在復(fù)雜場(chǎng)景下,而且具有一定的安全設(shè)備(NAPT 和 VPN)也能鑒別不同的 IoT 設(shè)備。由于現(xiàn)有的數(shù)據(jù)集不滿足作者的要求,因此作者團(tuán)隊(duì)自己搭建了一個(gè)數(shù)據(jù)采集的系統(tǒng)。
實(shí)驗(yàn)數(shù)據(jù)收集
該系統(tǒng)包含 10 個(gè) IoT 設(shè)備和 4 個(gè)非 IoT 設(shè)備,系統(tǒng)內(nèi)設(shè)備如下圖所示。
作者準(zhǔn)備在三個(gè)環(huán)境下收集流量信息:單一設(shè)備環(huán)境、多設(shè)備嘈雜環(huán)境 (使用 NAPT 技術(shù)) 以及 VPN 環(huán)境。
首先介紹一下 NAPT 技術(shù)和 VPN 技術(shù)。NAPT 是一種網(wǎng)絡(luò)地址轉(zhuǎn)換技術(shù),與 NAT 不同,NAPT 支持端口的映射。NAT 實(shí)現(xiàn)的是本地 IP 和 NAT 的公共 IP 之間的轉(zhuǎn)換,因此本地局域網(wǎng)中同時(shí)與公網(wǎng)進(jìn)行通信的主機(jī)數(shù)量就受到 NAT 的公網(wǎng) IP 地址數(shù)量的限制。而 NAPT 克服了這種缺陷——NAPT 技術(shù)在進(jìn)行 IP 地址轉(zhuǎn)換的同時(shí)還對(duì)端口進(jìn)行轉(zhuǎn)換,因此只要 NAT 中的端口不沖突,就允許本地局域網(wǎng)的多臺(tái)主機(jī)利用一個(gè) NAT 公共 IP 就可以同時(shí)和公網(wǎng)進(jìn)行通信。
VPN 通常用于互連不同的網(wǎng)絡(luò),以形成具有更大容量的新網(wǎng)絡(luò)。它是基于 IP 隧道機(jī)制,不同子網(wǎng)中的主機(jī)可以相互通信,并且可以通過認(rèn)證和加密保密傳送的信息。
在生成流量的過程中,作者采用了兩種觸發(fā)方式:手動(dòng)觸發(fā)和自動(dòng)觸發(fā),手動(dòng)觸發(fā)可以模擬真實(shí)環(huán)境下的人機(jī)交互,自動(dòng)觸發(fā)可以減輕實(shí)驗(yàn)者的負(fù)擔(dān)。在自動(dòng)觸發(fā)模式下,作者使用 Monkey Runner 對(duì)需要用 APP 進(jìn)行交互的 IoT 設(shè)備進(jìn)行觸發(fā);對(duì)于語音助手等 IoT 設(shè)備,作者通過重復(fù)播放口令來進(jìn)行觸發(fā)。
手動(dòng)觸發(fā)模式只在多設(shè)備場(chǎng)景下使用,在該模式下,作者通過隨機(jī)進(jìn)出房間來對(duì)房間內(nèi)的試驗(yàn)設(shè)備進(jìn)行觸發(fā)。該種方式與自動(dòng)觸發(fā)相比,更具有隨機(jī)隨機(jī)性,從而有助于模型的泛化。
整個(gè)流量收集過程持續(xù) 49.4 個(gè)小時(shí),共收集 4.05GB 的數(shù)據(jù),共包含 7223282 條有效通信包。
數(shù)據(jù)預(yù)處理
在進(jìn)行實(shí)驗(yàn)評(píng)估之前,作者先對(duì)數(shù)據(jù)進(jìn)行了預(yù)處理——將初始數(shù)據(jù)轉(zhuǎn)換為模型能夠處理的數(shù)值向量。
數(shù)據(jù)預(yù)處理過程可分為兩部分,特征提取和制作數(shù)據(jù)包的標(biāo)簽。在特征提取過程中,共提取了五個(gè)特征,分別是端口 (dport)、協(xié)議 (protocol)、方向 (direction)、幀長 (frame length)、時(shí)間間隔 (time interval),并將這五個(gè)特征組成一維向量,如下圖所示。
在給數(shù)據(jù)包制作標(biāo)簽的過程中,針對(duì)在 VPN 環(huán)境下較難打標(biāo)的問題,作者發(fā)現(xiàn)了如下規(guī)律,從而能夠較精確地給數(shù)據(jù)包打標(biāo)簽:
經(jīng)過 VPN 處理后,數(shù)據(jù)包的體積會(huì)變大不同體積的數(shù)據(jù)包經(jīng)過 VPN 加密后體積相同VPN 會(huì)引起數(shù)據(jù)包傳輸延遲,這個(gè)延遲通常短于 0.02 秒
模型選擇
在模型選擇上,作者共選取了三個(gè)模型:隨機(jī)森林(基線模型)、LSTM 模型以及 BLSTM(雙向 LSTM)模型。由于隨機(jī)森林無法直接學(xué)習(xí)離散值,作者對(duì)端口的特征值進(jìn)行了獨(dú)熱編碼處理。
對(duì)于 LSTM 模型,作者也對(duì)輸入模型的數(shù)據(jù)進(jìn)行了處理,他將多個(gè)連續(xù)向量進(jìn)行了分組并組成流量窗,如下圖所示。
作者使用的 LSTM 模型如下圖所示。該模型由多個(gè)基礎(chǔ)模塊組成,每個(gè)基礎(chǔ)模塊又包含有 Embedding 層、LSTM 層、全連接層以及 Softmax 層。
由于 LSTM 模型在學(xué)習(xí)上下文信息時(shí)只能查看數(shù)據(jù)包的「過去」,因此作者又使用了 BLSTM 模型。BLSTM(雙向 LSTM)是 LSTM 的擴(kuò)展,它通過組合從序列末尾移動(dòng)到其開頭的另一個(gè) LSTM 層來利用來自「未來」的信息。作者使用的 BLSTM 模型見下圖。
模型評(píng)估
數(shù)據(jù)集
共有兩種數(shù)據(jù)集,Dataset-Ind 以及 Dataset-Noise。每種數(shù)據(jù)集又有兩個(gè)版本:NAPT 版本和 VPN 版本。Dataset-Ind 數(shù)據(jù)集包含來自 10 個(gè)單獨(dú) IoT 設(shè)備的流量數(shù)據(jù),這些數(shù)據(jù)被組成流量窗。Dataset-Ind 數(shù)據(jù)集共有 32760 個(gè)流量窗。
Dataset-Noise 數(shù)據(jù)集中的數(shù)據(jù)也是以流量窗的形式存在,與 Dataset-Ind 數(shù)據(jù)集不同的是,該數(shù)據(jù)集中的每個(gè)流量窗都是由多個(gè)設(shè)備的數(shù)據(jù)包組成。Dataset-Noise 數(shù)據(jù)集包含 114989 個(gè)流量窗。
評(píng)估指標(biāo)
總精度(overall accuracy) 和分類精度(category accuracy)
評(píng)估結(jié)果
在 Datatset-Ind 數(shù)據(jù)集下的評(píng)估結(jié)果如下表所示。從表中可以看出,LSTM 模型的精度普遍高于隨機(jī)森林模型。
隨后,作者又在 Dataset-Ind 數(shù)據(jù)集下研究了流量窗大小對(duì)實(shí)驗(yàn)精度的影響,結(jié)果顯示,流量窗越大,實(shí)驗(yàn)精度越高。因此,在接下來的實(shí)驗(yàn)中,流量窗的大小默認(rèn)為 100。
在 Dataset-Noise 數(shù)據(jù)集下的評(píng)估結(jié)果如下圖所示。由圖中可以看出,隨機(jī)森林模型在該數(shù)據(jù)集下的總精度下降明顯,在 NAPT 環(huán)境下總精度為 84.5%,在 VPN 環(huán)境下的總精度為 67.6%。而 LSTM 模型在 NAPT 環(huán)境下表現(xiàn)較好,在 VPN 環(huán)境下表現(xiàn)較差。
作者對(duì)隨機(jī)森林模型和 LSTM 模型精度降低的現(xiàn)象進(jìn)行了分析,認(rèn)為隨機(jī)森林模型精度降低的原因是多個(gè) IoT 設(shè)備和非 IoT 設(shè)備同時(shí)使用一個(gè)端口進(jìn)行通信,使得該模型分類失敗;而 LSTM 模型精度下降的原因,作者認(rèn)為是由稀疏流量造成的:因此在 VPN 協(xié)議的極端情況下,智能插頭(圖中 orvibo, tplink)產(chǎn)生的流量包可以在流量窗口中被稀釋到不到 3%。令這兩款智能插頭不能被識(shí)別出。
結(jié)論
根據(jù)實(shí)驗(yàn)結(jié)果,作者認(rèn)為即使是在加密和流量融合的情況下,物聯(lián)網(wǎng)設(shè)備的網(wǎng)絡(luò)通信也會(huì)產(chǎn)生嚴(yán)重的隱私影響。人們應(yīng)該進(jìn)行更多該方面的研究,以更好地了解智能家居網(wǎng)絡(luò)中地隱私問題并緩解此類問題。
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2914文章
45013瀏覽量
377793 -
智能家居
+關(guān)注
關(guān)注
1931文章
9619瀏覽量
186666 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1210瀏覽量
24861
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
人臉識(shí)別技術(shù)在智能家居中的應(yīng)用有哪些
Zigbee智能家居的未來發(fā)展趨勢(shì)
如何使用Python構(gòu)建LSTM神經(jīng)網(wǎng)絡(luò)模型
LSTM神經(jīng)網(wǎng)絡(luò)在時(shí)間序列預(yù)測(cè)中的應(yīng)用
圖為大模型一體機(jī)新探索,賦能智能家居行業(yè)
人工智能如何強(qiáng)化智能家居設(shè)備的功能
![人工<b class='flag-5'>智能</b>如何強(qiáng)化<b class='flag-5'>智能家居</b><b class='flag-5'>設(shè)備</b>的功能](https://file1.elecfans.com/web2/M00/05/37/wKgaombNPgaAeP9hAAFuAepSzMg440.png)
掃碼模組在智能家居領(lǐng)域中的應(yīng)用
![掃碼模組在<b class='flag-5'>智能家居</b>領(lǐng)域中的應(yīng)用](https://file1.elecfans.com/web2/M00/FF/99/wKgZomapo12ASKITAABP5-ltIec353.png)
提升智能家居安全,芯科科技分享CPMS獨(dú)家方案
智能家居包含哪些人工智能應(yīng)用
智能家居系統(tǒng)設(shè)計(jì)方案
LSTM模型的基本組成
基于英飛凌MCU PSoC? 6的 Matter智能家居解決方案
![基于英飛凌MCU PSoC? 6的 Matter<b class='flag-5'>智能家居</b>解決方案](https://file1.elecfans.com//web2/M00/BF/60/wKgaomWyUs2AACfzAAIdPpl8ZXM807.png)
評(píng)論