在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

電子發燒友App

硬聲App

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示
電子發燒友網>電子資料下載>電子資料>視障人士和盲人的圖像說明

視障人士和盲人的圖像說明

2023-06-12 | zip | 0.00 MB | 次下載 | 免費

資料介紹

描述

盲人和視障人士經常遇到各種社會經濟挑戰,這些挑戰可能會阻礙他們獨立生活和充分參與社會的能力。然而,機器學習的出現為輔助技術的發展開辟了新的可能性。在這項研究中,我們利用圖像字幕和文本轉語音技術創建了一種設備,可以幫助視力受損或失明的人。圖像字幕與文字轉語音技術相結合,可以為視障人士和盲人提供幫助。

此外,我想分享我使用TensorRT優化深度學習模型以縮短其推理時間的經驗。有關詳細信息,請參閱 TechRxiv 上的預印本,標題為:適用于視障人士和盲人的圖像字幕:低資源語言的秘訣。

為簡單起見,我們假設一切都已安裝。

隨著單板計算機 (SBC) 越來越流行用于運行 AI 和深度學習項目,有些甚至專門設計用于運行 AI 和深度學習項目。我們使用來自SeeedStudio (@seeedstudio)的 reComputer NVIDIA Jetson Xavier NX作為我們系統的大腦。reComputer J20 配備 Jetson Xavier NX,可提供高達 21 TOPS 的性能,使其成為嵌入式和邊緣系統中高性能計算和 AI 的理想選擇。

poYBAGSBRf6ADOShAAJU90nGzkY14.jpeg
?

NVIDIA Jetson 設備緊湊且節能,能夠實時執行機器學習算法然而,在這些內存有限的設備上部署復雜的深度學習模型可能很困難。為了克服這個問題,我們使用了TensorRT等推理優化工具它使我們能夠通過減少內存占用來在邊緣設備上執行深度學習模型。

圖像描述模型部署管道

我們使用流行的 Microsoft COCO 2014 (COCO) 基準數據集來訓練ExpansionNet v2圖像描述模型。該數據集由 123, 287 張圖像組成,每張圖像都有五個人工注釋的說明,總共有超過 600, 000 個圖像-文本對。我們將數據集拆分為訓練(113、287 張圖像)、驗證(5、000 張圖像)和測試(5、000 張圖像)集,使用Karpathy拆分策略進行離線評估。為了生成哈薩克語的字幕,我們使用免費提供的谷歌翻譯服務翻譯了原始的英文字幕。

pYYBAGSBRgGASN7lAAD_Axdlr-o414.jpg
?

為了訓練哈薩克語字幕的模型,我們遵循了ExpansioNet v2的原始工作中定義的模型架構。預訓練的 Swin Transformer 被用作骨干網絡,從輸入圖像生成視覺特征。該模型在Nvidia DGX-2 服務器的四個 V100 圖形處理單元 (GPU) 上進行訓練。

最后,圖像字幕模型 ExpansionNet v2 部署在 Nvidia Jetson Xavier NX 板上。按下按鈕觸發相機捕捉分辨率為 640 × 480 像素的 RGB 圖像。然后,將捕獲的圖像調整為 384 × 384 并傳遞給 ExpansionNet v2 模型以生成說明。接下來,使用文本到語音模型將生成的字幕文本轉換為音頻。在我們的研究中,我們利用KazakhTTS模型將哈薩克文本轉換為語音。最后,生成的音頻通過用戶的耳機播放,使盲人或視障人士能夠理解他們面前的內容。

ONNX 概述

poYBAGSBRgSAILbyAAA1AtUSXuc609.png
來源:https://developer-blogs.nvidia.com/wp-content/uploads/2021/07/onnx-workflow.png
?

ONNX 是一種用于機器學習和深度學習模型的開放格式。它允許您將來自不同框架(例如 TensorFlow、PyTorch、MATLAB、Caffe 和 Keras)的深度學習和機器學習模型轉換為單一格式。

該工作流程包括以下步驟:

  • 將常規 PyTorch 模型文件轉換為 ONNX 格式。ONNX 轉換腳本可在此處獲得。
  • 使用 trtexec 實用程序創建 TensorRT 引擎
trtexec --onnx=./model.onnx --saveEngine=./model_fp32.engine --workspace=200
  • 從 TensorRT 引擎運行推理。

使用 TensorRT 進行推理優化

TensorRT 是 NVIDIA 開發的高性能深度學習推理引擎。它優化神經網絡模型并生成可在 NVIDIA GPU 上運行的高度優化的推理引擎。TensorRT 使用靜態和動態優化的組合來實現高性能,包括層融合、內核自動調整和精度校準。

另一方面,PyTorch 是一種流行的深度學習框架,廣泛用于研究和開發。PyTorch 提供了一個動態計算圖,允許用戶動態定義和修改他們的模型,這使得嘗試不同的架構和訓練方法變得容易。

pYYBAGSBRgaAM25tAACympvPiHg853.png
?

與 PyTorch 模型相比,TensorRT 模型似乎提供了更快的推理結果。與 PyTorch 模型相比,TensorRT 模型處理圖像的時間減少了大約 50%,盡管它的文件大小更小。

簡而言之,如果速度和效率是您的首要關注點,那么 TensorRT 可能是更好的選擇。這對于大多數實時對象檢測應用來說已經足夠快了。

在推理過程中,您可以使用jetson-stats實用程序檢查 Nvidia Jetson 板的當前性能。您可以實時監控模型正在使用的資源,并最大限度地利用硬件。

以佩戴圖像字幕輔助設備的人類為對象的真實世界實驗

該圖說明了我們的圖像字幕輔助系統的真實世界實驗,該系統包括一個攝像頭、一個單板深度學習計算機(Nvidia Jetson Xavier NX)、一個按鈕和耳機。

poYBAGSBRgmAKs3nAAEW0minFrk313.jpg
以佩戴圖像字幕輔助設備的人類為對象的真實世界實驗
?

攝像頭通過通用串行總線(USB)連接到單板機,按鈕和耳機分別連接到單板機的通用輸入/輸出(GPIO)引腳和音頻端口. 攝像頭使用可調節的帶子固定在用戶的額頭上,而用戶則將單板計算機(和移動電源)放在背包中,并在操作過程中佩戴耳機。

結論和進一步改進

視障人士和盲人在日常生活中面臨著獨特的挑戰,包括無法獨立獲取視覺信息。圖像字幕技術已顯示出為該社區提供幫助的希望。

除了現有的圖像字幕和文本轉語音技術外,我們的目標是將視覺問答 (VQA) 功能整合到我們為視障人士和盲人提供的輔助設備中。這將使用戶能夠提出有關圖像的問題并獲得口頭答復。

為了進一步優化我們的深度學習模型并提高其性能,我們將執行從 FP32 到 FP16 或 INT8 的量化。這將減少推理所需的內存占用和計算時間,使我們的輔助設備更加高效。

如果您對我們的項目感興趣,請考慮為我們在github上的存儲庫加星多謝!

我希望您發現這項研究有用,并感謝您閱讀它。如果您有任何問題或反饋,請在下方發表評論。敬請關注!

致謝

  • 該項目得到了智能系統與人工智能研究所工作人員的支持、指導和協助,得以順利完成。
  • Image captioning 模型的實現依賴于ExpansioNet v2。

下載該資料的人也在下載 下載該資料的人還在閱讀
更多 >

評論

查看更多

下載排行

本周

  1. 1DD3118電路圖紙資料
  2. 0.08 MB   |  1次下載  |  免費
  3. 2AD庫封裝庫安裝教程
  4. 0.49 MB   |  1次下載  |  免費
  5. 3PC6206 300mA低功耗低壓差線性穩壓器中文資料
  6. 1.12 MB   |  1次下載  |  免費
  7. 4網絡安全從業者入門指南
  8. 2.91 MB   |  1次下載  |  免費
  9. 5DS-CS3A P00-CN-V3
  10. 618.05 KB  |  1次下載  |  免費
  11. 6海川SM5701規格書
  12. 1.48 MB  |  次下載  |  免費
  13. 7H20PR5電磁爐IGBT功率管規格書
  14. 1.68 MB   |  次下載  |  1 積分
  15. 8IP防護等級說明
  16. 0.08 MB   |  次下載  |  免費

本月

  1. 1貼片三極管上的印字與真實名稱的對照表詳細說明
  2. 0.50 MB   |  103次下載  |  1 積分
  3. 2涂鴉各WiFi模塊原理圖加PCB封裝
  4. 11.75 MB   |  89次下載  |  1 積分
  5. 3錦銳科技CA51F2 SDK開發包
  6. 24.06 MB   |  43次下載  |  1 積分
  7. 4錦銳CA51F005 SDK開發包
  8. 19.47 MB   |  19次下載  |  1 積分
  9. 5PCB的EMC設計指南
  10. 2.47 MB   |  16次下載  |  1 積分
  11. 6HC05藍牙原理圖加PCB
  12. 15.76 MB   |  13次下載  |  1 積分
  13. 7802.11_Wireless_Networks
  14. 4.17 MB   |  12次下載  |  免費
  15. 8蘋果iphone 11電路原理圖
  16. 4.98 MB   |  6次下載  |  2 積分

總榜

  1. 1matlab軟件下載入口
  2. 未知  |  935127次下載  |  10 積分
  3. 2開源硬件-PMP21529.1-4 開關降壓/升壓雙向直流/直流轉換器 PCB layout 設計
  4. 1.48MB  |  420064次下載  |  10 積分
  5. 3Altium DXP2002下載入口
  6. 未知  |  233089次下載  |  10 積分
  7. 4電路仿真軟件multisim 10.0免費下載
  8. 340992  |  191390次下載  |  10 積分
  9. 5十天學會AVR單片機與C語言視頻教程 下載
  10. 158M  |  183342次下載  |  10 積分
  11. 6labview8.5下載
  12. 未知  |  81588次下載  |  10 積分
  13. 7Keil工具MDK-Arm免費下載
  14. 0.02 MB  |  73815次下載  |  10 積分
  15. 8LabVIEW 8.6下載
  16. 未知  |  65989次下載  |  10 積分
主站蜘蛛池模板: 午夜dy888理论 | 99久久免费精品国产免费高清 | 日本动漫天堂 | 久久天天躁狠狠躁夜夜 | 四虎网站最新网址 | 亚洲精品美女久久久 | 成人久久久精品乱码一区二区三区 | 国产婷婷综合在线精品尤物 | 91午夜在线观看 | 性欧美xxxx视频在线观看 | 狠狠干夜夜草 | 日韩免费毛片全部不收费 | 特黄一级大片 | 久久天堂网 | 日本高清网站 | 国产色司机在线视频免费观看 | 神马影院午夜在线 | 亚洲成人免费在线观看 | 狠狠尻 | 中文字幕乱码人成乱码在线视频 | 色之综合网 | 午夜影院在线免费 | 天天射天天舔 | 天天做天天爱天天爽综合网 | 免费人成a大片在线观看动漫 | 国产成人mv在线观看入口视频 | 婷婷综合丁香 | 欧美性猛交ⅹxxx乱大交免费 | 午夜一级毛片看看 | 亚洲高清国产一线久久 | 国产婷婷综合丁香亚洲欧洲 | 91大神免费视频 | 视频在线观看免费网站 | 日韩欧美中文在线 | 天堂资源中文官网 | 日本大片免费观看视频 | 日本人亚洲人成人 | 日本黄视频在线播放 | 天天爽天天爽 | 一级毛片aaa片免费观看 | 男女视频在线播放 |