各式各樣的加速器在當(dāng)下的計算架構(gòu)中越來越普遍,HPC、數(shù)據(jù)中心等高端應(yīng)用開始追求更高的峰值性能,用到了專業(yè)GPU、AI加速器,而手機、嵌入式系統(tǒng)開始追求更高的能效,也在其SoC、MCU中加入一定的嵌入式加速硬件。但與此同時,這樣復(fù)雜的多廠商、多架構(gòu)和多硬件生態(tài),為編程帶來了巨大的難題。但CUDA作為只面向英偉達GPU的封閉軟件生態(tài),其熱度卻水漲船高。
?
提及各大編程語言的論文數(shù)量/ 谷歌學(xué)術(shù)
在軟件開發(fā)中,一個開放的標準層就是開發(fā)者產(chǎn)品方案的接口規(guī)范,同樣的,處理器開發(fā)商們可以使用基于開放標準層的底層軟件驅(qū)動創(chuàng)造解決方案。如此一來軟件開發(fā)者們無需捆綁在特定的硬件方案上,硬件開發(fā)者的硬件不僅可以兼顧自己維護的軟件,還能支持到更多的軟件開發(fā)人員。而且在普及之后,開發(fā)人員的技能更加具有普適性,他們可以方便地使用自己熟悉的開發(fā)工具。
對使用開放標準的軟硬件公司來說,此舉可以加快產(chǎn)品上市時間,減少長期維護工作,而且在軟件方案廠商日益劇增的當(dāng)下,業(yè)界已經(jīng)普遍接受了開放標準,就像RISC-V一樣,英特爾、AMD甚至是英偉達也都對開放標準的定義做出了貢獻,對于一些初創(chuàng)企業(yè)來說就更是如此了。
SYCL出世
從市場反饋來看,開發(fā)者的需求很明顯了,他們想要一個標準的編程模型,擁有標準運算庫、對Pytorch、Tensorflow等AI框架的支持、性能分析工具,以及對多個廠商不同硬件架構(gòu)的支持,而這些需求匯聚在一起,使得開放標準聯(lián)盟Khronos Group聯(lián)合旗下成員打造出了SYCL這一編程語言。
SYCL作為跨越CPU、GPU、FPGA和AI加速器等多種架構(gòu)的一致性編程語言,每個架構(gòu)能單獨或整合編程。SYCL編程語言與其API擴展能用于不同的開發(fā)用例,比如負載加速或異構(gòu)計算應(yīng)用,將現(xiàn)有的C、C++或其他加速器語言代碼轉(zhuǎn)換成SYCL代碼。
?
SYCL的支持情況/ Khronos Group
在不同廠商的支持下,SYCL的實施方式有多種,他們增加了對OpenCL以外不同加速API后端的支持,比如Codeplay的ComputeCpp、英特爾的DPC++、AMD的hipSYCL以及Xilinx的triSYCL等。
英特爾的SYCL之路
英特爾對于SYCL的重視可以說顯而易見了,自從宣布轉(zhuǎn)向XPU+oneAPI的路線之后,英特爾就已經(jīng)與SYCL深度綁定了。不僅微軟、谷歌等巨頭宣布支持oneAPI,英特爾也和中科院計算所在內(nèi)的大型研究所、國家實驗室和大學(xué)合作成立了oneAPI卓越中心,借助他們的oneAPI開源代碼,進一步擴展oneAPI產(chǎn)品與規(guī)范。
oneAPI的核心則是其編程語言DPC++,英特爾的DPC++可以說是SYCL的超集,不僅包含了SYCL標準,還包含一些功能擴展,比如統(tǒng)一共享內(nèi)存等,不過目前其中不少擴展也已經(jīng)并入了SYCL新版規(guī)范中。
不過SYCL遠不僅是為了方便英特爾建設(shè)其跨架構(gòu)的軟件生態(tài),而是為了打破CUDA的統(tǒng)治,打造一個更加開放的軟硬件生態(tài),這點從英特爾在oneAPI的開發(fā)動向就能看出。
此前英特爾對于CUDA并沒有任何動作,反倒是其競爭對手AMD推出了HIP,幫助開發(fā)者將CUDA代碼移植至AMD平臺上,畢竟AMD還得發(fā)展GPU生態(tài)。但隨著英特爾的硬件路線已經(jīng)不單單是CPU,而是CPU、GPU、FPGA、IPU和AI加速器的多硬件異構(gòu)生態(tài),這時候打造一個CUDA之外的軟件生態(tài)是提升其產(chǎn)品競爭力的必經(jīng)之路了。
為了更好實現(xiàn)對CUDA代碼的移植,英特爾推出了DPC++兼容性工具(DPCT),目前版本的DPCT已經(jīng)可以將90%到95%的CUDA代碼轉(zhuǎn)換成SYCL。不過這只是一個理想范圍,具體數(shù)值還是取決于代碼對應(yīng)的工作負載。對于簡單的CUDA程序來說,完成DPC++的移植只需要對CUDA源文件運行這一轉(zhuǎn)換工具即可,相對復(fù)雜的CUDA程序還是需要一定的手動編程優(yōu)化。
今年6月,英特爾公布消息,決定收購Codeplay公司。要說對SYCL的研究,除了英特爾以外,最深入的當(dāng)屬Codeplay了,畢竟就連SYCL工作組的主席也是來自Codeplay的杰出工程師MichaelWong。Codeplay不僅提供了多種處理器上SYCL的支持,也支持將CUDA代碼移植為SYCL,同時保證SYCL代碼在英偉達GPU上的繼續(xù)運行,還能調(diào)用一些CUDA庫。
Codeplay的方案支持覆蓋英特爾、AMD、英偉達的處理器,而且他們也開始了對汽車ADAS(瑞薩R-Car)、邊緣計算設(shè)備(ImaginationPowerVR)與RISC-V處理器(晶心科技NX27V)的支持開發(fā)工作。后三者恰好是SYCL當(dāng)前未曾開拓的市場,但卻是英特爾正在發(fā)力的三大市場,加上Codeplay本身在HPC、AI上的軟件開發(fā)實力,如此看來,英特爾收購Codeplay完全符合其戰(zhàn)略目標。
結(jié)語
盡管SYCL的構(gòu)想是好的,其發(fā)展路線也是傾向于開發(fā)者,但這并不代表著就一定能取代CUDA的位置,畢竟SYCL其實也才誕生沒多久,與CUDA、OpenCL或OpenMP相比生態(tài)發(fā)展還沒有成熟。再者就是統(tǒng)一各種硬件的編程并沒有那么簡單,正如英偉達CEO黃仁勛曾經(jīng)提出的質(zhì)疑:時間會揭曉一個編程方法是否能兼容七種不同的處理器,至少歷史上從未出現(xiàn)過。

提及各大編程語言的論文數(shù)量/ 谷歌學(xué)術(shù)
在軟件開發(fā)中,一個開放的標準層就是開發(fā)者產(chǎn)品方案的接口規(guī)范,同樣的,處理器開發(fā)商們可以使用基于開放標準層的底層軟件驅(qū)動創(chuàng)造解決方案。如此一來軟件開發(fā)者們無需捆綁在特定的硬件方案上,硬件開發(fā)者的硬件不僅可以兼顧自己維護的軟件,還能支持到更多的軟件開發(fā)人員。而且在普及之后,開發(fā)人員的技能更加具有普適性,他們可以方便地使用自己熟悉的開發(fā)工具。
對使用開放標準的軟硬件公司來說,此舉可以加快產(chǎn)品上市時間,減少長期維護工作,而且在軟件方案廠商日益劇增的當(dāng)下,業(yè)界已經(jīng)普遍接受了開放標準,就像RISC-V一樣,英特爾、AMD甚至是英偉達也都對開放標準的定義做出了貢獻,對于一些初創(chuàng)企業(yè)來說就更是如此了。
SYCL出世
從市場反饋來看,開發(fā)者的需求很明顯了,他們想要一個標準的編程模型,擁有標準運算庫、對Pytorch、Tensorflow等AI框架的支持、性能分析工具,以及對多個廠商不同硬件架構(gòu)的支持,而這些需求匯聚在一起,使得開放標準聯(lián)盟Khronos Group聯(lián)合旗下成員打造出了SYCL這一編程語言。
SYCL作為跨越CPU、GPU、FPGA和AI加速器等多種架構(gòu)的一致性編程語言,每個架構(gòu)能單獨或整合編程。SYCL編程語言與其API擴展能用于不同的開發(fā)用例,比如負載加速或異構(gòu)計算應(yīng)用,將現(xiàn)有的C、C++或其他加速器語言代碼轉(zhuǎn)換成SYCL代碼。

SYCL的支持情況/ Khronos Group
英特爾的SYCL之路
英特爾對于SYCL的重視可以說顯而易見了,自從宣布轉(zhuǎn)向XPU+oneAPI的路線之后,英特爾就已經(jīng)與SYCL深度綁定了。不僅微軟、谷歌等巨頭宣布支持oneAPI,英特爾也和中科院計算所在內(nèi)的大型研究所、國家實驗室和大學(xué)合作成立了oneAPI卓越中心,借助他們的oneAPI開源代碼,進一步擴展oneAPI產(chǎn)品與規(guī)范。
oneAPI的核心則是其編程語言DPC++,英特爾的DPC++可以說是SYCL的超集,不僅包含了SYCL標準,還包含一些功能擴展,比如統(tǒng)一共享內(nèi)存等,不過目前其中不少擴展也已經(jīng)并入了SYCL新版規(guī)范中。
不過SYCL遠不僅是為了方便英特爾建設(shè)其跨架構(gòu)的軟件生態(tài),而是為了打破CUDA的統(tǒng)治,打造一個更加開放的軟硬件生態(tài),這點從英特爾在oneAPI的開發(fā)動向就能看出。
此前英特爾對于CUDA并沒有任何動作,反倒是其競爭對手AMD推出了HIP,幫助開發(fā)者將CUDA代碼移植至AMD平臺上,畢竟AMD還得發(fā)展GPU生態(tài)。但隨著英特爾的硬件路線已經(jīng)不單單是CPU,而是CPU、GPU、FPGA、IPU和AI加速器的多硬件異構(gòu)生態(tài),這時候打造一個CUDA之外的軟件生態(tài)是提升其產(chǎn)品競爭力的必經(jīng)之路了。
為了更好實現(xiàn)對CUDA代碼的移植,英特爾推出了DPC++兼容性工具(DPCT),目前版本的DPCT已經(jīng)可以將90%到95%的CUDA代碼轉(zhuǎn)換成SYCL。不過這只是一個理想范圍,具體數(shù)值還是取決于代碼對應(yīng)的工作負載。對于簡單的CUDA程序來說,完成DPC++的移植只需要對CUDA源文件運行這一轉(zhuǎn)換工具即可,相對復(fù)雜的CUDA程序還是需要一定的手動編程優(yōu)化。
今年6月,英特爾公布消息,決定收購Codeplay公司。要說對SYCL的研究,除了英特爾以外,最深入的當(dāng)屬Codeplay了,畢竟就連SYCL工作組的主席也是來自Codeplay的杰出工程師MichaelWong。Codeplay不僅提供了多種處理器上SYCL的支持,也支持將CUDA代碼移植為SYCL,同時保證SYCL代碼在英偉達GPU上的繼續(xù)運行,還能調(diào)用一些CUDA庫。
Codeplay的方案支持覆蓋英特爾、AMD、英偉達的處理器,而且他們也開始了對汽車ADAS(瑞薩R-Car)、邊緣計算設(shè)備(ImaginationPowerVR)與RISC-V處理器(晶心科技NX27V)的支持開發(fā)工作。后三者恰好是SYCL當(dāng)前未曾開拓的市場,但卻是英特爾正在發(fā)力的三大市場,加上Codeplay本身在HPC、AI上的軟件開發(fā)實力,如此看來,英特爾收購Codeplay完全符合其戰(zhàn)略目標。
結(jié)語
盡管SYCL的構(gòu)想是好的,其發(fā)展路線也是傾向于開發(fā)者,但這并不代表著就一定能取代CUDA的位置,畢竟SYCL其實也才誕生沒多久,與CUDA、OpenCL或OpenMP相比生態(tài)發(fā)展還沒有成熟。再者就是統(tǒng)一各種硬件的編程并沒有那么簡單,正如英偉達CEO黃仁勛曾經(jīng)提出的質(zhì)疑:時間會揭曉一個編程方法是否能兼容七種不同的處理器,至少歷史上從未出現(xiàn)過。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報投訴
-
amd
+關(guān)注
關(guān)注
25文章
5576瀏覽量
136077 -
英特爾
+關(guān)注
關(guān)注
61文章
10185瀏覽量
174219 -
英偉達
+關(guān)注
關(guān)注
22文章
3929瀏覽量
93306
發(fā)布評論請先 登錄
相關(guān)推薦
熱點推薦
Profinet轉(zhuǎn)CanOpen網(wǎng)關(guān),打破協(xié)議壁壘的關(guān)鍵技術(shù)
兩個使用不同方言的專家需要實時協(xié)作,此時開疆智能Profinet轉(zhuǎn)CanOpen網(wǎng)關(guān)便成為打破技術(shù)壁壘的關(guān)鍵樞紐。

半導(dǎo)體存儲器測試圖形技術(shù)解析
在半導(dǎo)體存儲器測試中,測試圖形(Test Pattern)是檢測故障、驗證可靠性的核心工具。根據(jù)測試序列長度與存儲單元數(shù)N的關(guān)系,測試圖形可分為N型、N2型和N3/?型三大類。

使用VirtualLab Fusion中分布式計算的AR波導(dǎo)測試圖像模擬
| 摘要
在這個用例中,一個完整的FOV測試圖像(在x和y方向分別采樣101個角度,總共有10,201個角度)通過波導(dǎo)設(shè)備傳播。一個具有數(shù)百個嚴格光柵評估的基本模擬大約需要7秒。這導(dǎo)致整個圖像的估計
發(fā)表于 04-10 08:48
使用NVIDIA CUDA-X庫加速科學(xué)和工程發(fā)展
NVIDIA GTC 全球 AI 大會上宣布,開發(fā)者現(xiàn)在可以通過 CUDA-X 與新一代超級芯片架構(gòu)的協(xié)同,實現(xiàn) CPU 和 GPU 資源間深度自動化整合與調(diào)度,相較于傳統(tǒng)加速計算架構(gòu),該技術(shù)可使計算工程工具運行速度提升至原來的 11 倍,計算規(guī)模增加至 5 倍。
DLPC230S-Q1固件燒錄進去后,開機畫面或者內(nèi)部測試圖會一直閃并且在在黑白顛倒,怎么解決?
固件燒錄進去后,開機畫面或者內(nèi)部測試圖會一直閃并且在在黑白顛倒,比如第一張顯示棋盤格,第二張會將棋盤格中黑白顛倒去顯示。Spread Spectrum Enable 設(shè)置為 高和設(shè)置為低時,閃爍的頻率不一樣;
發(fā)表于 02-20 07:24
DLPLCRC410EVM通電后,加載圖片,無論是全黑還是別的測試圖DMD總有一半畫面呈現(xiàn)豎條紋結(jié)構(gòu)背景,如何解決?
通電后,加載圖片,無論是全黑還是別的測試圖,DMD總有一半畫面呈現(xiàn)豎條紋結(jié)構(gòu)背景。請問該如何解決?
發(fā)表于 02-17 07:45
ADC12D1600測試圖案數(shù)據(jù)錯誤是哪里出了問題?
各位專家:
我最近使用PIN模式控制ADC12D1600, In Demux Mode,Non-DES Mode,上電有校準,使用測試圖案,根據(jù)手冊描述,測試圖案會有連續(xù)的010,現(xiàn)在我在FPGA
發(fā)表于 12-09 08:35
工作管理實戰(zhàn)指南:利用Jira、Confluence等Atlassian工具打破信息孤島,增強團隊協(xié)作【含免費指南】
文末可免費獲取指南!讓您輕松掌握Jira、Confluence等Atlassian工作管理“神器”,以打破信息孤島,增強團隊協(xié)作,并專注于您最重要的工作~

打破網(wǎng)絡(luò)邊界:P2Link助力實現(xiàn)高效遠程訪問與內(nèi)網(wǎng)穿透
(網(wǎng)絡(luò)地址轉(zhuǎn)換)之后,使得外網(wǎng)設(shè)備難以直接對這些內(nèi)網(wǎng)設(shè)備進行訪問。此時,內(nèi)網(wǎng)穿透技術(shù)應(yīng)勢而生,而 P2Link 作為一種極為高效的內(nèi)網(wǎng)穿透解決方案,成功打破了網(wǎng)絡(luò)邊界,為人們帶來了便捷且安全的遠程訪問能力
發(fā)表于 10-31 11:54
怎么在TMDSEVM6678: 6678自帶的FFT接口和CUDA提供CUFFT函數(shù)庫選擇?
請教一下gpgpu上包括4個Riscv cpu和一個DPU, 沒有6678,要替換原來信號處理用的6678,該怎么在6678自帶的FFT接口和CUDA提供CUFFT函數(shù)庫選擇?
發(fā)表于 09-27 07:20
打破索尼壟斷!業(yè)內(nèi)首顆,國產(chǎn)1.8億像素全畫幅CIS芯片成功試產(chǎn)!
晶合集成官方公眾號官宣,該公司與思特威聯(lián)合推出業(yè)內(nèi)首顆 1.8 億像素全畫幅(2.77 英寸)CIS(CMOS 圖像傳感器),為高端單反相機應(yīng)用圖像傳感器提供更多選擇。打破了日本索尼在超高像素全畫幅CIS領(lǐng)域長期壟斷地位,為本土產(chǎn)業(yè)發(fā)展貢獻力量。
打破英偉達CUDA壁壘?AMD顯卡現(xiàn)在也能無縫適配CUDA了
、英特爾等廠商雖然在努力追趕,但目前還未能看到有威脅英偉達地位的可能。 ? 最近一家英國公司Spectral Compute推出了一款方案,可以為AMD的GPU原生編譯CUDA源代碼,目前正在RNDA2、RDNA3上進行規(guī)模測試。這或許可以打破
英國公司實現(xiàn)英偉達CUDA軟件在AMD GPU上的無縫運行
7月18日最新資訊,英國創(chuàng)新科技企業(yè)Spectral Compute震撼發(fā)布了其革命性GPGPU編程工具包——“SCALE”,該工具包實現(xiàn)了英偉達CUDA軟件在AMD GPU上的無縫遷移與運行,標志著在GPU計算領(lǐng)域,NVIDIA長期以來的市場壟斷地位或?qū)⒂瓉碇卮筇魬?zhàn)。
試圖從CAN卡向TC375發(fā)送報文時,TC375始終收不到,為什么?
我試圖在TC375上進行CAN收發(fā)測試,測試目的是完成TC375和CAN卡的通訊,現(xiàn)在我已經(jīng)成功地將CAN報文從TC375發(fā)送到了CAN卡,但是當(dāng)我試圖從CAN卡向TC375發(fā)送報文時,TC375始終收不到,下面是我的一些代碼,請問哪里做的不對?
發(fā)表于 07-04 06:04
評論