驚!大腦視覺信號被Stable Diffusion復(fù)現(xiàn)成視頻!
從大腦活動中重建人類視覺任務(wù),尤其是功能磁共振成像技術(shù)(fMRI)這種非侵入式方法,一直是受到學(xué)界較....

LinK:用線性核實現(xiàn)3D激光雷達感知任務(wù)中的large kernel
前文中討論了大卷積核下稀疏卷積的兩大缺陷:開銷大以及優(yōu)化困難。我們首先采用神經(jīng)網(wǎng)絡(luò)模塊 來在線生成權(quán)....

清華朱軍團隊提出ProlificDreamer:直接文本生成高質(zhì)量3D內(nèi)容
將 Imagen 生成的照片(下圖靜態(tài)圖)和 ProlificDreamer(基于 Stable-D....

華為諾亞提出VanillaNet:一種新視覺Backbone,極簡且強大!
后來,Princeton大學(xué)的鄧嘉團隊提出了深度為12的網(wǎng)絡(luò)并在ImageNet數(shù)據(jù)集上達到了80.....

在一個簡單的Mean Teacher架構(gòu)中雙向復(fù)制粘貼標(biāo)記和未標(biāo)記的數(shù)據(jù)
為了緩解標(biāo)注數(shù)據(jù)和未標(biāo)注數(shù)據(jù)之間經(jīng)驗不匹配問題,一個成功的設(shè)計是鼓勵未標(biāo)注數(shù)據(jù)從標(biāo)注數(shù)據(jù)中學(xué)習(xí)全面的....

邱錫鵬團隊提出SpeechGPT:具有內(nèi)生跨模態(tài)能力的大語言模型
雖然現(xiàn)有的級聯(lián)方法或口語語言模型能夠感知和生成語音,但仍存在一些限制。首先,在級聯(lián)模型中,LLM 僅....

特斯拉人形機器人集體出街!已與FSD算法打通
其核心是神經(jīng)網(wǎng)絡(luò)模型:通過對實時傳感器(如相機、激光雷達等)獲取的數(shù)據(jù)進行處理和分析,并從中提取有關(guān)....

幾乎涵蓋了圖神經(jīng)網(wǎng)絡(luò)所有操作
在計算機視覺的應(yīng)用有根據(jù)提供的語義生成圖像,如下圖所示(引用)。輸入是一張語義圖,GNN通過對“ma....
GPT-4拿下最難數(shù)學(xué)推理數(shù)據(jù)集新SOTA!新型Prompting讓大模型推理能力狂升!
結(jié)果表明,GP-T-4+PHP 在多個數(shù)據(jù)集上取得了 SOTA 結(jié)果,包括 SVAMP (91.9%....

超越Y(jié)OLOv8!YOLO-NAS:下一代目標(biāo)檢測基礎(chǔ)模型
總而言之,YOLO-NAS達成目標(biāo)檢測任務(wù)新高度,取得了最佳的精度-延遲均衡。值得一提,YOLO-N....

ImageBind:跨模態(tài)之王,將6種模態(tài)全部綁定!
最近,很多方法學(xué)習(xí)與文本、音頻等對齊的圖像特征。這些方法使用單對模態(tài)或者最多幾種視覺模態(tài)。最終嵌入僅....

SAM-Adapter:首次讓SAM在下游任務(wù)適應(yīng)調(diào)優(yōu)!
在這些基礎(chǔ)模型中,Segment Anything Model(SAM)作為一個在大型視覺語料庫上訓(xùn)....
從BLIP-2到SAM視覺語義金字塔+ChatGPT
怎么把圖片表示成高質(zhì)量文本一直是個熱門的問題。傳統(tǒng)的思路Show,and Tell 等 Image ....
馬斯克離開OpenAI內(nèi)幕:大權(quán)獨攬想法被拒
OpenAI 于 2015 年成立,起初是一家非營利組織,得到了馬斯克和里德?霍夫曼(Reid Ho....
港中大IDEA開源首個大規(guī)模全場景人體數(shù)據(jù)集Human-Art
然而,現(xiàn)有的計算機視覺任務(wù)、訓(xùn)練的數(shù)據(jù)集等大多只關(guān)注到了真實世界的照片,這導(dǎo)致相關(guān)模型在更豐富的場景....
StrucTexTv2:端到端文檔圖像理解預(yù)訓(xùn)練框架
視覺富文檔理解技術(shù)例如文檔分類、版式分析、表單理解、OCR以及信息提取,逐漸成為文檔智能領(lǐng)域一個熱門....
清華&美團提出稀疏Pairwise損失函數(shù)!ReID任務(wù)超已有損失函數(shù)!
ReID任務(wù)中的由于光照變化、視角改變和遮擋等原因會造成同一類中不同實例的視覺相似度很低(如圖2所示....
這款編譯器能讓Python和C++一樣快!
麻省理工學(xué)院計算機科學(xué)與人工智能實驗室(CSAIL)的研究人員希望通過 Codon 來改變這一現(xiàn)狀,....
大型語言模型綜述全新出爐!從T5到GPT-4最全盤點
LLM 的涌現(xiàn)能力被正式定義為「在小型模型中不存在但在大型模型中出現(xiàn)的能力」,這是 LLM 與以前的....
GPT-4的研究路徑?jīng)]有前途?
這場辯論的主題為「Do large language models need sensory gro....
DepGraph:任意架構(gòu)的結(jié)構(gòu)化剪枝,CNN、Transformer、GNN等都適用!
結(jié)構(gòu)化剪枝是一種重要的模型壓縮算法,它通過移除神經(jīng)網(wǎng)絡(luò)中冗余的結(jié)構(gòu)來減少參數(shù)量,從而降低模型推理的時....
Meta提出Make-A-Video3D:一行文本,生成3D動態(tài)場景!
具體而言,該方法運用 4D 動態(tài)神經(jīng)輻射場(NeRF),通過查詢基于文本到視頻(T2V)擴散的模型,....
LERF:當(dāng)CLIP遇見NeRF!讓自然語言與3D場景交互更直觀
但自然語言不同,自然語言與 3D 場景交互非常直觀。我們可以用圖 1 中的廚房場景來解釋,通過詢問餐....
基于擴散模型的視頻合成新模型,加特效杠杠的!
近日,曾參與創(chuàng)建 Stable Diffusion 的 Runway 公司推出了一個新的人工智能模型....
大腦視覺信號被Stable Diffusion復(fù)現(xiàn)成圖像!
這項研究聲稱,只需用fMRI(功能磁共振成像技術(shù),相比sMRI更關(guān)注功能性信息,如腦皮層激活情況等)....
ChatGPT正式上線對搜索引擎有什么影響
國內(nèi)外兩家搜索巨頭急速沖刺,現(xiàn)在卻還是投資了OpenAI的微軟更快一步。倒也不奇怪,畢竟這種“搜索大....