在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于OpenAI的GPT-2的語言模型ProtGPT2可生成新的蛋白質序列

IEEE電氣電子工程師 ? 來源:IEEE電氣電子工程師 ? 作者:IEEE電氣電子工程師 ? 2022-09-08 16:24 ? 次閱讀

人類語言與蛋白質有很多共同點,至少在計算建模方面。這使得研究團隊將自然語言處理(NLP)的新方法應用于蛋白質設計。其中,德國Bayreuth大學Birte H?cker的蛋白質設計實驗室,描述了基于OpenAI的GPT-2的語言模型ProtGPT2,以基于自然序列的原理生成新的蛋白質序列。

正如字母表中的字母組成單詞和句子一樣,天然氨基酸以不同的方式結合形成蛋白質。和自然語言一樣,蛋白質序列以極高的效率將結構和功能存儲在氨基酸序列中。

ProtGPT2是一個深度的、無監督的模型,它利用了變壓器架構的進步,而變壓器架構也導致了NLP技術的快速發展。該體系結構有兩個模塊,Noelia Ferruz解釋說,她是論文的合著者,也是培訓ProtGPT2的人:一個模塊理解輸入文本,另一個模塊處理或生成新文本。第二個是生成新文本的解碼器模塊,幫助了ProtGPT2的開發。

Researchers have used GPT-2 to train a model to learn the protein “language,” generate stable proteins, and explore “dark” regions of protein space.

“在我們創建這個模型的時候,還有許多其他人在使用第一個模塊,”Noelia Ferruz說,“例如ESM、ProtTrans和ProteinBERT。我們的是當時第一個公開發布的解碼器,這也是第一次有人直接應用GPT-2。”

Ferruz本人是GPT-2的忠實粉絲。“我發現有一個能寫英語的模型給我留下了深刻印象,”她說。這是一個著名的transformer模型,以無監督的方式對40千兆字節的英語互聯網文本進行預訓練,即使用沒有人類標記的原始文本生成句子中的下一個單詞。GPT-x系列已被證明能夠有效地生成長而連貫的文本,通常與人類書寫的文本無法區分,因此潛在的誤用是一個令人擔憂的問題。

鑒于GPT-2的能力,Bayreuth的研究人員對使用它訓練模型學習蛋白質語言、生成穩定的蛋白質以及探索蛋白質空間的“暗”區域持樂觀態度。Ferruz在整個蛋白質空間中約5000萬個無注釋序列的數據集上訓練了ProtGPT2。為了評估該模型,研究人員將由ProtGPT2生成的10000個序列的數據集與來自訓練數據集的10000個隨機序列集進行了比較。

他們發現該模型預測的序列在二級結構上與天然蛋白質相似。ProtGPT2可以預測穩定和功能性的蛋白質,不過,Ferruz說,這將在未來幾個月內通過對一組大約30種蛋白質的實驗室實驗來驗證。ProtGPT2還模擬了自然界中不存在的蛋白質,在蛋白質設計領域開辟了可能性。

cb0d9dc2-2a9e-11ed-ba43-dac502259ad0.png

UNIVERSITY OF BAYREUTH/NATURE COMMUNICATIONS

Ferruz說,該模型可以在幾分鐘內產生數百萬種蛋白質。“如果沒有進一步的改進,人們可以采用免費提供的模型,并對一組序列進行微調,以在該區域產生更多的序列,例如抗生素或疫苗。”但是,她補充說,通過對訓練過程進行小的修改,“我們可以添加標簽,并有可能在未來開始生成具有特定功能的序列。”這反過來不僅在醫療和生物醫學領域,而且在環境科學等領域有潛在的應用。

Ferruz承認NLP領域的快速發展為ProtGPT2的成功做出了貢獻,但同時也指出,這是一個不斷變化的領域 —— “過去12個月發生的所有事情都太瘋狂了。”目前,她和她的同事已經在寫一篇關于他們工作的評論。“我在2021圣誕節訓練了這個模型,”她說,“當時,有另一個模型已經被描述過了……但它不可用。”不過她表示,到今年春天,其他模型已經發布。

ProtGPT2的預測序列跨越了新的、很少探索的蛋白質結構和功能區域。然而,幾周前,DeepMind發布了超過2億種蛋白質的結構。“所以我想我們已經沒有那么多的暗蛋白質組了,”Ferruz說,“但仍有一些地區……尚未被探索。”

不過,前面還有很多準備工作要做。“我想控制設計過程,”Ferruz補充道,“我們將需要獲取序列,預測結構,并可能預測功能(如果有的話)……這將是非常具有挑戰性的。”ProtGPT2是面向高效蛋白質設計和生成邁出的一大步,為探索設計蛋白質結構和功能的參數及其后續實際應用的實驗研究奠定了基礎。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1152

    瀏覽量

    40956
  • 語言模型
    +關注

    關注

    0

    文章

    542

    瀏覽量

    10344
  • nlp
    nlp
    +關注

    關注

    1

    文章

    489

    瀏覽量

    22115
  • OpenAI
    +關注

    關注

    9

    文章

    1154

    瀏覽量

    6743

原文標題:研究人員開發用于蛋白質設計的深度無監督語言模型ProtGPT2

文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    以色列面向生物傳感器和電路的蛋白質納米線

    銀納米線被用于生物傳感器和電路中。 該所大學化學系的Ehud Gazit研究了聚集在Alzheimer病人大腦內的淀粉蛋白質纖維。這種蛋白質還聚集在人體的其它部位,引發二類糖尿病和朊病毒病。 他
    發表于 11-20 15:53

    面向生物傳感器和電路的蛋白質納米線

    納米線被用于生物傳感器和電路中。 該所大學化學系的EhudGazit研究了聚集在Alzheimer病人大腦內的淀粉蛋白質纖維。這種蛋白質還聚集在人體的其它部位,引發二類糖尿病和朊病毒病。 他的研究
    發表于 12-03 10:47

    蛋白質組學技術與藥物作用新靶點研究進展 精選資料分享

    ,成為制約新藥開發速度的瓶頸。基因組學研究表明,人體中全部藥靶蛋白為1萬~2萬種,而在過去100年中發現的靶點,僅約有 500種。因此,自1994年Wilkins等提出蛋白質組(pro- teome
    發表于 07-26 07:48

    點成分享 | 蛋白質濃度測定之BCA法

    蛋白質濃度的測定是常見的生物實驗之一。本文介紹的是使用BCA法(二辛酸法或二喹啉甲酸法)進行蛋白質濃度的測定。BCA分子式1實驗原理BCA是一種穩定的堿性水溶性復合物。在堿性條件下,蛋白質
    發表于 12-20 17:17

    基于PPI網絡與機器學習的蛋白質功能預測方法

    蛋白質是執行生物體內各種重要生物活動的大分子,認識其功能對推動生命科學、農業、醫療等領域的發展意義重大。1961年,Anfinsen等提出蛋白質一級序列決定其三維結構、蛋白質三維結構決
    發表于 04-17 14:39 ?0次下載

    OpenAI發布一款令人印象深刻的語言模型GPT-2

    今年2月,OpenAI發布了一款令人印象深刻的語言模型GPT-2,它可以寫短篇小說、詩歌,甚至輕松辨別《哈利波特》和《指環王》中的角色。最近
    的頭像 發表于 05-17 18:48 ?4532次閱讀

    OpenAI宣布,發布了7.74億參數GPT-2語言模型

    就在本周,OpenAI宣布,發布了7.74億參數GPT-2語言模型,15.58億的完整模型也有望于幾個月內發布,并將
    的頭像 發表于 09-01 09:10 ?3063次閱讀

    基于衰減系數的動態蛋白質預測網絡模型

    在生物系統的轉變過程中,蛋白質的演化過程并非一成不變,而是動態變化的。通過構造模型的方法來研究蛋白質相互作用網絡,可以較好地刻畫蛋白質相互作用的演化機制。但是,利用構造
    發表于 06-15 16:50 ?10次下載

    食品蛋白質測定儀的特點及功能

    食品蛋白質測定儀【恒美 HM-Z12】快速檢測奶粉、牛奶及乳制品中的蛋白質,儀器預留其他項目檢測程序和端口,根據日后需求方便的自主增加檢測項目。
    發表于 07-27 11:47 ?501次閱讀

    蛋白質測定儀的特點、功能及參數

    蛋白質測定儀【恒美 HM-Z12】快速檢測奶粉、牛奶及乳制品中的蛋白質,儀器預留其他項目檢測程序和端口,根據日后需求方便的自主增加檢測項目。
    發表于 08-17 10:26 ?689次閱讀

    蛋白質快速檢測儀的特點及功能

    蛋白質快速檢測儀【恒美 HM-Z12】快速檢測奶粉、牛奶及乳制品中的蛋白質,儀器預留其他項目檢測程序和端口,根據日后需求方便的自主增加檢測項目。
    發表于 09-02 10:54 ?1067次閱讀

    蛋白質測定儀工作原理是怎樣的

    蛋白質測定儀的工作原理,蛋白質測定儀【HM-Z12】快速檢測奶粉、牛奶及乳制品中的蛋白質,我們都知道蛋白質在我們的生命中占據很重要的位置,
    發表于 11-15 14:47 ?2891次閱讀

    使用AlphaFold2進行蛋白質結構預測

    前言 AlphaFold 2,是DeepMind公司的一個人工智能程序。2020年11月30日,該人工智能程序在蛋白質結構預測大賽CASP 14中,對大部分蛋白質結構的預測與真實結構只差一個原子
    的頭像 發表于 11-07 16:09 ?2662次閱讀
    使用AlphaFold<b class='flag-5'>2</b>進行<b class='flag-5'>蛋白質</b>結構預測

    NVIDIA 和 Evozyne 創建用于生成蛋白質生成式 AI 模型

    科學家使用 NVIDIA BioNeMo 創建出能夠生成高質量蛋白質的大型語言模型,以此加快藥物研發并助力創造更具可持續性的環境。 初創企業 Evozyne 使用 NVIDIA 提供的
    的頭像 發表于 01-13 23:15 ?625次閱讀

    EvolutionaryScale推出基于NVIDIA GPU模型的新型蛋白質研究方案

    EvolutionaryScale 于 6 月 25 日發布了第三代 ESM 模型 ESM3,該模型同時對蛋白質序列、結構和功能進行推理
    的頭像 發表于 08-23 16:45 ?744次閱讀
    主站蜘蛛池模板: 男人日女人视频在线观看 | 日日草夜夜草 | 欧美黄色一级网站 | 国产农村妇女毛片精品久久 | 一级一片免费视频播放 | 国产精品人成在线播放新网站 | 欧美猛交xxxx乱大交 | 午夜视频免费看 | 一级欧美日韩 | 久久精品国产四虎 | 97人人模人人揉人人捏 | 亚洲第一视频在线 | 狼狼狼色精品视频在线播放 | 黄网免费看 | h网站国产 | 永久免费影视在线观看 | 国产黄色片在线观看 | 麻豆蜜桃 | 97影院理论 | 免费在线你懂的 | 亚洲国产成人精品不卡青青草原 | 热re99久久精品国产99热 | 欧美高清一区二区三 | 模特视频一二三区 | 日本免费三级网站 | 亚洲 欧美 综合 | 2021天天干| 日韩精品一级毛片 | 国模最新私拍视频在线观看 | 四虎影院在线网址 | 黄的三级在线播放 | 天天操综合视频 | 69er小视频 | 日鲁夜鲁鲁狠狠综合视频 | 男人的天堂天堂网 | 久久伊人色 | 午夜激情婷婷 | 国产精品久久久久久久久久妇女 | 亚洲午夜小视频 | 日韩精品在线一区二区 | 性欧美videofree视频另类 |