在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

TensorFlow再填新功能!谷歌宣布推出TensorFlow.Text

DPVg_AI_era ? 來源:lq ? 2019-06-15 09:49 ? 次閱讀

谷歌發(fā)布TensorFlow優(yōu)化新功能TF.Text庫,可對語言文本AI模型進行周期性預處理,大大節(jié)約了AI開發(fā)者對文本模型的訓練時間,簡化訓練流程。

TensorFlow再填新功能!

谷歌宣布推出TensorFlow.Text,這是一個利用TensorFlow對語言文本模型進行預處理的庫。TF官博第一時間發(fā)布了更新消息,并對TF.Text的新功能和特性進行了簡要介紹。

TensorFlow一直以來致力于為用戶提供更廣泛的選擇,幫助用戶利用圖像和視頻數(shù)據(jù)構建模型。但是,許多模型是以文本開頭的,從這些模型構建的語言模型需要進行一些預處理,才能將文本輸入到模型中。比如關于使用IMDB數(shù)據(jù)集的文本分類教程,就是從已經(jīng)轉換為整數(shù)ID的文本數(shù)據(jù)開始入手的。

如果模型訓練和推理的時間不一樣,在訓練過程以外完成的預處理可能會和模型產(chǎn)生偏差,這就需要額外投入更多的時間和精力對預處理的過程進行協(xié)調(diào)。

TensorFlow本次推出的TF.Text就是為了解決這個問題,TF.Text是一個TensorFlow 2.0庫,可以使用PIP命令輕松安裝。它可以在基于文本的模型中定期執(zhí)行這些預處理過程,并提供TensorFlow核心組件中并未提供的、關于語言建模的更多功能和操作。

其中最常見的功能就是文本的詞條化(tokenization)。詞條化是將字符串分解為token的過程。這些token可能是單詞、數(shù)字和標點符號,或是上述幾種元素的組合。

TF.Text的Tokenizer使用RaggedTensors,這是一種用于識別文本的新型張量。

三個新的Tokenizer,系統(tǒng)解決文本AI模型預訓練問題

TF.Text提供了三個新的tokenizer。其中最基本的是空白tokenizer,可以在ICU定義的空白字符(例如空格,制表符,換行符)上拆分UTF-8字符串。

tokenizer=tensorflow_text.WhitespaceTokenizer()tokens = tokenizer.tokenize(['everything not saved will be lost.', u'Sad?'.encode('UTF-8')])print(tokens.to_list())

[['everything', 'not', 'saved', 'will', 'be', 'lost.'], ['Sadxe2x98xb9']]

此次發(fā)布的初始版本還包括一個面向unicode腳本的tokenizer,可以根據(jù)Unicode腳本邊界拆分UTF-8字符串。值得注意的是,它和空白tokenizer很類似,最明顯的區(qū)別在于后者可以從標準文本(如USCRIPT_LATIN,USCRIPT_CYRILLIC等)中分割出標點符號。

tokenizer = tensorflow_text.UnicodeScriptTokenizer()tokens = tokenizer.tokenize(['everything not saved will be lost.', u'Sad?'.encode('UTF-8')])print(tokens.to_list())

[['everything', 'not', 'saved', 'will', 'be', 'lost', '.'], ['Sad', 'xe2x98xb9']]

TF.Text中提供的最后一個tokenizer是一個Wordpiece tokenizer。這是一個無監(jiān)督的tokenizer,需要一個預先確定的詞匯表,進一步將token分成子詞(前綴和后綴)。Wordpiece常用于谷歌的BERT模型。

def_CreateTable(vocab,num_oov=1): init = tf.lookup.KeyValueTensorInitializer( vocab, tf.range(tf.size(vocab, out_type=tf.int64), dtype=tf.int64), key_dtype=tf.string, value_dtype=tf.int64) return tf.lookup.StaticVocabularyTable( init, num_oov, lookup_key_dtype=tf.string)vocab_table = _CreateTable(["great", "they", "the", "##'", "##re", "##est"])tokens = [["they're", "the", "greatest"]]tokenizer = tensorflow_text.WordpieceTokenizer( vocab_table, token_out_type=tf.string)result = tokenizer.tokenize(tokens)print(result.to_list())

[[['they', "##'", '##re'], ['the'], ['great', '##est']]]

每個Tokenizer都在UTF-8編碼的字符串上進行標記,并提供了將字節(jié)偏移量轉換為原始字符串的選項。調(diào)用者可以了解創(chuàng)建的token的原始字符串中的字節(jié)對齊。

此外,TF.Text庫還包括歸一化、n-gram和標記序列約束等功能。

新功能組件密集發(fā)布,TensorFlow大家庭日益完善

有關更深入的實例,可以查看Colab notebook內(nèi)容,其中包含許多本文中未討論的新的可用操作的各種代碼段。未來計劃繼續(xù)提供更多新工具,讓使用TensorFlow構建語言模型變得更加方便。

今年上半年,谷歌陸續(xù)發(fā)布了多個基于TensorFlow的新功能和新組件。5月,谷歌發(fā)布TensorFlow Graphics,讓機器學習與圖形和3D模型的關系更加密切。今年3月,谷歌發(fā)布旨在增強隱私保護的終端設備機器學習方法TensorFlow Federated。此外,TensorFlow框架面向JavaScript和iOS開發(fā)者的版本TensorFlow.js和TensorFlow Swift也于今年春天發(fā)布。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6207

    瀏覽量

    106140
  • 模型
    +關注

    關注

    1

    文章

    3372

    瀏覽量

    49298
  • tensorflow
    +關注

    關注

    13

    文章

    329

    瀏覽量

    60661

原文標題:TensorFlow官宣新功能TF.Text:攻克語言AI模型預處理偏差難題

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    榮耀手機新增谷歌Circle to Search功能

    近日,全球知名科技品牌榮耀宣布,在其旗艦智能手機HONOR Magic V3及HONOR 200系列上,正式推出谷歌(Google)Circle to Search功能。這一創(chuàng)
    的頭像 發(fā)表于 10-17 18:16 ?819次閱讀

    第四章:在 PC 交叉編譯 aarch64 的 tensorflow 開發(fā)環(huán)境并測試

    本文介紹了在 PC 端交叉編譯 aarch64 平臺的 tensorflow 庫而非 tensorflow lite 的心酸過程。
    的頭像 發(fā)表于 08-25 11:38 ?1417次閱讀
    第四章:在 PC 交叉編譯 aarch64 的 <b class='flag-5'>tensorflow</b> 開發(fā)環(huán)境并測試

    如何在Tensorflow中實現(xiàn)反卷積

    TensorFlow中實現(xiàn)反卷積(也稱為轉置卷積或分數(shù)步長卷積)是一個涉及多個概念和步驟的過程。反卷積在深度學習領域,特別是在圖像分割、圖像超分辨率、以及生成模型(如生成對抗網(wǎng)絡GANs)等任務中
    的頭像 發(fā)表于 07-14 10:46 ?739次閱讀

    TensorFlow是什么?TensorFlow怎么用?

    TensorFlow是由Google開發(fā)的一個開源深度學習框架,它允許開發(fā)者方便地構建、訓練和部署各種復雜的機器學習模型。TensorFlow憑借其高效的計算性能、靈活的架構以及豐富的工具和庫,在學
    的頭像 發(fā)表于 07-12 16:38 ?860次閱讀

    使用TensorFlow進行神經(jīng)網(wǎng)絡模型更新

    使用TensorFlow進行神經(jīng)網(wǎng)絡模型的更新是一個涉及多個步驟的過程,包括模型定義、訓練、評估以及根據(jù)新數(shù)據(jù)或需求進行模型微調(diào)(Fine-tuning)或重新訓練。下面我將詳細闡述這個過程,并附上相應的TensorFlow代碼示例。
    的頭像 發(fā)表于 07-12 11:51 ?504次閱讀

    請問ESP32如何運行TensorFlow模型?

    請問ESP32如何運行TensorFlow模型?
    發(fā)表于 07-09 07:30

    tensorflow和pytorch哪個更簡單?

    PyTorch更簡單。選擇TensorFlow還是PyTorch取決于您的具體需求和偏好。如果您需要一個易于使用、靈活且具有強大社區(qū)支持的框架,PyTorch可能是一個更好的選擇。如果您需要一個在
    的頭像 發(fā)表于 07-05 09:45 ?1043次閱讀

    tensorflow和pytorch哪個好

    tensorflow和pytorch都是非常不錯的強大的框架,TensorFlow還是PyTorch哪個更好取決于您的具體需求,以下是關于這兩個框架的一些關鍵點: TensorFlow : 發(fā)布時間
    的頭像 發(fā)表于 07-05 09:42 ?796次閱讀

    tensorflow簡單的模型訓練

    在本文中,我們將詳細介紹如何使用TensorFlow進行簡單的模型訓練。TensorFlow是一個開源的機器學習庫,廣泛用于各種機器學習任務,包括圖像識別、自然語言處理等。我們將從安裝
    的頭像 發(fā)表于 07-05 09:38 ?807次閱讀

    keras模型轉tensorflow session

    在這篇文章中,我們將討論如何將Keras模型轉換為TensorFlow session。 Keras和TensorFlow簡介 Keras是一個高級神經(jīng)網(wǎng)絡API,它提供了一種簡單、快速的方式來構建
    的頭像 發(fā)表于 07-05 09:36 ?608次閱讀

    如何使用Tensorflow保存或加載模型

    TensorFlow是一個廣泛使用的開源機器學習庫,它提供了豐富的API來構建和訓練各種深度學習模型。在模型訓練完成后,保存模型以便將來使用或部署是一項常見的需求。同樣,加載已保存的模型進行預測或
    的頭像 發(fā)表于 07-04 13:07 ?1762次閱讀

    TensorFlow的定義和使用方法

    TensorFlow是一個由谷歌人工智能團隊谷歌大腦(Google Brain)開發(fā)和維護的開源機器學習庫。它基于數(shù)據(jù)流編程(dataflow programming)的概念,將復雜的數(shù)學運算表示為
    的頭像 發(fā)表于 07-02 14:14 ?949次閱讀

    TensorFlow與PyTorch深度學習框架的比較與選擇

    深度學習作為人工智能領域的一個重要分支,在過去十年中取得了顯著的進展。在構建和訓練深度學習模型的過程中,深度學習框架扮演著至關重要的角色。TensorFlow和PyTorch是目前最受歡迎的兩大深度
    的頭像 發(fā)表于 07-02 14:04 ?1124次閱讀

    Mozilla Firefox瀏覽器推出Text Fragments功能,提升用戶體驗

    早在2020年,谷歌即在Chrome瀏覽器中推出了“Scroll to Text Fragments”功能,而Edge、Opera、Brave、Vivaldi以及蘋果Safari等基于
    的頭像 發(fā)表于 04-08 10:21 ?696次閱讀

    谷歌模型框架是什么軟件?谷歌模型框架怎么用?

    谷歌模型框架通常指的是谷歌開發(fā)的用于機器學習和人工智能的軟件框架,其中最著名的是TensorFlowTensorFlow是一個開源的機器學習框架,由
    的頭像 發(fā)表于 03-01 16:25 ?1005次閱讀
    主站蜘蛛池模板: 欧美人与动性视频在线观 | 久久久午夜影院 | 亚洲三级理论 | 欧美一级高清免费播放 | 天天摸夜夜添夜夜添国产 | 亚洲色图在线播放 | 婷婷资源综合 | 26uuu影院亚洲欧美综合 | 国产高清一区二区 | 97在线精品| 亚洲精品www | 68日本xxxxxxx18| 免费在线视频你懂的 | 国产高清在线精品一区 | 九色综合九色综合色鬼 | 天天摸天天碰中文字幕 | 色综合久久九月婷婷色综合 | 国产免费色视频 | 911国产自产精选 | 香蕉视频一级 | 亚欧有色亚欧乱色视频 | 日本黄页网 | 亚洲黄色三级 | 加勒比综合网 | 怡红院国产| www三级免费| 日韩欧美印度一级毛片 | 午夜影院免费入口 | 久久这里只精品热在线8 | 一区二区三区亚洲视频 | 男人边吃奶边爱边做视频日韩 | 国内在线观看精品免费视频 | 国产成人av在线 | 狠狠狠狼鲁欧美综合网免费 | 午夜香蕉视频 | 欧美色婷婷天堂网站 | 狠狠丁香激情久久综合 | 久草色香蕉 | 桃花岛亚洲精品tv自拍网站 | 天天摸日日碰天天看免费 | 色色网视频 |