在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

TensorFlow現在可以支持Unicode,這是一種標準編碼系統

Tensorflowers ? 來源:lq ? 2018-12-31 11:37 ? 次閱讀

TensorFlow 現在可以支持 Unicode,這是一種標準編碼系統,可以表示幾乎所有語言的字符。處理自然語言時,了解字符的編碼方式非常重要。在像英語這樣的小字符集的語言中,每個字符都可以使用 ASCII 進行表示。但是這種方法對于其他語言來說并不實用,例如中文,這些語言有數千個字符。即使處理英文文本,Emojis 等特殊字符也不能用 ASCII 表示。

定義字符及其編碼的最常用標準是 Unicode,它幾乎支持所有語言。對于 Unicode,每個字符使用唯一的整數 code point 表示,其值介于 0 和 0x10FFFF 之間。當按順序放置 code point 時,將形成 Unicode 字符串。

Unicode tutorial colab展示了如何在 TensorFlow 中表示 Unicode 字符串。使用 TensorFlow 時,有兩種標準方式來表示 Unicode 字符串:

作為整數向量,其中每個位置包含單個 code point

作為字符串,使用字符編碼將 code point 序列編碼到字符串中。有許多字符編碼,其中一些最常見的是 UTF-8,UTF-16 等

以下代碼分別使用 code point、UTF-8 和 UTF-16 顯示字符串 “語言處理” 的編碼。

當然,您可能需要在各種表示方式之間進行轉換,而 TensorFlow 1.13 已添加了執行此操作的函數:

tf.strings.unicode_decode: 將字符串標量轉換為 code point 的向量(https://www.tensorflow.org/versions/r1.13/api_docs/python/tf/strings/unicode_decode)

tf.strings.unicode_encode: 將 code point 向量轉換為字符串標量(https://www.tensorflow.org/versions/r1.13/api_docs/python/tf/strings/unicode_decode)

tf.strings.unicode_transcode: 將字符串標量轉換為不同的編碼(https://www.tensorflow.org/versions/r1.13/api_docs/python/tf/strings/unicode_transcode)

因此,如果要將上述示例中的 UTF-8 解碼為 code point 向量,則可以執行以下操作:

當解碼包含多個字符串的 Tensor 時,字符串可能具有不同的長度。 unicode_decode 將結果作為 RaggedTensor 返回,其中內部維度的長度根據每個字符串中的字符數而變化。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼
    +關注

    關注

    6

    文章

    959

    瀏覽量

    54969
  • Unicode
    +關注

    關注

    0

    文章

    24

    瀏覽量

    12594
  • tensorflow
    +關注

    關注

    13

    文章

    329

    瀏覽量

    60637

原文標題:TensorFlow 支持 Unicode 編碼

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    RTT使用unicode編碼,編譯不通過是為什么?

    1、我們為了設備兼容俄語,就需要使用到unicode編碼,將字符串保存文件保存為unicode編碼,但是編譯之后出現大堆錯誤。 2、編譯器
    發表于 03-27 08:01

    一種新的IEEE 802.16系統調制編碼模式切換方案

    IEEE 802.16系統支持多種調制編碼模式以實現通信質量和傳輸速率最優化.為了降低無線信道衰減時變性和隨機性的影響,提高系統的最大吞吐量,提出了一種新的調制
    發表于 05-13 09:11

    STM32是否支持漢字的Unicode碼儲存??

    在STM32里儲存個“中”字,是不是按Unicode碼儲存的? 例如“冰”字,是不是51B0?如果是,那是不是分開51與B0兩個字節來儲存? 如果不支持,那它支持
    發表于 08-18 15:50

    Unicode和GB2312編碼互轉VI

    因為在寫GSM短信收發數據上位機軟件,需要用到Unicode和GB2312編碼轉換。搞了很長時間,直沒頭序。后來參考網上個例程,基于查表方式,自己修改了終于成功了。
    發表于 03-21 17:09

    Labview GBK字符轉Unicode編碼支持混合字符)

    labview字符控件中的漢字編碼是GBK,應用中如需用到Unicode編碼,labview沒有直接的函數可以調用,現分享下我編寫的基于查表方式實現互轉的程序。先前做的版本只
    發表于 10-28 11:50

    TensorFlow常用Python擴展包

    安裝: OS:這包括在基本的 Python 安裝中。它提供了一種使用操作系統相關功能(如讀取、寫入及更改文件和目錄)的簡單便攜方式。Pandas:這提供了各種數據結構和數據分析工具。使用 Pandas
    發表于 07-28 14:35

    一種基于GSM和Zigbee技術的無線安防系統

    和接收短消息,利用GSM模塊和手機之間進行信息交換,首先就要對信息進行PDU格式的編碼和解碼。本系統采用Unicode編碼形式。Unicode
    發表于 12-01 09:36

    一種安全的糾錯網絡編碼

    該文利用消息空間的所有子空間上的一種度量,給出了一種安全的糾錯網絡編碼。首先,此度量下的最小距離譯碼法可以糾正定維數的錯誤。另外,在此
    發表于 11-09 13:32 ?19次下載

    UNICODE,GBK,UTF-8區別

    Unicode編碼,簡要解釋UCS、UTF、BMP、BOM等名詞。這是篇程序員寫給程序員的趣味讀物
    發表于 03-28 10:28 ?2450次閱讀

    Unicode編碼介紹

    Unicode有兩套標準套叫UCS-2(Unicode-16),用2個字節為字符編碼,另
    發表于 04-18 08:35 ?1545次閱讀

    字符Unicode標準編碼計算器免費下載

    字符標準編碼計算器可以計算出任意字符的Unicode碼,尤其是漢字的Unicode碼計算對我們的實際開發有
    發表于 09-16 10:14 ?41次下載
    字符<b class='flag-5'>Unicode</b><b class='flag-5'>標準</b><b class='flag-5'>編碼</b>計算器免費下載

    基于雙向MIMO中繼系統一種編碼策略

    為了克服已有的雙向MIMO中繼系統模型中預編碼技術計算量大的缺點,提出了一種基于雙向MIMO系統的三時段預編碼策略,給出了該策略的模型和算法
    發表于 06-09 16:39 ?34次下載
    基于雙向MIMO中繼<b class='flag-5'>系統</b>的<b class='flag-5'>一種</b>預<b class='flag-5'>編碼</b>策略

    一種現在FPGA的編碼器設計方法

    咨詢委員會(CCSDS) 也將其推薦為應用于深空通信的信道編碼方式。香農指出,對于任何信道,只要采用隨機性編、譯碼方式,編碼長度接近無限大,在其信息傳輸速率不超過信道容量時,采用最佳的似然譯碼方案,必然存在一種
    發表于 10-31 14:07 ?3次下載
    <b class='flag-5'>一種</b>實<b class='flag-5'>現在</b>FPGA的<b class='flag-5'>編碼</b>器設計方法

    ascii和utf8的區別_ASCII編碼與UTF-8的關系

    UTF-8是一種針對Unicode的可變長度字符編碼,又稱萬國碼。由Ken Thompson于1992年創建。現在已經標準化為RFC 362
    的頭像 發表于 01-30 13:34 ?3w次閱讀
    ascii和utf8的區別_ASCII<b class='flag-5'>編碼</b>與UTF-8的關系

    unicode如何轉GBK字庫制作

    UTF-8(8 位元,Universal Character Set/Unicode Transformation Format)是針對 Unicode一種可變長度字符編碼。UC
    發表于 08-14 10:45 ?14次下載
    主站蜘蛛池模板: 亚洲人与牲动交xxxxbbbb | 国产午夜视频在线观看第四页 | 久久久久久久综合色一本 | 天天干天天色综合 | 黑人xxxx精品 | 国产特级毛片 | 中国高清色视频www 中国高清性色生活片 | 天天综合天天干 | 亚洲播播| 久久精品网站免费观看 | 韩国三级理论在线观看视频 | 日本国产在线 | 色多多视频官网 | 两性色午夜视频免费国产 | www.色图| 日本一区二区三区在线 视频观看免费 | 日韩毛片大全免费高清 | 成人在线看片 | 亚洲欧美视频二区 | 日本高清视频不卡 | 中文字幕 亚洲一区 | 超黄视频在线观看 | 国产精品久久久久久久久久影院 | 好吊妞视频988在线播放 | 国产毛片农村妇女系列 | 91极品女神嫩模在线播放 | 国产乱淫a∨片免费视频 | 午夜老司机福利 | 色丁香影院 | 老师下面好紧 | 免费a级午夜绝情美女视频 免费jlzzjlzz在线播放视频 | 综合网 色天使 | 黄色录像视频网站 | 日本三级2018亚洲视频 | 四虎官网| 手机在线你懂得 | 一级片视频在线 | 婷婷丁香亚洲 | 天堂在线视频 | 1024你懂的在线观看 | 中文字幕二区三区 |