TensorFlow 現在可以支持 Unicode,這是一種標準編碼系統,可以表示幾乎所有語言的字符。處理自然語言時,了解字符的編碼方式非常重要。在像英語這樣的小字符集的語言中,每個字符都可以使用 ASCII 進行表示。但是這種方法對于其他語言來說并不實用,例如中文,這些語言有數千個字符。即使處理英文文本,Emojis 等特殊字符也不能用 ASCII 表示。
定義字符及其編碼的最常用標準是 Unicode,它幾乎支持所有語言。對于 Unicode,每個字符使用唯一的整數 code point 表示,其值介于 0 和 0x10FFFF 之間。當按順序放置 code point 時,將形成 Unicode 字符串。
Unicode tutorial colab展示了如何在 TensorFlow 中表示 Unicode 字符串。使用 TensorFlow 時,有兩種標準方式來表示 Unicode 字符串:
作為整數向量,其中每個位置包含單個 code point
作為字符串,使用字符編碼將 code point 序列編碼到字符串中。有許多字符編碼,其中一些最常見的是 UTF-8,UTF-16 等
以下代碼分別使用 code point、UTF-8 和 UTF-16 顯示字符串 “語言處理” 的編碼。
當然,您可能需要在各種表示方式之間進行轉換,而 TensorFlow 1.13 已添加了執行此操作的函數:
tf.strings.unicode_decode: 將字符串標量轉換為 code point 的向量(https://www.tensorflow.org/versions/r1.13/api_docs/python/tf/strings/unicode_decode)
tf.strings.unicode_encode: 將 code point 向量轉換為字符串標量(https://www.tensorflow.org/versions/r1.13/api_docs/python/tf/strings/unicode_decode)
tf.strings.unicode_transcode: 將字符串標量轉換為不同的編碼(https://www.tensorflow.org/versions/r1.13/api_docs/python/tf/strings/unicode_transcode)
因此,如果要將上述示例中的 UTF-8 解碼為 code point 向量,則可以執行以下操作:
當解碼包含多個字符串的 Tensor 時,字符串可能具有不同的長度。 unicode_decode 將結果作為 RaggedTensor 返回,其中內部維度的長度根據每個字符串中的字符數而變化。
-
編碼
+關注
關注
6文章
959瀏覽量
54969 -
Unicode
+關注
關注
0文章
24瀏覽量
12594 -
tensorflow
+關注
關注
13文章
329瀏覽量
60637
原文標題:TensorFlow 支持 Unicode 編碼
文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
RTT使用unicode編碼,編譯不通過是為什么?
一種新的IEEE 802.16系統調制編碼模式切換方案
STM32是否支持漢字的Unicode碼儲存??
Unicode和GB2312編碼互轉VI
Labview GBK字符轉Unicode編碼 (支持混合字符)
TensorFlow常用Python擴展包
一種基于GSM和Zigbee技術的無線安防系統
一種安全的糾錯網絡編碼
基于雙向MIMO中繼系統的一種預編碼策略
![基于雙向MIMO中繼<b class='flag-5'>系統</b>的<b class='flag-5'>一種</b>預<b class='flag-5'>編碼</b>策略](https://file.elecfans.com/web2/M00/49/75/pYYBAGKhtFKAdpDzAAAN090GOcw213.jpg)
一種實現在FPGA的編碼器設計方法
![<b class='flag-5'>一種</b>實<b class='flag-5'>現在</b>FPGA的<b class='flag-5'>編碼</b>器設計方法](https://file.elecfans.com/web2/M00/49/3D/poYBAGKhwJKAJcuAAAAXuiHtz4k788.jpg)
ascii和utf8的區別_ASCII編碼與UTF-8的關系
![ascii和utf8的區別_ASCII<b class='flag-5'>編碼</b>與UTF-8的關系](https://file.elecfans.com/web1/M00/45/87/o4YBAFpwBEmAQ6VyAAD6Qxpt7Ak870.png)
評論