绝色狂妃仙魅小说,神武八荒一颗小说,怎样写网络小说

在進行AI模型訓練過程前，需要對數據集進行處理, Tensorflow提供了tf.data數據集處理模塊，通過該接口能夠輕松實現數據集預處理。tf.data支持對數據集進行大量處理，如圖片裁剪、圖片打亂、圖片分批次處理等操作。

數據集加載介紹

通過tf.data能夠實現數據集加載，加載的數據格式包括:

●使用NumPy數組數據
●使用python生成器數據
●使用TFRecords格式數據
●使用文本格式數據
●使用CSV文件格式數據

1tf.data常見數據格式加載示例

●使用Numpy數組數據

通過numpy構建數據，將構建的數據傳遞到tf.data的Dataset中。

import tensorflow as tf
import numpy as np
# 通過numpy構建數據個數
input_data = np.arange(4)
# 將數據傳遞到Dataset
dataset = tf.data.Dataset.from_tensor_slices(input_data)
for data in dataset:
    # 打印數據集，轉換數據集tensor格式
    print(data)

輸出為tensor數據集:

tf.Tensor(0, shape=(), dtype=int64)
tf.Tensor(1, shape=(), dtype=int64)
tf.Tensor(2, shape=(), dtype=int64)
tf.Tensor(3, shape=(), dtype=int64)

●讀取文本中數據

通過準備的文本文件file.txt，將文本文件中的內容讀取到tf.data，文件內容為:

Tf dataset load numpy data
Tf dataset load txt file data
Tf dateset load CSV file data

加載文本文件代碼:

import tensorflow as tf
# 通過TextLineDataset進行加載文本文件內容
dataset = tf.data.TextLineDataset("file.txt")
for line in dataset:
    print(line)

文本加載數據輸出(輸出的Tensor中已包含了文件文件中的數據):

tf.Tensor(b'Tf dataset load numpy data', shape=(), dtype=string)
tf.Tensor(b'Tf dataset load txt file data', shape=(), dtype=string)
tf.Tensor(b'Tf dateset load CSV file data', shape=(), dtype=string)

●讀取csv文本中數據

準備csv文件file.csv，文件內容為:

?

加載文本文件代碼:

  import tensorflow as tf
import pandas as pd
# 使用pandas讀取csv文本中數據
data = pd.read_csv('date.csv')
# 將讀取的data數據傳遞到dataset中
f_slices = tf.data.Dataset.from_tensor_slices(dict(data))
for d in f_slices:
    print (d)

csv文本加載數據輸出(輸出的Tensor中已包含了文件文件中的數據):

{'Year': , 'Month': , 'Day': , 'Hour': }
{'Year': , 'Month': , 'Day': , 'Hour': }
{'Year': , 'Month': , 'Day': , 'Hour': }

●利用python迭代構建數據

通過python構建迭代器方式，將數據傳遞到tf.data, 示例代碼如下:

# 迭代函數，通過傳遞的stop數據進行迭代
def build_data(stop):
  i = 0
  while i
示例代碼輸出(迭代5次的Tensor):
tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(1, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(3, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)

	

	2tf.data常見數據處理

	tf.data常用以下操作對數據完成預處理過程，操作包括: repeat、batch、shuffle、map等。

	●tf.data數據repeat操作

	通過調用repeat操作，將原數據進行重復構建，重復構建根據傳遞的repeat(x)次數決定。

	●tf.data數據batch操作

	通過調用batch操作將數據進行分批次執行，每批次數量根據batch(x)的值決定。

	●tf.data 數據shuffle操作，打亂數據順序

	shuffle操作常用于預處理數據集時，將數據集中的順序打亂，shuffle支持配置(buffer_size=x)將數據放置在緩沖區，通過緩沖區方式將數據打亂。

	●tf.data 數據map操作

	map操作能夠將數組中的元素重構，同時能夠實現讀取圖片，對圖片進行旋轉操作。

	示例:
import tensorflow as tf
import numpy as np
# 使用numpy構建12個數據
input_data = np.arange(12)
# 將構建數據傳遞到dataset，傳遞中添加shuffle(10個緩沖區數據), batch分批次執行(每次4個數據), repeat重復構建數據2次
dataset = tf.data.Dataset.from_tensor_slices(input_data).shuffle(buffer_size=10).batch(4).repeat(2)
for data in dataset:
    print(data)
示例代碼輸出(輸出中可以看到Tensor每次4個數據，每個數據重復出現2次，每次數據亂序輸出):
tf.Tensor([8 3 9 1], shape=(4,), dtype=int64)
tf.Tensor([2 0 4 5], shape=(4,), dtype=int64)
tf.Tensor([ 7 11 10  6], shape=(4,), dtype=int64)
tf.Tensor([6 8 5 4], shape=(4,), dtype=int64)
tf.Tensor([ 7 10  2 11], shape=(4,), dtype=int64)
tf.Tensor([3 1 0 9], shape=(4,), dtype=int64)

	

	圖片旋轉示例，示例代碼如下:

	
import tensorflow as tf
import matplotlib.pyplot as plt
import numpy as np


(train_data, train_label), (_, _) = tf.keras.datasets.mnist.load_data()
train_data = np.expand_dims(train_data.astype(np.float32) / 255.0, axis=-1)
mnist_dataset = tf.data.Dataset.from_tensor_slices((train_data, train_label))
# 構建旋轉函數，通過tensorflow的image.rot90完成90度旋轉
def rot90(image, label):
    image = tf.image.rot90(image)
    return image, label
# 通過map方式調用構建的旋轉函數
mnist_dataset = mnist_dataset.map(rot90)
for image, label in mnist_dataset.take(1):
    #添加圖片抬頭標簽
    plt.title(label.numpy())
    plt.imshow(image.numpy()[:, :])
    plt.show()

	

	正常加載圖片輸出:

	

	示例代碼運行后，圖片旋轉輸出:

	

	

	mnist數據集預處理

	利用TensorFlow Datasets 提供了一系列可以和 TensorFlow 配合使用的數據集。下載和準備數據，以及構建tf.data.Dataset。

	示例代碼需要:

	
python3.6版本環境
安裝tensorflow==1.14.0版本（pip3 install tensorflow==2.1.0）
安裝tensorflow_datasets==4.4.0（pip3 install tensorflow-datasets==4.4.0）
示例代碼:
import tensorflow as tf
import tensorflow_datasets as tfds


#數據集通過Tensorflow Eager模式執行
tf.compat.v1.enable_eager_execution()


# 加載 MNIST 訓練數據。這個步驟會下載并準備好該數據，除非你顯式指定 `download=False` ，值得注意的是，一旦該數據準備好了，后續的  `load`  命令便不會重新下載，可以重復使用準備好的數據。你可以通過指定  `data_dir=`  (默認是  `~/tensorflow_datasets/` ) 來自定義數據保存/加載的路徑。
mnist_train = tfds.load(name="mnist", split="train")
assert isinstance(mnist_train, tf.data.Dataset)


mnist_builder = tfds.builder("mnist")
mnist_builder.download_and_prepare()
mnist_train = mnist_builder.as_dataset(split="train")
# 對數據集進行重復使用，并對數據進行打亂，分批次處理
mnist_train = mnist_train.repeat().shuffle(1024).batch(32)
# prefetch 將使輸入流水線可以在模型訓練時異步獲取批處理
mnist_train = mnist_train.prefetch(tf.data.experimental.AUTOTUNE)
info = mnist_builder.info
print(info.features["label"].names)
mnist_test, info = tfds.load("mnist", split="test", with_info=True)
print(info)
# 通過tfds.show_examples可視化數據樣本
fig = tfds.show_examples(info, mnist_test)

	

	代碼示例輸出:

	
# 數據集label名稱
['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']
# 數據集信息
tfds.core.DatasetInfo(
    name='mnist',
    full_name='mnist/3.0.1',
    description="""
    The MNIST database of handwritten digits.
    """,
    homepage='http://yann.lecun.com/exdb/mnist/',
    data_path='/home/fabian/tensorflow_datasets/mnist/3.0.1',
    download_size=11.06 MiB,
    dataset_size=21.00 MiB,
    features=FeaturesDict({
        'image': Image(shape=(28, 28, 1), dtype=tf.uint8),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),
    }),
    supervised_keys=('image', 'label'),
    disable_shuffling=False,
    splits={
        'test': ,
        'train': ,
    },
    citation="""@article{lecun2010mnist,
      title={MNIST handwritten digit database},
      author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
      journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
      volume={2},
      year={2010}
    }""",
)
可視化樣本數據圖片:



	作者介紹：陳遠斌，本科畢業于南開大學，海云捷迅研發工程師，熟悉OpenStack，Kubernetes技術，曾參與社區代碼貢獻,在OpenStack云計算技術上有一定的開發經驗。

	審核編輯：湯梓紅