在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

電子發燒友App

硬聲App

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示
電子發燒友網>電子資料下載>電子資料>PyTorch教程16.1之情緒分析和數據集

PyTorch教程16.1之情緒分析和數據集

2023-06-05 | pdf | 0.14 MB | 次下載 | 免費

資料介紹

隨著在線社交媒體和評論平臺的激增,大量的意見數據被記錄下來,具有支持決策過程的巨大潛力。情感分析研究人們在其生成的文本中的情感,例如產品評論、博客評論和論壇討論。它在政治(例如,公眾對政策的情緒分析)、金融(例如,市場情緒分析)和市場營銷(例如,產品研究和品牌管理)等領域有著廣泛的應用。

由于情緒可以被分類為離散的極性或尺度(例如,積極和消極),我們可以將情緒分析視為文本分類任務,它將可變長度的文本序列轉換為固定長度的文本類別。在本章中,我們將使用斯坦福的大型電影評論數據集進行情感分析。它由一個訓練集和一個測試集組成,其中包含從 IMDb 下載的 25000 條電影評論。在這兩個數據集中,“正面”和“負面”標簽的數量相等,表明不同的情緒極性。

import os
import torch
from torch import nn
from d2l import torch as d2l
import os
from mxnet import np, npx
from d2l import mxnet as d2l

npx.set_np()

16.1.1。讀取數據集

首先,在路徑中下載并解壓這個 IMDb 評論數據集 ../data/aclImdb

#@save
d2l.DATA_HUB['aclImdb'] = (d2l.DATA_URL + 'aclImdb_v1.tar.gz',
             '01ada507287d82875905620988597833ad4e0903')

data_dir = d2l.download_extract('aclImdb', 'aclImdb')
Downloading ../data/aclImdb_v1.tar.gz from http://d2l-data.s3-accelerate.amazonaws.com/aclImdb_v1.tar.gz...
#@save
d2l.DATA_HUB['aclImdb'] = (d2l.DATA_URL + 'aclImdb_v1.tar.gz',
             '01ada507287d82875905620988597833ad4e0903')

data_dir = d2l.download_extract('aclImdb', 'aclImdb')
Downloading ../data/aclImdb_v1.tar.gz from http://d2l-data.s3-accelerate.amazonaws.com/aclImdb_v1.tar.gz...

接下來,閱讀訓練和測試數據集。每個示例都是評論及其標簽:1 表示“正面”,0 表示“負面”。

#@save
def read_imdb(data_dir, is_train):
  """Read the IMDb review dataset text sequences and labels."""
  data, labels = [], []
  for label in ('pos', 'neg'):
    folder_name = os.path.join(data_dir, 'train' if is_train else 'test',
                  label)
    for file in os.listdir(folder_name):
      with open(os.path.join(folder_name, file), 'rb') as f:
        review = f.read().decode('utf-8').replace('\n', '')
        data.append(review)
        labels.append(1 if label == 'pos' else 0)
  return data, labels

train_data = read_imdb(data_dir, is_train=True)
print('# trainings:', len(train_data[0]))
for x, y in zip(train_data[0][:3], train_data[1][:3]):
  print('label:', y, 'review:', x[:60])
# trainings: 25000
label: 1 review: Henry Hathaway was daring, as well as enthusiastic, for his
label: 1 review: An unassuming, subtle and lean film, "The Man in the White S
label: 1 review: Eddie Murphy really made me laugh my ass off on this HBO sta
#@save
def read_imdb(data_dir, is_train):
  """Read the IMDb review dataset text sequences and labels."""
  data, labels = [], []
  for label in ('pos', 'neg'):
    folder_name = os.path.join(data_dir, 'train' if is_train else 'test',
                  label)
    for file in os.listdir(folder_name):
      with open(os.path.join(folder_name, file), 'rb') as f:
        review = f.read().decode('utf-8').replace('\n', '')
        data.append(review)
        labels.append(1 if label == 'pos' else 0)
  return data, labels

train_data = read_imdb(data_dir, is_train=True)
print('# trainings:', len(train_data[0]))
for x, y in zip(train_data[0][:3], train_data[1][:3]):
  print('label:', y, 'review:', x[:60])
# trainings: 25000
label: 1 review: Henry Hathaway was daring, as well as enthusiastic, for his
label: 1 review: An unassuming, subtle and lean film, "The Man in the White S
label: 1 review: Eddie Murphy really made me laugh my ass off on this HBO sta

16.1.2。預處理數據集

將每個單詞視為一個標記并過濾掉出現次數少于 5 次的單詞,我們從訓練數據集中創建了一個詞匯表。

train_tokens = d2l.tokenize(train_data[0], token='word')
vocab = d2l.Vocab(train_tokens, min_freq=5, reserved_tokens=[''])
train_tokens = d2l.tokenize(train_data[0], token='word')
vocab = d2l.Vocab(train_tokens, min_freq=5, reserved_tokens=[''])

標記化后,讓我們繪制以標記為單位的評論長度直方圖。

d2l.set_figsize()
d2l.plt.xlabel('# tokens per review')
d2l.plt.ylabel('count')
d2l.plt.hist([len(line) for line in train_tokens], bins=range(0, 1000, 50));
https://file.elecfans.com/web2/M00/AA/48/pYYBAGR9PJGAVpMAAADxspcG71s604.svg
d2l.set_figsize()
d2l.plt.xlabel('# tokens per review')
d2l.plt.ylabel('count')
d2l.plt.hist([len(line) for line in train_tokens], bins=range(0, 1000, 50));
https://file.elecfans.com/web2/M00/AA/48/pYYBAGR9PJGAVpMAAADxspcG71s604.svg

正如我們所料,評論的長度各不相同。為了每次處理一小批此類評論,我們將每個評論的長度設置為 500,并進行截斷和填充,這類似于第 10.5 節中機器翻譯數據集的預處理 步驟

num_steps = 500 # sequence length
train_features = torch.tensor([d2l.truncate_pad(
  vocab[line], num_steps, vocab['']) for line in train_tokens])
print(train_features.shape)
torch.Size([25000, 500])
num_steps = 500 # sequence length
train_features = np.array([d2l.truncate_pad(
  vocab[line], num_steps, vocab['']) for line in train_tokens])
print(train_features.shape)
(25000, 500)

16.1.3。創建數據迭代器

現在我們可以創建數據迭代器。在每次迭代中,返回一小批示例。

train_iter = d2l.load_array((train_features, torch.tensor(train_data[1])), 64)

for X, y in train_iter:
  print('X:', X.shape, ', y:', y.shape)
  break
print('# batches:', len(train_iter))
X: torch.Size([64, 500]) , y: torch.Size([64])
# batches: 391
train_iter = d2l.load_array((train_features, train_data[1]), 64)

for X, y in train_iter:
  print('X:', X.shape, ', y:', y.shape)
  break
print('# batches:', len(train_iter))
X: (64, 500) , y: (64,)
# batches: 391

下載該資料的人也在下載 下載該資料的人還在閱讀
更多 >

評論

查看更多

下載排行

本周

  1. 1U盤一鍵制作
  2. 23.84 MB   |  3次下載  |  免費
  3. 2ch341驅動
  4. 0.18 MB   |  1次下載  |  免費
  5. 3貼片電阻阻值代號
  6. 0.08 MB   |  1次下載  |  1 積分
  7. 4DS-CM5A H24-CN-V2
  8. 524.28 KB  |  1次下載  |  免費
  9. 5基于Linux的液晶顯示屏驅動技術的研究與應用
  10. 14.59 MB   |  次下載  |  1 積分
  11. 6研華AIMB-218工控主板用戶手冊
  12. 4.45 MB   |  次下載  |  1 積分
  13. 7研華AIMB-275工控主板用戶手冊
  14. 3.11 MB   |  次下載  |  1 積分
  15. 8ST NPI 新上架產品【DCP0606Y】
  16. 1.35 MB  |  次下載  |  免費

本月

  1. 1人形機器人電機驅動和傳感報告
  2. 4.27 MB   |  60次下載  |  免費
  3. 2晶體三極管的電流放大作用詳細說明
  4. 0.77 MB   |  32次下載  |  2 積分
  5. 3九陽豆漿機高清原理圖
  6. 2.47 MB   |  31次下載  |  1 積分
  7. 4雙極型三極管放大電路的三種基本組態的學習課件免費下載
  8. 4.03 MB   |  25次下載  |  1 積分
  9. 5多級放大電路的學習課件免費下載
  10. 1.81 MB   |  21次下載  |  2 積分
  11. 6Altium Designer元件庫
  12. 17.11 MB   |  11次下載  |  免費
  13. 7STM32F10xxx單片機編程手冊
  14. 0.29 MB   |  5次下載  |  免費
  15. 8HT8691R內置BOOST升壓模塊的D類音頻功率放大器中文手冊
  16. 1.77 MB   |  4次下載  |  免費

總榜

  1. 1matlab軟件下載入口
  2. 未知  |  935127次下載  |  10 積分
  3. 2開源硬件-PMP21529.1-4 開關降壓/升壓雙向直流/直流轉換器 PCB layout 設計
  4. 1.48MB  |  420063次下載  |  10 積分
  5. 3Altium DXP2002下載入口
  6. 未知  |  233089次下載  |  10 積分
  7. 4電路仿真軟件multisim 10.0免費下載
  8. 340992  |  191382次下載  |  10 積分
  9. 5十天學會AVR單片機與C語言視頻教程 下載
  10. 158M  |  183339次下載  |  10 積分
  11. 6labview8.5下載
  12. 未知  |  81586次下載  |  10 積分
  13. 7Keil工具MDK-Arm免費下載
  14. 0.02 MB  |  73814次下載  |  10 積分
  15. 8LabVIEW 8.6下載
  16. 未知  |  65988次下載  |  10 積分
主站蜘蛛池模板: 国产叼嘿免费视频网站 | 特级黄毛片 | 扒开末成年粉嫩的流白浆视频 | 五月婷婷久 | 五月激情综合婷婷 | 亚洲91色| 日本一级高清不卡视频在线 | 欧美成人生活片 | 免费免播放器在线视频观看 | 丁香亚洲综合五月天婷婷 | 一级毛片视屏 | 手机精品视频在线观看免费 | 性生活毛片| 婷婷深爱| 色老二精品视频在线观看 | 老师下面很湿很爽很紧 | 伊人婷婷涩六月丁香七月 | 精品久久久久久婷婷 | 成人三级在线播放线观看 | 手机看片日韩在线 | 无遮挡很爽很污很黄很色的网站 | 海外毛片| 视频在线观看免费网站 | 97狠狠操| 特级黄aaaaaaaaa毛片 | 天天爽天天干 | 日本三级日本三级人妇三级四 | 欧美一区二区影院 | 正在播放国产巨作 | 国产精品久久久久久久久久妇女 | 丁香六月啪| 美女三级黄 | 亚洲国产精品国产自在在线 | 手机在线观看你懂得 | 美日韩免费视频 | 亚洲综合色丁香婷婷六月图片 | 性欧美人与zooz | 毛片你懂的 | 日本三级免费 | 亚洲乱码卡一卡二卡三永久 | 成人亚洲欧美综合 |