在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

電子發燒友App

硬聲App

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示
電子發燒友網>電子資料下載>電子資料>PyTorch教程10.5之機器翻譯和數據集

PyTorch教程10.5之機器翻譯和數據集

2023-06-05 | pdf | 0.30 MB | 次下載 | 免費

資料介紹

在引起人們對現代 RNN 廣泛興趣的重大突破中,有一項是統計機器翻譯應用領域的重大進展 。在這里,模型以一種語言的句子呈現,并且必須預測另一種語言的相應句子。請注意,由于兩種語言的語法結構不同,這里的句子可能有不同的長度,并且兩個句子中相應的詞可能不會以相同的順序出現。

許多問題都具有這種在兩個這樣的“未對齊”序列之間進行映射的風格。示例包括從對話提示到回復或從問題到答案的映射。廣義上,此類問題稱為 序列到序列(seq2seq) 問題,它們是本章剩余部分和 第 11 節大部分內容的重點。

在本節中,我們將介紹機器翻譯問題和我們將在后續示例中使用的示例數據集。幾十年來,語言間翻譯的統計公式一直很流行 Brown等人,1990 年Brown等人,1988 年,甚至在研究人員使神經網絡方法起作用之前(這些方法通常被統稱為神經機器翻譯)。

首先,我們需要一些新代碼來處理我們的數據。與我們在9.3 節中看到的語言建模不同,這里的每個示例都包含兩個單獨的文本序列,一個是源語言,另一個(翻譯)是目標語言。以下代碼片段將展示如何將預處理后的數據加載到小批量中進行訓練。

import os
import torch
from d2l import torch as d2l
import os
from mxnet import np, npx
from d2l import mxnet as d2l

npx.set_np()
import os
from jax import numpy as jnp
from d2l import jax as d2l
No GPU/TPU found, falling back to CPU. (Set TF_CPP_MIN_LOG_LEVEL=0 and rerun for more info.)
import os
import tensorflow as tf
from d2l import tensorflow as d2l

10.5.1。下載和預處理數據集

首先,我們 從 Tatoeba Project 下載由雙語句子對組成的英法數據集。數據集中的每一行都是一個制表符分隔的對,由一個英文文本序列和翻譯后的法文文本序列組成。請注意,每個文本序列可以只是一個句子,也可以是一段多句。在這個英語翻譯成法語的機器翻譯問題中,英語被稱為源語言,法語被稱為目標語言

class MTFraEng(d2l.DataModule): #@save
  """The English-French dataset."""
  def _download(self):
    d2l.extract(d2l.download(
      d2l.DATA_URL+'fra-eng.zip', self.root,
      '94646ad1522d915e7b0f9296181140edcf86a4f5'))
    with open(self.root + '/fra-eng/fra.txt', encoding='utf-8') as f:
      return f.read()

data = MTFraEng()
raw_text = data._download()
print(raw_text[:75])
Downloading ../data/fra-eng.zip from http://d2l-data.s3-accelerate.amazonaws.com/fra-eng.zip...
Go. Va !
Hi. Salut !
Run!    Cours?!
Run!    Courez?!
Who?    Qui ?
Wow!    ?a alors?!
class MTFraEng(d2l.DataModule): #@save
  """The English-French dataset."""
  def _download(self):
    d2l.extract(d2l.download(
      d2l.DATA_URL+'fra-eng.zip', self.root,
      '94646ad1522d915e7b0f9296181140edcf86a4f5'))
    with open(self.root + '/fra-eng/fra.txt', encoding='utf-8') as f:
      return f.read()

data = MTFraEng()
raw_text = data._download()
print(raw_text[:75])
Go. Va !
Hi. Salut !
Run!    Cours?!
Run!    Courez?!
Who?    Qui ?
Wow!    ?a alors?!
class MTFraEng(d2l.DataModule): #@save
  """The English-French dataset."""
  def _download(self):
    d2l.extract(d2l.download(
      d2l.DATA_URL+'fra-eng.zip', self.root,
      '94646ad1522d915e7b0f9296181140edcf86a4f5'))
    with open(self.root + '/fra-eng/fra.txt', encoding='utf-8') as f:
      return f.read()

data = MTFraEng()
raw_text = data._download()
print(raw_text[:75])
Go. Va !
Hi. Salut !
Run!    Cours?!
Run!    Courez?!
Who?    Qui ?
Wow!    ?a alors?!
class MTFraEng(d2l.DataModule): #@save
  """The English-French dataset."""
  def _download(self):
    d2l.extract(d2l.download(
      d2l.DATA_URL+'fra-eng.zip', self.root,
      '94646ad1522d915e7b0f9296181140edcf86a4f5'))
    with open(self.root + '/fra-eng/fra.txt', encoding='utf-8') as f:
      return f.read()

data = MTFraEng()
raw_text = data._download()
print(raw_text[:75])
Go. Va !
Hi. Salut !
Run!    Cours?!
Run!    Courez?!
Who?    Qui ?
Wow!    ?a alors?!

下載數據集后,我們對原始文本數據進行幾個預處理步驟。例如,我們將不間斷空格替換為空格,將大寫字母轉換為小寫字母,在單詞和標點符號之間插入空格。

@d2l.add_to_class(MTFraEng) #@save
def _preprocess(self, text):
  # Replace non-breaking space with space
  text = text.replace('\u202f', ' ').replace('\xa0', ' ')
  # Insert space between words and punctuation marks
  no_space = lambda char, prev_char: char in ',.!?' and prev_char != ' '
  out = [' ' + char if i > 0 and no_space(char, text[i - 1]) else char
      for i, char in enumerate(text.lower())]
  return ''.join(out)

text = data._preprocess(raw_text)
print(text[:80])
go .    va !
hi .    salut !
run !    cours !
run !    courez !
who ?    qui ?
wow !    ?a alors !
@d2l.add_to_class(MTFraEng) #@save
def _preprocess(self, text):
  # Replace non-breaking space with space
  text = text.replace('\u202f', ' ').replace('\xa0', ' ')
  # Insert space between words and punctuation marks
  no_space = lambda char, prev_char: char in ',.!?' and prev_char != ' '
  out = [' ' + char if i > 0 and no_space(char, text[i - 1]) else char
      for i, char in enumerate(text.lower())]
  return ''.join(out)

text = data._preprocess(raw_text)
print(text[:80])
go .    va !
hi .    salut !
run !    cours !
run !    courez !
who ?    qui ?
wow !    ?a alors !
@d2l.add_to_class(MTFraEng) #@save
def _preprocess(self, text):
  # Replace non-breaking space with space
  text = text.replace('\u202f', ' ').replace('\xa0', ' ')
  # Insert space between words and punctuation marks
  no_space = lambda char, prev_char: char in ',.!?' and prev_char != ' '
  out = [' ' + char if i > 0 and no_space(char, text[i - 1]) else char
      for i, char in enumerate(text.lower())]
  return ''.join(out)

text = data._preprocess(raw_text)
print(text[:80])
go .    va !
hi .    salut !
run !    cours !
run !    courez !
who ?    qui ?
wow !    ?a alors !
@d2l.add_to_class(MTFraEng) #@save
def _preprocess(self, text):
  # Replace non-breaking space with space
  text = text.replace('\u202f', ' ').replace('\xa0', ' ')
  # Insert space between words and punctuation marks
  no_space = lambda char, prev_char: char in ',.!?' and prev_char != ' '
  out = [' ' + char if i > 0 and no_space(char, text[i - 1]) else char
      for i, char in enumerate(text.lower())]
  return ''.join(out)

text = data._preprocess(raw_text)
print(text[:80])
go .    va !
hi .    salut !
run !    cours !
run !    courez !
who ?    qui ?
wow !    ?a alors !

10.5.2。代幣化

與第 9.3 節中的字符級標記化不同 ,對于機器翻譯,我們在這里更喜歡單詞級標記化(當今最先進的模型使用更復雜的標記化技術)。以下_tokenize方法對第一個max_examples文本序列對進行分詞,其中每個分詞要么是一個單詞,要么是一個標點符號。我們將特殊的“”標記附加到每個序列的末尾,以指示序列的結束。當模型通過生成一個接一個標記的序列標記進行預測時,“”標記的生成表明輸出序列是完整的。最后,下面的方法返回兩個令牌列表列表:srctgt。具體來說,src[i]是來自ith源語言(此處為英語)的文本序列和tgt[i]目標語言(此處為法語)的文本序列。


下載該資料的人也在下載 下載該資料的人還在閱讀
更多 >

評論

查看更多

下載排行

本周

  1. 1涂鴉各WiFi模塊原理圖加PCB封裝
  2. 11.75 MB   |  76次下載  |  1 積分
  3. 2錦銳科技CA51F2 SDK開發包
  4. 24.06 MB   |  29次下載  |  1 積分
  5. 3錦銳CA51F005 SDK開發包
  6. 19.47 MB   |  3次下載  |  1 積分
  7. 4蘋果iphone 11電路原理圖
  8. 4.98 MB   |  3次下載  |  2 積分
  9. 5基礎模擬電子電路
  10. 3.80 MB   |  3次下載  |  1 積分
  11. 6RA-Eco-RA6M4-100PIN-V1.0開發板資料
  12. 34.89 MB  |  1次下載  |  免費
  13. 7STM32F3系列、STM32F4系列、STM32L4系列和STM32L4+系列Cortex-M4編程手冊
  14. 3.32 MB   |  1次下載  |  免費
  15. 8聯想A820t手機維修圖紙包括主板原理圖 尾板原理圖 點位圖
  16. 0.62 MB   |  次下載  |  5 積分

本月

  1. 1AI智能眼鏡產業鏈分析
  2. 4.43 MB   |  383次下載  |  免費
  3. 2蘇泊爾電磁爐線路的電路原理圖資料合集
  4. 2.02 MB   |  296次下載  |  5 積分
  5. 3貼片三極管上的印字與真實名稱的對照表詳細說明
  6. 0.50 MB   |  94次下載  |  1 積分
  7. 4長虹液晶電視R-HS310B-5HF01的電源板電路原理圖
  8. 0.46 MB   |  91次下載  |  5 積分
  9. 5涂鴉各WiFi模塊原理圖加PCB封裝
  10. 11.75 MB   |  76次下載  |  1 積分
  11. 6錦銳科技CA51F2 SDK開發包
  12. 24.06 MB   |  29次下載  |  1 積分
  13. 7AO4803A雙P通道增強型場效應晶體管的數據手冊
  14. 0.11 MB   |  28次下載  |  2 積分
  15. 8長虹液晶彩電LS29機芯的技術資料說明
  16. 3.42 MB   |  16次下載  |  2 積分

總榜

  1. 1matlab軟件下載入口
  2. 未知  |  935127次下載  |  10 積分
  3. 2開源硬件-PMP21529.1-4 開關降壓/升壓雙向直流/直流轉換器 PCB layout 設計
  4. 1.48MB  |  420064次下載  |  10 積分
  5. 3Altium DXP2002下載入口
  6. 未知  |  233089次下載  |  10 積分
  7. 4電路仿真軟件multisim 10.0免費下載
  8. 340992  |  191388次下載  |  10 積分
  9. 5十天學會AVR單片機與C語言視頻教程 下載
  10. 158M  |  183342次下載  |  10 積分
  11. 6labview8.5下載
  12. 未知  |  81588次下載  |  10 積分
  13. 7Keil工具MDK-Arm免費下載
  14. 0.02 MB  |  73815次下載  |  10 積分
  15. 8LabVIEW 8.6下載
  16. 未知  |  65988次下載  |  10 積分
主站蜘蛛池模板: 国产不卡毛片 | 欧美成人午夜不卡在线视频 | 丝袜美女被 | www.亚洲色图.com | 久久精品亚洲一区二区三区浴池 | 国产女人伦码一区二区三区不卡 | 一级毛毛片毛片毛片毛片在线看 | 女人爽到喷水的视频大全在线观看 | 特黄特色 | 龙口护士门91午夜国产在线 | 偷操| 中国一级毛片aaa片 中国一级特黄aa毛片大片 | 夜夜爱成人免费网站 | 国产日韩精品一区二区在线观看 | 欧美午夜性春猛交bbb | 天堂视频在线免费观看 | 天堂网在线播放 | aaaa视频| 欧美视频一区二区三区在线观看 | 欧美性一区二区三区五区 | 波多野结衣一级特黄毛片 | 日韩免费观看的一级毛片 | 亚洲精品福利网站 | 泰剧天堂 | 日本人69xxxxx | 黄色免费小视频 | 国产91啪| 免费美剧在线观看 | 伊人91在线 | 国产叼嘿网站免费观看不用充会员 | 婷婷综合五月天 | 六九视频在线观看 | 国产精品久久久亚洲第一牛牛 | 亚洲精品电影天堂网 | 手机看片1024手机在线观看 | 婷婷六月综合 | 成年女人色费视频免费 | 日韩一级精品视频在线观看 | 免费看黄的视频软件 | 色婷婷一区二区三区四区成人 | 五月国产综合视频在线观看 |