在本章前面的部分中,我們?yōu)?SNLI 數(shù)據(jù)集上的自然語言推理任務(wù)(如第 16.4 節(jié)所述)設(shè)計(jì)了一個(gè)基于注意力的架構(gòu)(第16.5節(jié))。現(xiàn)在我們通過微調(diào) BERT 重新審視這個(gè)任務(wù)。正如16.6 節(jié)所討論的 ,自然語言推理是一個(gè)序列級(jí)文本對(duì)分類問題,微調(diào) BERT 只需要一個(gè)額外的基于 MLP 的架構(gòu),如圖 16.7.1所示。
圖 16.7.1本節(jié)將預(yù)訓(xùn)練的 BERT 提供給基于 MLP 的自然語言推理架構(gòu)。
在本節(jié)中,我們將下載預(yù)訓(xùn)練的小型 BERT 版本,然后對(duì)其進(jìn)行微調(diào)以在 SNLI 數(shù)據(jù)集上進(jìn)行自然語言推理。
16.7.1。加載預(yù)訓(xùn)練的 BERT
我們已經(jīng)在第 15.9 節(jié)和第 15.10 節(jié)中解釋了如何在 WikiText-2 數(shù)據(jù)集上預(yù)訓(xùn)練 BERT (請(qǐng)注意,原始 BERT 模型是在更大的語料庫上預(yù)訓(xùn)練的)。如15.10 節(jié)所述,原始 BERT 模型有數(shù)億個(gè)參數(shù)。在下文中,我們提供了兩個(gè)版本的預(yù)訓(xùn)練 BERT:“bert.base”與需要大量計(jì)算資源進(jìn)行微調(diào)的原始 BERT 基礎(chǔ)模型差不多大,而“bert.small”是一個(gè)小版本方便演示。
預(yù)訓(xùn)練的 BERT 模型都包含一個(gè)定義詞匯集的“vocab.json”文件和一個(gè)預(yù)訓(xùn)練參數(shù)的“pretrained.params”文件。我們實(shí)現(xiàn)以下load_pretrained_model
函數(shù)來加載預(yù)訓(xùn)練的 BERT 參數(shù)。
def load_pretrained_model(pretrained_model, num_hiddens, ffn_num_hiddens,
num_heads, num_blks, dropout, max_len, devices):
data_dir = d2l.download_extract(pretrained_model)
# Define an empty vocabulary to load the predefined vocabulary
vocab = d2l.Vocab()
vocab.idx_to_token = json.load(open(os.path.join(data_dir, 'vocab.json')))
vocab.token_to_idx = {token: idx for idx, token in enumerate(
vocab.idx_to_token)}
bert = d2l.BERTModel(
len(vocab), num_hiddens, ffn_num_hiddens=ffn_num_hiddens, num_heads=4,
num_blks=2, dropout=0.2, max_len=max_len)
# Load pretrained BERT parameters
bert.load_state_dict(torch.load(os.path.join(data_dir,
'pretrained.params')))
return bert, vocab
def load_pretrained_model(pretrained_model, num_hiddens, ffn_num_hiddens,
num_heads, num_blks, dropout, max_len, devices):
data_dir = d2l.download_extract(pretrained_model)
# Define an empty vocabulary to load the predefined vocabulary
vocab = d2l.Vocab()
vocab.idx_to_token = json.load(open(os.path.join(data_dir, 'vocab.json')))
vocab.token_to_idx = {token: idx for idx, token in enumerate(
vocab.idx_to_token)}
bert = d2l.BERTModel(len(vocab), num_hiddens, ffn_num_hiddens, num_heads,
num_blks, dropout, max_len)
# Load pretrained BERT parameters
bert.load_parameters(os.path.join(data_dir, 'pretrained.params'),
ctx=devices)
return bert, vocab
為了便于在大多數(shù)機(jī)器上進(jìn)行演示,我們將在本節(jié)中加載和微調(diào)預(yù)訓(xùn)練 BERT 的小型版本(“bert.small”)。在練習(xí)中,我們將展示如何微調(diào)更大的“bert.base”以顯著提高測試準(zhǔn)確性。
Downloading ../data/bert.small.torch.zip from http://d2l-data.s3-accelerate.amazonaws.com/bert.small.torch.zip...
16.7.2。微調(diào) BERT 的數(shù)據(jù)集
對(duì)于 SNLI 數(shù)據(jù)集上的下游任務(wù)自然語言推理,我們定義了一個(gè)自定義的數(shù)據(jù)集類SNLIBERTDataset
。在每個(gè)示例中,前提和假設(shè)形成一對(duì)文本序列,并被打包到一個(gè) BERT 輸入序列中,如圖 16.6.2所示。回想第 15.8.4 節(jié) ,段 ID 用于區(qū)分 BERT 輸入序列中的前提和假設(shè)。對(duì)于 BERT 輸入序列 ( max_len
) 的預(yù)定義最大長度,輸入文本對(duì)中較長者的最后一個(gè)標(biāo)記會(huì)不斷被刪除,直到max_len
滿足為止。為了加速生成用于微調(diào) BERT 的 SNLI 數(shù)據(jù)集,我們使用 4 個(gè)工作進(jìn)程并行生成訓(xùn)練或測試示例。
class SNLIBERTDataset(torch.utils.data.Dataset):
def __init__(self, dataset, max_len, vocab=None):
all_premise_hypothesis_tokens = [[
p_tokens, h_tokens] for p_tokens, h_tokens in zip(
*[d2l.tokenize([s.lower() for s in sentences])
for sentences in dataset[:2]])]
self.labels = torch.tensor(dataset[2])
self.vocab = vocab
self.max_len = max_len
(self.all_token_ids, self.all_segments,
self.valid_lens) = self._preprocess(all_premise_hypothesis_tokens)
print('read ' + str(len(self.all_token_ids)) + ' examples')
def _preprocess(self, all_premise_hypothesis_tokens):
pool = multiprocessing.Pool(4) # Use 4 worker processes
out = pool.map(self._mp_worker, all_premise_hypothesis_tokens)
all_token_ids = [
token_ids for token_ids, segments, valid_len in out]
all_segments = [segments for token_ids, segments, valid_len in out]
valid_lens = [valid_len for token_ids, segments, valid_len in out]
return (torch.tensor(all_token_ids, dtype=torch.long),
torch.tensor(all_segments, dtype=torch.long),
torch.tensor(valid_lens))
def _mp_worker(self, premise_hypothesis_tokens):
p_tokens, h_tokens = premise_hypothesis_tokens
self._truncate_pair_of_tokens(p_tokens, h_tokens)
tokens, segments = d2l.get_tokens_and_segments(p_tokens, h_tokens)
token_ids = self.vocab[tokens] + [self.vocab['']] \
* (self.max_len - len(tokens))
segments = segments + [0] * (self.max_len - len(segments))
valid_len = len(tokens)
return token_ids, segments, valid_len
def _truncate_pair_of_tokens(self, p_tokens, h_tokens):
# Reserve slots for '', '', and '' tokens for the BERT
# input
while len(p_tokens) + len(h_tokens) > self.max_len - 3:
if len(p_tokens) > len(h_tokens):
p_tokens.pop()
else:
h_tokens.pop()
def __getitem__(self, idx):
return (self.all_token_ids[idx], self.all_segments[idx],
self.valid_lens[idx]), self.labels[idx]
def __len__(self):
return len(self.all_token_ids)
class SNLIBERTDataset(gluon.data.Dataset):
def __init__(self, dataset, max_len, vocab=None):
all_premise_hypothesis_tokens = [[
p_tokens, h_tokens
評(píng)論