旷世神医,盗墓笔记第二季,有声小说下载

作者：算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力

近日，荷蘭科學(xué)家Raz發(fā)布了Reinforce-Lite算法，實(shí)現(xiàn)了在 48GB顯存的顯卡上僅用 12 小時在3B模型上重現(xiàn)DeepSeek“Wait!/Aha”時刻。

原文鏈接：https://medium.com/@rjusnba/overnight-end-to-end-rl-training-a-3b-model-on-a-grade-school-math-dataset-leads-to-reasoning-df61410c04c6
滑動查看更多

一，Reinforce-Lite算法的顯存要求

Raz通過移除KL，移除替代比率，去掉評論模型，使用組相對獎勵（DeepSeek的GRPO風(fēng)格）進(jìn)行優(yōu)勢計(jì)算，提出了一種更簡單、更穩(wěn)定、更高效的輕量級強(qiáng)化學(xué)習(xí)方法：Reinforce-Lite，使得顯存需求，從72GB下降到36GB！下表是：端到端的用強(qiáng)化學(xué)習(xí)訓(xùn)練 3B 模型的顯存需求。

二，Reinforce-Lite算法的PyTorch實(shí)現(xiàn)

Reinforce-lite算法的PyTorch實(shí)現(xiàn)如下所示：

第一步，初始化一個指令微調(diào)的LLM，并適當(dāng)提示以將其推理步驟包含在標(biāo)簽中。

第二步，定義一個獎勵函數(shù)用于模型輸出（例如，GSM8K數(shù)學(xué)推理任務(wù)中的正確性）。通過正則表達(dá)式提取標(biāo)簽中的數(shù)值，并與數(shù)據(jù)集中的實(shí)際答案進(jìn)行比較。

第三步，通過直接計(jì)算相對于獎勵的梯度來優(yōu)化策略，而不需要替代損失。

第四步，使用組相對歸一化進(jìn)行優(yōu)勢計(jì)算，消除了對評論模型的需求。我們使用組大小為10。

第五步，使用標(biāo)準(zhǔn)對數(shù)概率梯度更新模型。

def reinforce_lite(batch, policy_model, tokenizer, device, step, save_dir):
"""
使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練策略模型。

Args:
batch (list of tuples): 包含提示和目標(biāo)句子的列表。
policy_model (torch.nn.Module): 策略模型，用于生成響應(yīng)。
tokenizer (transformers.PreTrainedTokenizer): 用于處理文本的標(biāo)記器。
device (torch.device): 指定模型運(yùn)行的設(shè)備。
step (int): 當(dāng)前訓(xùn)練步數(shù)。
save_dir (str): 保存模型的目錄。

Returns:
tuple: 包含策略損失、平均獎勵、策略損失項(xiàng)、0.0、第一個響應(yīng)和所有響應(yīng)的長度。

"""
# 設(shè)置模型為訓(xùn)練模式
policy_model.train()
# 解包輸入數(shù)據(jù)
prompts, targets = zip(*batch)
# 獲取批量大小
batch_size = len(prompts)
# 初始化評估組索引
evaluated_group = 0

# 初始化存儲列表
all_logprobs = []
all_rewards = []
all_responses = []
all_lengths = []

for group_idx in range(config.GROUP_SIZE):
# 格式化提示
formatted_prompts = [format_prompt(p, tokenizer) for p in prompts]
# 將提示轉(zhuǎn)換為模型輸入
inputs = tokenizer(
formatted_prompts,
return_tensors="pt",
padding=True,
truncation=True,
max_length=config.MAX_SEQ_LENGTH
).to(device)

# 生成參數(shù)
generate_kwargs = {
**inputs,
"max_new_tokens": config.MAX_NEW_TOKENS,
"do_sample": True,
"temperature": 0.7,
"top_p": 0.9,
"pad_token_id": tokenizer.pad_token_id,
"return_dict_in_generate": True,
}

# 判斷當(dāng)前組是否為評估組
if group_idx == evaluated_group:
# 生成響應(yīng)
generated = policy_model.generate(**generate_kwargs)
# 獲取生成的響應(yīng)ID
generated_ids = generated.sequences
# 獲取模型輸出
outputs = policy_model(
generated_ids,
attention_mask=(generated_ids != tokenizer.pad_token_id).long()
)
# 獲取提示長度和響應(yīng)長度
prompt_length = inputs.input_ids.shape[1]
response_length = generated_ids.shape[1] - prompt_length
# 計(jì)算對數(shù)概率
if response_length > 0:
logits = outputs.logits[:, prompt_length-1:-1, :]
response_tokens = generated_ids[:, prompt_length:]
log_probs = torch.log_softmax(logits, dim=-1)
token_log_probs = torch.gather(log_probs, -1, response_tokens.unsqueeze(-1)).squeeze(-1)
sequence_log_probs = token_log_probs.sum(dim=1)
else:
sequence_log_probs = torch.zeros(batch_size, device=device)
else:
# 在不計(jì)算梯度的情況下生成響應(yīng)
with torch.no_grad():
generated = policy_model.generate(**generate_kwargs)
sequence_log_probs = torch.zeros(batch_size, device=device)

# 解碼生成的響應(yīng)
responses = tokenizer.batch_decode(
generated.sequences[:, inputs.input_ids.shape[1]:],
skip_special_tokens=True
)
# 計(jì)算獎勵
rewards = torch.tensor([get_reward(resp, tgt) for resp, tgt in zip(responses, targets)], device=device)

# 存儲結(jié)果
all_responses.extend(responses)
all_rewards.append(rewards)
all_logprobs.append(sequence_log_probs)
all_lengths.extend([len(r.split()) for r in responses])

# 堆疊獎勵和對數(shù)概率
rewards_tensor = torch.stack(all_rewards)
logprobs_tensor = torch.stack(all_logprobs)

# 分離評估組的獎勵和其他組的獎勵
evaluated_rewards = rewards_tensor[evaluated_group]
others_rewards = torch.cat([
rewards_tensor[:evaluated_group],
rewards_tensor[evaluated_group+1:]
], dim=0)

# 計(jì)算基線值
baseline = others_rewards.mean(dim=0)
# 計(jì)算優(yōu)勢
advantages = (evaluated_rewards - baseline) / (others_rewards.std(dim=0) + 1e-8)
advantages = torch.clamp(advantages, -2.0, 2.0)

# 計(jì)算策略損失
policy_loss = -(logprobs_tensor[evaluated_group] * advantages.detach()).mean()

return policy_loss, rewards_tensor.mean().item(), policy_loss.item(), 0.0, all_responses[0], all_lengths
滑動查看更多

三，Reinforce-Lite算法的數(shù)據(jù)集：GSM 8K

Reinforce-Lite使用GSM8K數(shù)據(jù)集：這是一個小學(xué)數(shù)學(xué)數(shù)據(jù)集，包含數(shù)學(xué)問題及其答案，格式如下：

雖然答案也涉及推理步驟，但我們感興趣的是 ### 之后的最終答案。我們將簡單地提示策略模型以格式輸出最終答案，并使用它來驗(yàn)證策略模型計(jì)算出的答案是否正確。這更像是蒙特卡洛問題，我們會在情節(jié)結(jié)束時獲得獎勵。

Reinforce-Lite的完整實(shí)現(xiàn)方式和訓(xùn)練過程，Raz將很快開源！敬請期待。

四，DeepSeek：快速生成PPT大綱

Reinforce-Lite 改進(jìn)了結(jié)構(gòu)化推理：從生成的序列中我們可以看到 RL 微調(diào)模型，評估分?jǐn)?shù)略有提高。

Reinforce-Lite 不需要 PPO 的復(fù)雜性：單個策略網(wǎng)絡(luò)足以進(jìn)行 LLM 微調(diào)。

Reinforce-Lite 是一種計(jì)算友好的算法，允許端到端 RL 訓(xùn)練，同時最大限度地降低訓(xùn)練復(fù)雜性和顯存的需求，讓AI平權(quán)的時代可盡快到來。

人人都能在自己的48GB顯存顯卡上，重現(xiàn)DeepSeek“Wait!/Aha”時刻！另外，需要48GB顯存的顯卡，請聯(lián)系我們！

如果你有更好的文章，歡迎投稿！

稿件接收郵箱：[email protected]

更多精彩內(nèi)容請關(guān)注“算力魔方?”！

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

顯卡

顯卡

+關(guān)注

關(guān)注
16

文章
2496

瀏覽量
68993
AI

AI

+關(guān)注

關(guān)注
87

文章
33510

瀏覽量
274085
DeepSeek

DeepSeek

+關(guān)注

關(guān)注
1

文章
754

瀏覽量
992

在龍芯3a6000上部署DeepSeek 和 Gemma2大模型

ollama常用命令列出已下載的大模型 $ ollama list 6.參考鏈接在3a6000上玩deepseek-r1大模型

發(fā)表于 02-07 19:35

【實(shí)測】用全志A733平板搭建一個端側(cè)Deepseek算力平臺

是Deepseek-R1-Distill-Qwen-1.5B 是可以在全志A733芯片平臺的平板電腦上較流暢地運(yùn)行的，并且可以讓Deepseek擁有中學(xué)生級別的邏輯推理能力。而這才是一

發(fā)表于 02-13 10:19

HarmonyOS NEXT開發(fā)實(shí)戰(zhàn)：DevEco Studio中DeepSeek的使用

。安裝完成后，打開DevEco Studio，創(chuàng)建一個新的鴻蒙應(yīng)用項(xiàng)目，選擇適合的模板（如Empty Ability）。第二步：安裝CodeGPT插件在DevEco Studio上安裝插件：打開

發(fā)表于 03-07 14:56

如何基于Android 14在i.MX95 EVK上運(yùn)行Deepseek-R1-1.5B和性能

本文檔總結(jié)了如何基于 Android 14 在 i.MX95 EVK 上運(yùn)行 Deepseek-R1-1.5B 和性能。 1. Install Android 14 on i.MX95 您可以按照

發(fā)表于 04-04 06:59

NVIDIA不放棄12nm圖靈顯卡，將推出8GB版RTX 2060

就在大家翹首以盼NVIDIA在GTC大會上宣布7nm安培顯卡的同時，最新消息顯示NVIDIA不會這么快放棄12nm圖靈顯卡，還將推出RTX 2060

發(fā)表于 03-12 09:04 ?2049次閱讀

曝NVIDIA將推出RTX 2060顯卡的8GB顯存版仍不放棄12nm圖靈顯卡

就在大家翹首以盼NVIDIA在GTC大會上宣布7nm安培顯卡的同時，最新消息顯示NVIDIA不會這么快放棄12nm圖靈顯卡，還將推出RTX 2060

發(fā)表于 03-12 10:00 ?2800次閱讀

RTX 3080 20GB顯卡復(fù)活本月即將上市

此前一度被傳取消的RTX 3080 20GB顯卡似乎復(fù)活了，日前在EEC歐亞經(jīng)濟(jì)聯(lián)盟上發(fā)現(xiàn)了多款微星RX 3080 20GB

發(fā)表于 12-01 08:56 ?1969次閱讀

英偉達(dá)正式發(fā)布RTX 3060 顯卡：12GB 顯存

今天，英偉達(dá)正式發(fā)布了 RTX 3060 顯卡，這款顯卡擁有比 RTX 3060 Ti 更大的 12GB 顯存，售價為 329 美元。 RTX 3060 采用了 3584 CUDA 核心，GPU

發(fā)表于 01-13 10:02 ?5095次閱讀

微星推出面向Mini-ITX主機(jī)/主板的RTX 3060 12GB顯卡

安培家族終于有了更入門的RTX 3060顯卡，而且顯存越級RTX 3080，給到了12GB的GDDR6，不得不服黃氏迷蹤刀法。

發(fā)表于 01-18 09:18 ?5820次閱讀

NVIDIA推出了RTX 3060顯卡 12GB顯存超過RTX 3080

上周的CES展會上，NVIDIA推出了RTX 3060顯卡，這是RTX 30系列第六款成員，售價只要2499元，但配備了12GB GDDR6顯存。在顯存容量上，RTX 3060這次的

發(fā)表于 01-21 10:12 ?4006次閱讀

NVIDIA正式宣布其基于Ampere GPU架構(gòu)的GeForce RTX 3060 12 GB顯卡

NVIDIA GeForce RTX 3060顯卡旨在成為主流的Ampere GPU選項(xiàng)，價格低于500美元。該顯卡的建議零售價為329美元，這使RTX 3060成為有史以來最實(shí)惠的12 GB

發(fā)表于 01-27 15:38 ?3884次閱讀

新型DDR5內(nèi)存的應(yīng)用

各家的Intel 600、700系列主板都已陸續(xù)更新BIOS，搭檔12代、13代酷睿，可以順利使用24GB、48GB內(nèi)存，AMD平臺呢？

發(fā)表于 03-27 14:27 ?609次閱讀

集成在主板上的獨(dú)立顯卡是屬于集成顯卡還是獨(dú)立顯卡的范圍？

集成在主板上的獨(dú)立顯卡是屬于集成顯卡還是獨(dú)立顯卡的范圍？集成在主板

發(fā)表于 01-09 14:20 ?1015次閱讀

SK海力士推出48GB 16層HBM3E產(chǎn)品

近日在一次科技展覽上，SK海力士驚艷亮相，展出了全球首款48GB 16層HBM3E(High Bandwidth Memory 3E)產(chǎn)品。這一突破性產(chǎn)品不僅展示了SK海力士在高端存儲

發(fā)表于 11-05 15:01 ?647次閱讀

DeepSeek在昇騰上的模型部署的常見問題及解決方案

2024年12月26日，DeepSeek-V3橫空出世，以其卓越性能備受矚目。該模型發(fā)布即支持昇騰，用戶可在昇騰硬件和MindIE推理引擎上實(shí)現(xiàn)高效推理，但在實(shí)際操作中，部署流程與常見問題困擾著不少

發(fā)表于 03-25 16:53 ?561次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

在 48GB 顯卡上僅用 12 小時重現(xiàn)DeepSeek“Wait!/Aha”時刻

評論

在龍芯3a6000上部署DeepSeek 和 Gemma2大模型

【實(shí)測】用全志A733平板搭建一個端側(cè)Deepseek算力平臺

HarmonyOS NEXT開發(fā)實(shí)戰(zhàn)：DevEco Studio中DeepSeek的使用

如何基于Android 14在i.MX95 EVK上運(yùn)行Deepseek-R1-1.5B和性能

NVIDIA不放棄12nm圖靈顯卡，將推出8GB版RTX 2060

曝NVIDIA將推出RTX 2060顯卡的8GB顯存版仍不放棄12nm圖靈顯卡

RTX 3080 20GB顯卡復(fù)活本月即將上市

英偉達(dá)正式發(fā)布RTX 3060 顯卡：12GB 顯存

微星推出面向Mini-ITX主機(jī)/主板的RTX 3060 12GB顯卡

NVIDIA推出了RTX 3060顯卡 12GB顯存超過RTX 3080

NVIDIA正式宣布其基于Ampere GPU架構(gòu)的GeForce RTX 3060 12 GB顯卡

新型DDR5內(nèi)存的應(yīng)用

集成在主板上的獨(dú)立顯卡是屬于集成顯卡還是獨(dú)立顯卡的范圍？

SK海力士推出48GB 16層HBM3E產(chǎn)品

DeepSeek在昇騰上的模型部署的常見問題及解決方案