Transformer — PyTorch 2.5 文档 - PyTorch 机器学习库

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

强健的柚子 · 2002年以来湖南宗教工作实践成果综述：凝心 ...· 1 月前 ·

帅气的稀饭 · 从ISSCC ...· 6 月前 ·

非常酷的双杠 · 厦门BRT爆炸案嫌疑犯厌世自焚_宏观_华夏时 ...· 7 月前 ·

老实的稀饭 · “功夫小子”堕落史：本是人畜无害俊小生 ...· 7 月前 ·

个性的大海 · 环境属性和其他软件设置 - AWS ...· 1 年前 ·

class torch.nn. Transformer ( d_model=512 , nhead=8 , num_encoder_layers=6 , num_decoder_layers=6 , dim_feedforward=2048 , dropout=0.1 , activation=<function relu> , custom_encoder=None , custom_decoder=None , layer_norm_eps=1e-05 , batch_first=False , norm_first=False , bias=True , device=None , dtype=None ) [source] ¶

一个 Transformer 模型。

用户可以根据需要修改属性。该架构基于论文“Attention Is All You Need”。Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N Gomez、Lukasz Kaiser 和 Illia Polosukhin。2017。Attention is all you need。在神经信息处理系统进展中，第 6000-6010 页。

d_model ( int ) – 编码器/解码器输入中预期特征的数量（默认为 512）。

nhead ( int ) – 多头注意力模型中的头数（默认为 8）。

num_encoder_layers ( int ) – 编码器中的子编码器层数（默认为 6）。

num_decoder_layers ( int ) – 解码器中的子解码器层数（默认为 6）。

dim_feedforward ( int ) – 前馈网络模型的维度（默认为 2048）。

dropout ( float ) – dropout 值（默认为 0.1）。

activation ( Union [ str , Callable [ [ Tensor ] , Tensor ] ] ) – 编码器/解码器中间层的激活函数，可以是字符串（“relu” 或 “gelu”）或一元可调用对象。默认值：relu

custom_encoder ( Optional [ Any ] ) – 自定义编码器（默认为 None）。

custom_decoder ( Optional [ Any ] ) – 自定义解码器（默认为 None）。

layer_norm_eps ( float ) – 层归一化组件中的 eps 值（默认为 1e-5）。

batch_first ( bool ) – 如果为 True ，则输入和输出张量将作为 (batch, seq, feature) 提供。默认值： False (seq, batch, feature)。

norm_first ( bool ) – 如果为 True ，则编码器和解码器层将在其他注意力和前馈操作之前执行层归一化，否则在之后执行。默认值： False (之后)。

bias ( bool ) – 如果设置为 False ，则 Linear 和 LayerNorm 层将不会学习加性偏差。默认值： True 。

示例：

>>> transformer_model = nn.Transformer(nhead=16, num_encoder_layers=12)
>>> src = torch.rand((10, 32, 512))
>>> tgt = torch.rand((20, 32, 512))
>>> out = transformer_model(src, tgt)
注意：在 https://github.com/pytorch/examples/tree/master/word_language_model 中提供了将 nn.Transformer 模块应用于词语语言模型的完整示例。
forward(src, tgt, src_mask=None, tgt_mask=None, memory_mask=None, src_key_padding_mask=None, tgt_key_padding_mask=None, memory_key_padding_mask=None, src_is_causal=None, tgt_is_causal=None, memory_is_causal=False)[source]¶
接收并处理掩码后的源/目标序列。
如果为任何 [src/tgt/memory]_mask 参数提供了布尔张量，则值为 True 的位置不允许参与注意力计算，这与 torch.nn.functional.scaled_dot_product_attention() 中 attn_mask 的定义相反。
src (张量) – 传入编码器的序列（必需）。
tgt (张量) – 传入解码器的序列（必需）。
src_mask (可选[张量]) – src 序列的加性掩码（可选）。
tgt_mask (可选[张量]) – tgt 序列的加性掩码（可选）。
memory_mask (可选[张量]) – 编码器输出的加性掩码（可选）。
src_key_padding_mask (可选[张量]) – 每个批次的 src 密钥的张量掩码（可选）。
tgt_key_padding_mask (可选[张量]) – 每个批次的 tgt 密钥的张量掩码（可选）。
memory_key_padding_mask (可选[张量]) – 每个批次的 memory 密钥的张量掩码（可选）。
src_is_causal (可选[布尔值]) – 如果指定，则将因果掩码应用为 src_mask。默认值：None；尝试检测因果掩码。警告：src_is_causal 提供了一个提示，表明 src_mask 是因果掩码。提供错误的提示会导致执行错误，包括向前和向后兼容性。
tgt_is_causal (可选[布尔值]) – 如果指定，则将因果掩码应用为 tgt_mask。默认值：None；尝试检测因果掩码。警告：tgt_is_causal 提供了一个提示，表明 tgt_mask 是因果掩码。提供错误的提示会导致执行错误，包括向前和向后兼容性。
memory_is_causal (布尔值) – 如果指定，则将因果掩码应用为 memory_mask。默认值：False。警告：memory_is_causal 提供了一个提示，表明 memory_mask 是因果掩码。提供错误的提示会导致执行错误，包括向前和向后兼容性。
src:  $(S, E)$ 
tgt:  $(T, E)$ 
src_mask:  $(S, S)$ 
tgt_mask:  $(T, T)$ 
memory_mask:  $(T, S)$  
src_key_padding_mask:  对于非批处理输入，形状为  $(S)$ ，否则为  $(N, S)$ 
tgt_key_padding_mask: 对于非批处理输入，形状为  $(T)$ ，否则为  $(N, T)$ 
memory_key_padding_mask: 对于非批处理输入，形状为  $(S)$ ，否则为  $(N, S)$ 
注意：[src/tgt/memory]_mask 确保位置  $i$  可以访问未被掩蔽的位置。如果提供的是 BoolTensor，则值为 True 的位置不允许访问，而值为 False 的位置将保持不变。如果提供的是 FloatTensor，它将被添加到注意力权重中。[src/tgt/memory]_key_padding_mask 指定了键中需要被注意力忽略的元素。如果提供的是 BoolTensor，则值为 True 的位置将被忽略，而值为 False 的位置将保持不变。
输出：对于非批处理输入，输出形状为  $(T, E)$ 
注意：由于 Transformer 模型中使用了多头注意力架构，因此 Transformer 的输出序列长度与解码器的输入序列（即目标）长度相同。
其中  $S$  是源序列长度， $T$  是目标序列长度， $N$  是批次大小， $E$  是特征数量。
>>> output = transformer_model(src, tgt, src_mask=src_mask, tgt_mask=tgt_mask)
static generate_square_subsequent_mask(sz, device=None, dtype=None)[source]¶
为序列生成一个方形因果掩码。
被掩蔽的位置填充为 float('-inf')。未被掩蔽的位置填充为 float(0.0)。