使用mapreduce进行摘要总结时，在不联网的情况下，出现访问huggingface超时 - General

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

睿智的青椒 · 对剩菜say ...· 5 月前 ·

痴情的油条 · 凝聚全球战“疫”的强大合力 - 求是网· 11 月前 ·

失恋的回锅肉 · hfai.pl.callbacks.mode ...· 11 月前 ·

耍酷的沙滩裤 · 和纳西妲分享2000个枣椰蜜糖，纪念原神开服 ...· 1 年前 ·

豪气的鸡蛋面 · 在C#中以多线程方式访问WPF ...· 1 年前 ·

您可以在有网络连接的环境中下载所需的 GPT-2 分词器文件，然后在您的运行环境中本地加载这些文件。您可以使用 Hugging Face 的 Transformers 库的 PreTrainedTokenizer 来下载并保存分词器，然后加载本地的文件。

在有网络连接的环境中，您可以使用以下 Python 代码下载并保存分词器：

from transformers import GPT2Tokenizer
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
tokenizer.save_pretrained('./path_to_save_directory')  # 指定一个保存分词器文件的目录
之后，您可以将上述代码所保存的分词器文件（包括 ‘tokenizer_config.json’, ‘special_tokens_map.json’, ‘vocab.json’, ‘merges.txt’）迁移到您的运行环境（例如通过 USB 或者其他物理介质）。
在您的运行环境中，您可以使用以下 Python 代码从本地加载 GPT-2 分词器：
from transformers import GPT2Tokenizer
tokenizer = GPT2Tokenizer.from_pretrained('./path_to_save_directory')  # 使用保存分词器的目录来加载分词器
在这里，‘./path_to_save_directory’ 需要被替换为您保存分词器文件的具体路径。
如果您还有其他问题或者需要关于 transformer 分词器等其他资源的详细信息，欢迎继续提问。
本地模型加载：

model_path=“/home/chatglm2-6b-32k”

tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

model = AutoModel.from_pretrained(model_path, trust_remote_code=True).half().cuda()

model=model.eval()

自定义模型：

class ChatGLM(LLM):

max_token: int = 100000  #输入文本的额最大值

temperature: float = 0.2

top_p = 0.6

history = []
def __init__(self):
    super().__init__()
@property
def _llm_type(self) -> str:
    return "ChatGLM"
def _call(self, prompt: str, stop: Optional[List[str]] = None,) -> str:
    # headers中添加上content-type这个参数，指定为json格式
    headers = {'Content-Type': 'application/json'}
    data=json.dumps({ 'prompt':prompt, 'temperature':self.temperature,'history':self.history,'max_length':self.max_token})
    # print("ChatGLM prompt:",prompt)
    # 调用api
    response = requests.post("http://0.0.0.0:8000",headers=headers,data=data)
	# print("ChatGLM resp:",response)
    if response.status_code!=200:
        return "查询结果错误"
    resp = response.json()
    if stop is not None:
        response = enforce_stop_tokens(response, stop)
    self.history = self.history+[[None, resp['response']]]
    return resp['response']
但是使用mapreduce 的时候，会自动访问huggingface上gpt的tokenizer，这是不是说明本地的tokenizer和langchain未适配成功呢，如果是，应该怎么处理呢