[Feature Request]: 提议支持使用百川2开源模型提供翻译 · Issue #460 · zyddnys/manga-image-translator

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

讲道义的楼房 · 網路門市 - 台灣大哥大｜Open ...· 6 月前 ·

低调的鸡蛋 · 见缝插针优化功能,老城区新一轮"街区—社区" ...· 8 月前 ·

追风的四季豆 · 印尼承诺U-20世界杯按标准举行_新闻中心_中国网· 1 年前 ·

怕老婆的瀑布 · 日期和时间函数 | 腾讯云· 1 年前 ·

豪爽的生菜 · 事件循环机制之于Android的Looper ...· 1 年前 ·

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement . We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account https://github.com/baichuan-inc/Baichuan2
多语言翻译评估：
https://github.com/baichuan-inc/Baichuan2#%E5%A4%9A%E8%AF%AD%E8%A8%80%E7%BF%BB%E8%AF%91
根据其官方的测试数据，以及实测，百川2 13B的翻译能力具有相当的可用性。
4bit量化模型加载后占用约9.6G左右：
多轮对话后可能会涨到13G左右。相对对于显卡显存比较小的用户不算太友好

关于模型加载的提议：

可加载模型，亦可使用百川提供的web_demo打开一个服务，通过http请求完成。因此希望可以设计成本地模型直接启动，或者由有能力的用户自己部署了运行环境并且启动了web demo，本工具只向用户提供的API地址发送请求这两种模式

其次是建议增加可以直接由用户指定模型路径的模式，而非直接从huggingface下载模型。毕竟部分用户实际上可能亦已经持有对应模型，或者想自己按自己的方式管理和储存模型，直接从hf下载模型会导致模型文件全部用hash命名并储存到cache中。导致数据重复的同时管理困难

关于Prompt方面：
以《挪威的森林》节选的一小段为例
首先可以直接通过多轮对话形式进行问答式翻译

直接翻译也可能遇到词语出错等情况，比如原文中的女乘务员（スチュワデス）被翻译成了施华德：
可以通过先提供指定参照的形式，然后再提出翻译要求的对话模式进行
多条翻译参照的时候则换行输入（百川2的web界面输入之后从对话气泡输出的时候换行会自动变成空格）
其次是希望漫画翻译可以增加选项，直接对输入的漫画的全文一次性发起翻译请求，大模型会因此得到更多的上下文信息，可能使得翻译质量有所改善。

说起来，我新加了一个 OfflineTranslator 在本地通过 llama.cpp 对一个百川2的微调模型（Sakura13b）进行推理，并基于此对漫画内容进行翻译。经过一些验证后，我觉得从日文到中文的翻译质量已经相当好了。
此外我也给加入了对apple silicon gpu的支持，现在ocr，语言模型推理等耗时步骤可以在macos平台上调用显卡加速。
提交的代码放在了fork出的新分支下 https://github.com/allegro0132/manga-image-translator

Reference:
https://github.com/SakuraLLM/Sakura-13B-Galgame