添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

做到這麼好的效果,MiniGPT-4實現起來卻並不複雜。

把圖像編碼器與開來源語言模型Vicuna整合起來,並且凍結了兩者的大部分參數,只需要訓練很少一部分。

傳統預訓練階段,使用4張A100在10個小時內就可完成,此時訓練出來的Vicuna已能夠理解圖像,但生成能力受到很大影響。

為解決這個問題,團隊讓MiniGPT-4與ChatGPT合作創建了3500個圖像文本的高品質資料集,也一併開源。

用新的資料集微調可以顯著提高模型的生成可靠性和整體可用性,而且運算效率很高,使用單個A100只需要7分鐘。

並且團隊正在準備一個更羽量級的版本,部署起來只需要23GB的VRAM。 也就是消費級顯示卡中擁有24GB VRAM的3090或4090就可以在本地端執行了。

MiniGPT-4開發團隊來自KAUST(沙烏地阿拉伯沙特阿卜杜拉國王科技大學),包括4位華人成員和他們的導師 Mohamed Elhoseiny。

兩位正在讀博的共同一作還在GitHub頁面上特別標注正在找工作。

  • 線上Demo: https://minigpt-4.github.io
  • 開源程式碼: https://github.com/Vision-CAIR/MiniGPT-4
  • 論文連結: https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf
  • 請勿張貼廣告,不允許任何形式的商業廣告行為,包含頭像、簽名檔等。
  • 禁止發表非官方所舉辦的團購性質活動,違者直接刪除留言。
  • 發言時請勿涉及人身攻擊、侮辱、色情或其他有違社會善良風俗之內容,違者直接刪除留言。
  • 嚴禁發表討論破解軟體、註冊碼、音樂、影片、軟體複製等違反智慧財產權之留言。
  • 請尊重他人之文章著作權,轉載者請標明來源。
  •