首页 > 游戏攻略 >DeepSeek-VL2 AI 视觉模型开源:支持动态分辨率、处理科研图表、解析各种梗图等

DeepSeek-VL2 AI 视觉模型开源:支持动态分辨率、处理科研图表、解析各种梗图等

2024-12-14 16:15:13板才软件园

本站 12 月 14 日消息,DeepSeek 官方公众号昨日(12 月 13 日)发布博文,宣布开源 DeepSeek-VL2 模型,在各项评测指标上均取得了极具优势的成绩,官方称其视觉模型正式迈入混合专家模型(Mixture of Experts,简称 MoE)时代。

本站援引官方新闻稿,附上 DeepSeek-VL2 亮点如下:

    数据:比一代 DeepSeek-VL 多一倍优质训练数据,引入梗图理解、视觉定位、视觉故事生成等新能力

    架构:视觉部分使用切图策略支持动态分辨率图像,语言部分采用 MoE 架构低成本高性能

    训练:继承 DeepSeek-VL 的三阶段训练流程,同时通过负载均衡适配图像切片数量不定的困难,对图像和文本数据使用不同流水并行策略,对 MoE 语言模型引入专家并行,实现高效训练

    DeepSeek-VL2 模型支持动态分辨率,仅使用一个 SigLIP-SO400M 作为图像编码器,通过将图像切分为多张子图和一张全局缩略图来实现动态分辨率图像支持。这一策略让 DeepSeek-VL2 最多支持 1152x1152 的分辨率和 1:9 或 9:1 的极端长宽比,适配更多应用场景。

    DeepSeek-VL2 模型还得益于更多科研文档数据的学习,可以轻松理解各种科研图表,并通过 Plot2Code,根据图像生成 Python 代码。

    模型和论文均已发布:

    模型下载:https://huggingface.co/deepseek-ai

    GitHub 主页:https://github.com/ deepseek-ai/DeepSeek-VL2

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之

5413
382

同类推荐更多

如何平衡爽、躁多水、快与深点老,避免生活中的压力和焦虑?

如何平衡爽、躁多水、快与深点老,避免生活中的压力和焦虑?

最火的游戏攻略

2024-12-06

“爽”字在我们生活中用得最多,往往是指瞬间的愉悦、满足和享乐。无论是吃到美食,还是体验到放松的时刻,爽感总是让人心情愉悦。然而,爽并不总是意味着长久的幸福。它更多是一种瞬间的快感,快速而直接。这种爽感背后可能有复杂的情感或者生理反应,比如快速的满足欲望或短暂的逃避压力。对生活的爽感可以追溯到一种不断