首页 > 游戏攻略 >Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M

Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M

2025-01-27 11:20:39板才软件园

本站 1 月 26 日消息,Hugging Face 发布了两款全新多模态模型SmolVLM-256M和SmolVLM-500M,其中SmolVLM-256M号称是世界上最小的视觉语言模型(Video Language Model)。

据悉,相应模型主要基于 Hugging Face团队去年训练的 80B参数模型蒸馏而成,号称在性能和资源需求之间实现了平衡,官方称 SmolVLM-256M / 500M 两款模型均可“开箱即用”,可以直接部署在transformer MLX和ONNX平台上。

具体技术层面,SmolVLM-256M / 500M 两款模型均采用SigLIP作为图片编码器,使用 SmolLM2作为文本编码器。其中 SmolVLM-256M是目前最小的多模态模型,可以接受任意序列的图片和文本输入并生成文字输出,该模型功能包括描述图片内容、为短视频生成字幕、处理PDF 等。Hugging Face 称由于该模型整体轻巧,可在移动平台轻松运行,仅需不到1GB的GPU显存便可在单张图片上完成推理。

而 SmolVLM-500M针对需要更高性能的场景而设计,Hugging Face称相关模型非常适合部署在企业运营环境中,该模型推理单张图片仅需1.23GB的GPU显存,相对 SmolVLM-256M 虽然负载更大,但推理输出的内容更精准。

本站注意到,两款模型均采用Apache 2.0开源授权,研究团队提供了基于transformer和WebGUI的示例程序。所有模型及其演示已公开便于开发者下载和使用,具体页面可(点此访问)。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之

5649
285

同类推荐更多

什么是“爽⋯躁多水⋯快⋯深点触手”?为何这种体验能在现代社会中引发热潮?

什么是“爽⋯躁多水⋯快⋯深点触手”?为何这种体验能在现代社会中引发热潮?

最火的游戏攻略

2024-12-11

在当今快节奏的生活中,很多人都渴望通过某些方式来解压、释放压力,享受瞬间的愉悦。而有些体验则能够带来更为强烈的刺激感和独特的快感,其中一种便是“爽⋯躁多水⋯快⋯深点触手”这类刺激的体验,它通过不同的方式带给人深度的触感与情感上的波动。从感官到心理,这种体验能够深刻打破人的舒适区,激发身体与心理的双重