Hugging Face 推出号称“世界上最小的视觉言语模子
发布时间:2025-01-27 08:36
IT之家 1 月 26 日新闻,Hugging Face 宣布了两款全新多模态模子 SmolVLM-256M 跟 SmolVLM-500M,此中 SmolVLM-256M 号称是天下上最小的视觉言语模子(Video Language Model)。据悉,响应模子重要基于 Hugging Face 团队客岁练习的 80B 参数模子蒸馏而成,号称在机能跟资本需要之间实现了均衡,官方称 SmolVLM-256M / 500M 两款模子均可“开箱即用”,能够直接安排在 transformer MLX 跟 ONNX 平台上。详细技巧层面,SmolVLM-256M / 500M 两款模子均采取 SigLIP 作为图片编码器,应用 SmolLM2 作为文本编码器。此中 SmolVLM-256M 是现在最小的多模态模子,能够接收恣意序列的图片跟文本输入并天生笔墨输出,该模子功效包含描写图片内容、为短视频天生字幕、处置 PDF 等。Hugging Face 称因为该模子团体轻盈,可在挪动平台轻松运转,仅需不到 1GB 的 GPU 显存便可在单张图片上实现推理。而 SmolVLM-500M 针对须要更高机能的场景而计划,Hugging Face 称相干模子十分合适安排在企业经营情况中,该模子推理单张图片仅需 1.23GB 的 GPU 显存,绝对 SmolVLM-256M 固然负载更年夜,但推理输出的内容更精准。IT之家留神到,两款模子均采取 Apache 2.0 开源受权,研讨团队供给了基于 transformer 跟 WebGUI 的示例顺序。全部模子及其演示已公然便于开辟者下载跟应用,详细页面可。