Hugging Face 推出号称“世界上最小的视觉言语模子_欧洲杯足球官网版下载

Hugging Face 推出号称“世界上最小的视觉言语模子

发布时间：2025-01-27 08:36

IT之家 1 月 26 日新闻，Hugging Face 宣布了两款全新多模态模子 SmolVLM-256M 跟 SmolVLM-500M，此中 SmolVLM-256M 号称是天下上最小的视觉言语模子（Video Language Model）。据悉，响应模子重要基于 Hugging Face 团队客岁练习的 80B 参数模子蒸馏而成，号称在机能跟资本需要之间实现了均衡，官方称 SmolVLM-256M / 500M 两款模子均可“开箱即用”，能够直接安排在 transformer MLX 跟 ONNX 平台上。详细技巧层面，SmolVLM-256M / 500M 两款模子均采取 SigLIP 作为图片编码器，应用 SmolLM2 作为文本编码器。此中 SmolVLM-256M 是现在最小的多模态模子，能够接收恣意序列的图片跟文本输入并天生笔墨输出，该模子功效包含描写图片内容、为短视频天生字幕、处置 PDF 等。Hugging Face 称因为该模子团体轻盈，可在挪动平台轻松运转，仅需不到 1GB 的 GPU 显存便可在单张图片上实现推理。而 SmolVLM-500M 针对须要更高机能的场景而计划，Hugging Face 称相干模子十分合适安排在企业经营情况中，该模子推理单张图片仅需 1.23GB 的 GPU 显存，绝对 SmolVLM-256M 固然负载更年夜，但推理输出的内容更精准。IT之家留神到，两款模子均采取 Apache 2.0 开源受权，研讨团队供给了基于 transformer 跟 WebGUI 的示例顺序。全部模子及其演示已公然便于开辟者下载跟应用，详细页面可。

上一篇：十七十八世纪欧洲曾涌现“中国器物热”

下一篇：没有了