发布日期:2024-10-09 05:30 点击次数:193
IT之家4月24日音讯,科技媒体marktechpost昨日(4月23日)发布博文,报谈称英伟达为搪塞图像和视频中特定区域的详确描绘悲凉,最新推出了DescribeAnything3B(DAM-3B)AI模子。
视觉-言语模子(VLMs)在生成举座图像描绘时清晰出色,但对特定区域的紧密描绘每每力不从心,尤其在视频中需计议时分动态,挑战更大。
英伟达推出的DescribeAnything3B(DAM-3B)直面这一悲凉,复旧用户通过点、畛域框、涂鸦或掩码指定目的区域,生成精确且贴合陡立文的描绘文本。DAM-3B和DAM-3B-Video分辨适用于静态图像和动态视频,模子已在HuggingFace平台公开。
独有架构与高效打算
DAM-3B的中枢改进在于“焦点辅导”和“局部视觉主干累积”。
焦点辅导时期交融了全图信息与目的区域的高分辨率编著,确保细节不失真,同期保留举座布景。
局部视觉主干累积则通过镶嵌图像和掩码输入,哄骗门控交叉空洞力机制,ag百家乐规律将全局与局部特征玄妙交融,再传输至大言语模子生成描绘。
DAM-3B-Video进一步推广至视频规模,通过逐帧编码区域掩码并整合时分信息,即便靠近掩盖或通顺也能生成准确描绘。
数据与评估双管王人下
为科罚磨练数据匮乏问题,NVIDIA建造了DLC-SDP半监督数据生成计谋,利用分割数据集和未标注的累积图像,构建了包含150万局部描绘样本的磨练语料库。
通过自磨练武艺优化描绘质地,确保输出文本的高精确度,团队同期推出DLC-Bench评估基准,以属性级正确性而非僵硬的参考文本对比推断描绘质地。
DAM-3B在包括LVIS、Flickr30kEntities等七项基准测试中高出,平均准确率达67.3%,杰出GPT-4o和VideoRefer等模子。
DAM-3B不仅填补了局部描绘规模的时期空缺,其陡立文感知架构和高质地数据计谋还为无进军器具、机器东谈主时期及视频履行分析等规模设备了新可能。
IT之家附上参考地址AG百家乐路子
上一篇:AG百家乐路子 图解包钢股份年报: 第四季度单季净利润同比增1835.13%
下一篇:AG百家乐路子 字母回复和哈里父亲互喷: 我拿过冠军他们莫得! 啥也别说了去快船