首页 今日新闻文章正文

DeepSeek开源新模型DeepSeek-OCR,可高效压缩长文本

今日新闻 2025年10月21日 00:47 0 admin

10月20日,DeepSeek-AI团队发布并开源了名为DeepSeek-OCR的新模型。该模型提出了一种利用视觉模态压缩长文本上下文的新方法,其参数量为3B。

DeepSeek开源新模型DeepSeek-OCR,可高效压缩长文本

该模型利用视觉模态压缩长文本,仅需少量视觉token即可实现高效处理。在压缩比低于10倍时OCR精度达97%,单张A100显卡每日可处理超20万页文档,为长文本处理提供了低成本高性能的解决方案。

不久前的9月29日,DeepSeek正式发布DeepSeek-V3.2-Exp模型,这是一个实验性(Experimental)的版本。据了解,DeepSeek Sparse Attention(DSA)首次实现细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现长文本训练和推理效率的大幅提升。

近日,美国《时代周刊》杂志公布了2025年最佳发明榜单,选出了300项年度最具影响力的创新发明36个品类,DeepSeek、宇树科技、追觅科技、雷鸟创新等20余个中国企业的产品成功入选。

今年年初,DeepSeek R1高级推理模型的横空出世,堪称AI领域的“震惊世界第一枪”。当科技巨头们近年向生成式AI项目投入数百亿美元时,这家来自杭州的初创企业“深度求索”仅用数月就打造出在行业基准测试中媲美OpenAI、当时最先进产品的模型,且宣称训练成本仅600万美元(约合人民币4268.8万元)。该模型的算力消耗仅为美国竞争对手的零头,至今仍向用户免费开放。

(羊城晚报·羊城派综合自@密度财经、澎湃新闻)

编辑:陈睿智

来源:羊城晚报•羊城派综合

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap