金融界2025年8月8日消息,国家知识产权局信息显示,江苏柯鲁威新材料科技有限公司申请一项名为“一种氧化石墨烯改性邻苯二甲腈树脂制备方法”的专利,公开...
2025-08-08 0
这项由法国国家科研中心(CNRS)巴黎分部的马齐亚尔·帕纳希(Maziyar Panahi)领导的研究于2025年8月发表在arXiv预印本平台,研究论文题为《OpenMed NER: Open-Source, Domain-Adapted State-of-the-Art Transformers for Biomedical NER Across 12 Public Datasets》。有兴趣深入了解的读者可以通过arXiv:2508.01630v1访问完整论文,相关模型也已在Hugging Face平台开源发布。
在现代医学研究和临床实践中,存在着一个巨大的信息宝库正在被浪费。想象一下这样的场景:全世界80%以上的医疗数据都藏在医生的诊断笔记、研究论文和病历报告中,就像散落在图书馆各个角落的珍贵书籍,虽然内容丰富,但因为没有索引系统而难以利用。这些文字记录包含着大量关于疾病、药物、基因和治疗方法的宝贵信息,但由于是非结构化的自然语言,计算机很难直接理解和处理。
正是在这样的背景下,法国国家科研中心的研究团队开发了一套名为OpenMed NER的人工智能系统,它就像一位精通医学的超级助手,能够自动从海量医学文献中识别和提取关键信息。这个系统的特别之处在于,它不仅性能卓越,而且完全开源免费,任何研究机构和医院都可以直接使用。
研究团队面临的核心挑战可以用一个比喻来理解。假如你是一位图书管理员,需要从数万本医学书籍中找出所有提到"阿司匹林"、"心脏病"或"BRCA1基因"的地方,并且要准确区分这些词汇在不同语境中的含义。对人类来说,这项工作不仅繁重,而且容易出错。而OpenMed NER就像拥有超人记忆力和理解能力的智能助手,能够快速准确地完成这项任务。
这项研究的创新之处体现在多个方面。首先,研究团队采用了一种名为"领域自适应预训练"的技术,就像让一位通才医生接受专科培训一样,让原本具有一般语言理解能力的AI模型专门学习医学语言的特殊表达方式。其次,他们使用了一种叫做LoRA的参数高效微调技术,这种方法只需要调整模型中不到1.5%的参数,就能达到接近全面重新训练的效果,大大降低了计算成本和时间消耗。
更令人印象深刻的是,整个训练过程只需要在单个GPU上运行不到12小时就能完成,产生的碳排放量不到1.2千克二氧化碳当量,这相当于驾车行驶约3公里的排放量。这种高效性使得即使是资源有限的小型研究机构也能负担得起这样的技术。
研究团队在12个公开的生物医学数据集上测试了他们的系统,这些数据集就像12个不同的考试科目,涵盖了化学物质、疾病、基因、物种等各种医学实体的识别任务。结果显示,OpenMed NER在其中10个数据集上都创造了新的最佳成绩,超越了包括商业软件在内的所有竞争对手。
特别值得一提的是,在一些最具挑战性的临床数据集上,OpenMed NER的表现尤为出色。在细胞系识别任务中,它比之前的最佳系统提高了9.7个百分点,在基因识别方面也有5.3个百分点的显著提升。这些数字背后代表着数千个原本可能被遗漏的重要医学信息现在能够被准确捕获。
这项研究的另一个重要意义在于它的开放性。研究团队将所有模型都以Apache 2.0许可证的形式开源发布,这意味着全世界的研究人员和医疗机构都可以免费使用这些工具。这种做法不仅促进了科学研究的民主化,也为那些需要严格数据保护的医疗机构提供了本地部署的可能性,帮助他们更好地遵守欧盟人工智能法案等新兴法规。
研究团队选择了三种不同的基础模型架构作为起点,每种都有其独特优势。DeBERTa-v3模型采用了分离注意力机制,特别适合处理临床文本中常见的长距离依赖关系。PubMedBERT模型完全基于生物医学文献从头训练,拥有高度专业化的词汇表。BioELECTRA模型则采用了更加样本高效的替换词检测技术,在词级任务上表现出色。
在具体的训练过程中,研究团队采用了一种"最优选择"策略。对于每个具体的识别任务,他们会从三种基础模型中选择表现最好的那一个。这就像为不同的体育项目选择最合适的运动员一样,确保在每个领域都能发挥最佳水平。
整个系统的工作流程可以分为三个主要阶段。第一阶段是领域自适应预训练,研究团队使用了一个包含35万篇文献的混合语料库,其中包括PubMed摘要、arXiv生物医学论文、MIMIC-III临床句子和精选的临床试验描述。这个语料库就像一个综合的医学图书馆,既包含了正式的学术语言,也涵盖了临床实践中的"床边"表达方式。
第二阶段是任务特定微调,在这个阶段,系统学习如何识别特定类型的医学实体。研究团队采用了早停策略,监控验证集上的F1分数,如果连续三个周期没有改善就停止训练,这样可以防止过拟合并确保模型的泛化能力。
第三阶段是贝叶斯超参数优化,研究团队使用了40次试验的贝叶斯搜索来找到最优的超参数配置。这个过程就像调音师为钢琴调音一样,需要精细地调整各种参数以获得最佳性能。
在评估环节,研究团队严格遵循标准的机器学习实践,确保训练集、验证集和测试集的完全分离,防止信息泄露。他们采用实体级精确度、召回率和微平均F1分数作为主要评价指标,使用严格的精确匹配标准来评判实体边界和类型。
研究结果表明,OpenMed NER在绝大多数测试中都表现出色。在BC5CDR-Disease数据集上,它比之前的最佳结果提高了2.70个百分点。在BC4CHEMD化学实体识别任务中提高了1.37个百分点。在Linnaeus物种识别任务中更是实现了3.80个百分点的显著提升。这些改进看似数字不大,但在实际应用中意味着成千上万个重要医学信息能够被正确识别。
特别引人注目的是在临床和专业化语料库上的突破性表现。在CLL细胞系识别任务中,OpenMed NER实现了9.72个百分点的大幅提升,这种改进程度在该领域是非常罕见的。类似地,在BC2GM基因识别任务中也有5.39个百分点的显著进步。
不过,研究团队也坦诚地承认了系统的一些限制。在JNLPBA和AnatEM两个数据集上,OpenMed NER的表现略逊于现有最佳系统,分别落后0.10和1.05个百分点。通过深入的错误分析,研究团队发现这主要是由于历史术语和边界检测方面的挑战。例如,在JNLPBA数据集中,许多错误与较旧的、不一致的术语有关,系统能正确识别现代HUGO命名法(如NFKB1),但有时会错过语料库中存在的较旧变体(如NF-kappa B p65亚基)。
在计算效率方面,OpenMed NER展现出了显著优势。相比于其他需要在大型GPU集群上训练多天的系统,OpenMed NER的整个训练过程在单个NVIDIA A100 GPU上不到12小时就能完成。这种效率优势不仅降低了技术门槛,也大大减少了环境影响。
从实际部署角度来看,LoRA技术的使用带来了显著的操作优势。生成的适配器检查点文件只有15-20MB大小,非常便于存储、版本控制和部署。在临床环境中,当需要更新模型以反映新的指南或研究时,可以轻松地对适配器进行微调和替换,而无需修改或重新验证整个基础模型,这支持了敏捷的机器学习运维实践。
研究团队特别关注了系统的监管合规性。随着欧盟人工智能法案等新法规的实施,医疗AI系统面临着越来越严格的监管要求。OpenMed NER的完全开源性质和本地部署能力使得医疗机构能够更好地满足这些合规要求,包括风险管理、数据治理、透明度和人类监督等方面的规定。
在环境影响方面,研究团队进行了详细的碳足迹计算。基于NVIDIA A100 GPU的额定热设计功率和2023年欧盟平均电网碳强度,单次12小时的训练会话消耗4.8千瓦时电力,产生约1.16千克二氧化碳当量。即使是完整的基准测试(12个任务×3个模型架构)也只产生不到2千克二氧化碳排放,这突显了参数高效LoRA适配器相对于完整模型预训练的可持续性优势。
展望未来,研究团队指出了几个重要的发展方向。首先,当前基于BIO标记方案的系统无法处理嵌套或不连续的实体,这是一个技术限制。其次,虽然训练语料库包含了临床文本,但在文献和嘈杂临床笔记之间仍存在性能差距,需要在更多样化的电子病历数据上进行进一步适应。此外,所有语料库都是英语的,多语言生物医学实体识别仍然是一个开放挑战。
研究团队还认识到,当前框架只执行命名实体识别,并不将实体链接到标准本体(如UMLS、MeSH)。集成轻量级实体链接模块将是增强临床实用性的关键下一步。
这项研究的意义不仅限于技术层面。它证明了战略性调整的开源模型在专业领域中可以始终超越资源密集型的专有系统。通过公开模型、代码和方法论,研究团队为社区提供了易获取的高性能工具,降低了尖端生物医学自然语言处理的准入门槛。
从更广阔的角度来看,这项研究代表了科学研究民主化的重要进展。传统上,只有拥有大量计算资源的大型科技公司或顶级研究机构才能开发出最先进的AI系统。而OpenMed NER证明了,通过聪明的方法设计和高效的技术选择,即使是资源相对有限的团队也能产生世界级的研究成果。
对于临床实践者和研究人员来说,这意味着他们现在可以获得与大型科技公司内部系统相媲美的工具,而无需支付高昂的许可费用或担心数据隐私问题。这种技术的普及化可能会加速医学研究的进展,特别是在资源有限的地区和机构。
最终,OpenMed NER的成功表明,在人工智能时代,开放科学和协作研发的力量不容小觑。通过分享知识和工具,科学家们能够集体推动整个领域的进步,而不是各自为政地重复发明轮子。这种开放的研究模式不仅提高了效率,也确保了科技进步的成果能够惠及更广泛的人群。
Q&A
Q1:OpenMed NER是什么?能做什么?
A:OpenMed NER是法国国家科研中心开发的开源医学文本识别系统,专门用于从医学文献和临床记录中自动识别和提取关键信息,如疾病名称、药物、基因、化学物质等。它就像一位精通医学的智能助手,能够快速准确地从海量医学文本中找出重要的医学实体,帮助研究人员和医生更好地利用文本数据进行研究和诊断。
Q2:OpenMed NER相比其他同类系统有什么优势?
A:OpenMed NER的最大优势是完全开源免费,任何机构都可以使用,而且性能超越了许多商业软件。它在12个测试数据集中的10个都创造了新的最佳成绩,特别是在细胞系识别方面提高了9.7个百分点。此外,它的训练效率极高,只需在单个GPU上训练不到12小时,产生的碳排放量不到1.2千克,远低于其他需要大型集群训练数天的系统。
Q3:普通研究机构可以使用OpenMed NER吗?有什么要求?
A:是的,普通研究机构完全可以使用OpenMed NER。该系统以Apache 2.0许可证开源发布,所有模型都可以从Hugging Face平台免费下载。技术要求很低,只需要一个16GB显存的GPU就能运行,甚至可以在单台服务器上本地部署。这种设计特别适合需要严格数据保护的医疗机构,帮助它们遵守欧盟人工智能法案等监管要求。
相关文章
金融界2025年8月8日消息,国家知识产权局信息显示,江苏柯鲁威新材料科技有限公司申请一项名为“一种氧化石墨烯改性邻苯二甲腈树脂制备方法”的专利,公开...
2025-08-08 0
这项由法国国家科研中心(CNRS)巴黎分部的马齐亚尔·帕纳希(Maziyar Panahi)领导的研究于2025年8月发表在arXiv预印本平台,研究...
2025-08-08 0
这项由斯坦福大学、北阿拉巴马大学等多所院校组成的国际研究团队完成的研究,发表于2024年。研究主要作者Amit Das来自北阿拉巴马大学,团队成员分布...
2025-08-08 0
云存储服务商Backblaze发现,其硬盘驱动器故障率在2025年第二季度有所下降,此前高故障率的驱动器故障频率明显减少。该公司硬盘统计团队(Step...
2025-08-08 0
金融界2025年8月8日消息,国家知识产权局信息显示,拉普拉斯新能源科技股份有限公司取得一项名为“清洗装置”的专利,授权公告号CN223197663U...
2025-08-08 0
这项由普林斯顿语言与智能实验室的林勇等研究者领导的研究发表于2025年8月,题为"Goedel-Prover-V2: Scaling Formal T...
2025-08-08 0
01|先算一道算术题承重 ≥ 1.5 ×(机身+镜头)例:A7C(424 g)+ 24-70/2.8(886 g)= 1.31 kg脚架标称承重 ≥...
2025-08-08 0
金融界2025年8月7日消息,国家知识产权局信息显示,围思(北京)技术有限公司申请一项名为“一种基于柔性电极的电容式无源称重传感器及称重装置”的专利,...
2025-08-08 0
发表评论