近年来,生物医学领域的文本数据呈现爆炸式增长,如何从海量文献中高效提取关键生物医学实体(如基因、蛋白质、疾病等)成为研究热点。长短期记忆网络(LSTM)凭借其优秀的序列建模能力,在生物医学命名实体识别任务中展现出显著优势。本研究针对生物医学文本的复杂语言特性,构建基于LSTM的核心实体提取模型,通过双向LSTM层捕获上下文特征,结合CRF层优化标签序列预测。实验采用BC5CDR等标准生物医学语料库进行验证,结果表明该模型能有效识别嵌套实体和术语变体,在准确率和召回率指标上优于传统机器学习方法。本研究为生物医学知识发现和信息抽取提供了新的技术思路,对构建生物医学知识图谱具有重要应用价值。