前沿肿瘤早筛技术，慧算基因SmartCS-LPLLM亮相2024 ESMO - 慧算基因科技（上海）有限公司

2024年9月13日至17日，欧洲肿瘤内科学会（ESMO）年会在西班牙巴塞罗那华丽启幕。作为全球肿瘤领域举足轻重的年度盛会，本届年会荟萃世界顶级肿瘤学者与专家，汇集尖端科研突破与前沿治疗进展。会议不仅是一场思想与智慧的碰撞，更为全球肿瘤领域的专业人士搭建了一个共享知识、互通有无的高端学术殿堂，推动全球肿瘤诊疗迈向新的高峰。

此次会议中，慧算基因研发的单分子多模态肿瘤早筛模型——SmartCS-LPLLM，荣幸入选本届ESMO大会壁报展示。

摘要集节选图片.png

研究背景

循环肿瘤DNA（ctDNA）在早期癌症筛查中的应用面临许多挑战，尤其是ctDNA含量低、信噪比高的问题。我们致力于开发一种强有力的早筛模型，以有效克服这些难题。

研究方法

采用低覆盖率全基因组亚硫酸氢盐测序（Low-pass WGBS）技术，并结合高效的WATCHMaker（7K0101-096）文库准备试剂盒，对游离DNA（cfDNA）样本处理进行了优化，以最小化样本损失并提高分子转化效率。在分析中，重点关注了13个癌症特异性差异甲基化区域（DMRs），其中包括与肺癌和肝癌相关的区域。开发了SmartCS-LPLLM模型，这是一种基于大语言模型的单分子多模态早期癌症筛查模型。该模型通过分析cfDNA特征（包括甲基化评分、序列长度、末端基序特征和序列语言特征），精确识别癌症信号。

研究结果

SmartCS-LPLLM模型被应用于计算BMC Medicine（CRA001537）公开数据中不同类型样本的风险评分。对公开数据的重新分析显示，SmartCS-LPLLM模型在区分肝细胞癌（HCC）与非HCC样本方面具有显著提升，AUC值提高至0.967。在对12个cfDNA样本的盲测中，该模型准确分类了所有5个肝癌样本。值得注意的是，该模型已经增强到能够准确识别浓度低至0.05%的ctDNA。此外，在模型构建过程中观察到，当DMR区域为120M时，模型的准确性最高，单分子读取级模型在区分肿瘤样本与健康样本读取方面达到了85%的准确率。

结论

SmartCS-LPLLM模型结合了甲基化和拷贝数变异（CNVs）等生物特征，为早期癌症筛查提供了精确的临床策略。其在盲测中的表现验证了其稳健性和适用性，能够有效识别低丰度的ctDNA样本，显示出显著的临床相关性。