LLM和自闭症

在医学诊断领域,自闭症(Autism Spectrum Disorder, ASD)一直是一个充满挑战的话题 。尽管科研人员尝试通过基因检测(如全基因组关联研究 GWAS)或脑部扫描(如磁共振成像 MRI)等生物标记物来建立客观的诊断标准,但这些努力至今收效甚微 。相反,经验丰富的临床医生基于长期实践积累的临床直觉(clinical intuition),仍然是自闭症诊断的“金标准” 。近期,一项研究利用大型语言模型(LLMs)深入分析临床文本,旨在解构和探究专家临床医生在自闭症诊断过程中的内在逻辑和直觉 。

该研究由Danilo Bzdok及其合作者主导,他们收集了来自超过1000名因疑似自闭症而转诊的儿童的4000多份自由格式健康记录 。研究团队采用了一个基于RoBERTa架构的大型语言模型,该模型首先在包含数亿个通用句子的语料库上进行了预训练,随后在收集到的临床报告语料上进行了微调,以区分最终确诊自闭症的病例和疑似但最终排除自闭症诊断的病例 。

为了提升模型的可解释性,研究人员引入了一种特别的解释策略:一个可训练的单头注意力机制(single-head attention module) 。该模块能够准确定位并优先加权对诊断分类最有帮助的单个句子,从而识别出每份医疗报告中最具诊断意义的句子级信息 。

整体工作流程包括:首先通过光学字符识别(OCR)技术将纸质版医疗报告扫描并数字化 ;接着对提取的文本进行清洗和格式统一化处理 ;然后,报告中的每个句子被单独输入预训练语言模型以生成句子嵌入(sentence embeddings),这些嵌入能够捕捉句子的语义信息 ;随后,通过注意力机制对句子嵌入进行加权平均,形成整个报告的嵌入表示 ;最后,一个线性分类层基于此报告嵌入进行诊断预测 。

主要发现与结果

诊断性能:该研究中基于LLM的框架在区分确诊自闭症与疑似但排除病例方面,其平均样本外分类准确率达到了79.4% (SD, 0.9%),显著优于传统的自然语言处理(NLP)方法,如词袋模型(Bag-of-Words, BOW)结合朴素贝叶斯分类器(65.4%准确率)或随机森林分类器(73.1%准确率),以及Doc2Vec算法(76.2%准确率) 。(参见研究论文图2A )
可解释性:

  1. 自闭症感知嵌入空间:通过主成分分析(PCA)对模型生成的句子级嵌入进行降维可视化,结果显示来自确诊自闭症病例的句子与来自非自闭症病例的句子在语义空间中形成了明显的分离 。这表明经过微调的语言模型学习到了一个对自闭症诊断敏感的语义表征空间 。(参见研究论文图2C )
  2. 逐层诊断能力分析:研究者们还探究了信息在LLM多层结构中流动时,模型诊断能力的变化。结果显示,随着信息在模型中逐层深入处理,从报告嵌入中预测自闭症的性能稳步提升 。例如,使用第一层输出的报告嵌入进行预测的平均曲线下面积(AUC)为0.746,而到第12层(最后一层)时,AUC达到了0.968 。(参见研究论文图3A, 3B )
  3. 关键句子与词汇识别:单句子注意力机制成功识别出对自闭症诊断最具影响力的句子 。对这些“最受关注”句子中的高频词进行分析发现,诸如“拍手”(flapping,在自闭症报告中出现频率高出21.5倍)、“模仿言语”(echolalia,高出14.1倍)、“字母”(letters,高出24.1倍)、“数字”(numbers,高出16.8倍)等词汇,在确诊自闭症的临床报告中出现得更为频繁,这些词汇主要指向重复性行为、特殊兴趣以及感知觉处理相关的行为特征。(参见研究论文图4B )

LLM分析对DSM-5标准的启示:

《精神障碍诊断与统计手册》第五版(DSM-5)是当前自闭症诊断的重要参考标准。其诊断标准主要分为A、B两大类:A类涉及社交沟通和社交互动的持续性缺陷(如A1:社交情感互动缺陷;A2:用于社交互动的非语言沟通行为缺陷;A3:发展、维持和理解人际关系的缺陷) ;B类则关注局限的、重复的行为模式、兴趣或活动(如B1:刻板或重复的躯体运动、物品使用或言语;B2:坚持统一性,僵化地固守常规,或仪式化的言语或非言语行为模式;B3:高度局限、固定的兴趣,其强度或关注对象异乎寻常;B4:对感觉输入的反应过度或过低,或对环境中的感觉刺激有异常兴趣)。

研究团队将DSM-5的七条具体标准描述文本输入到他们微调后的语言模型中,生成了每条标准的句子嵌入,并在模型的自闭症感知语义空间中,使用余弦相似度比较了这些标准与临床报告中“最受关注”句子的语义关联性。

与重复行为和感知觉相关的DSM-5标准,即B1、B3和B4,其语义嵌入与自闭症报告中的关键诊断句子更为相似,并且在模型的嵌入空间中更靠近自闭症主导的区域。相比之下,描述社交缺陷的A1-A3标准以及B2标准(坚持统一性),在模型看来与自闭症关键句的语义关联较弱,且其嵌入位置更靠近非自闭症主导的区域。

研究者进一步使用这些DSM-5标准与报告关键句的余弦相似度作为特征,训练了一个线性判别分析(LDA)分类器来预测自闭症诊断。该LDA模型在新样本上取得了0.905的AUC,表现出良好的诊断区分能力。其中,B1、B3和B4标准的余弦相似度被证明是对自闭症诊断最具预测性的特征。(参见研究论文图5C, 5D )

瞎猜

在讨论中作者也提到,二级疾病中也有像是ADHD这种疾病也会影响社交行为,那也就是说,在LLM做分类时,可能旨在强调ASD特有的表现形式即刻板行为,并不能否认其实ASD患者确实在社交上存在异常。