生存分析简明教程

在生物医学研究中,生存分析 是非常重要和常见的分析方法。本文对 生存分析 中的Kaplan–Meier 模型、Cox 比例风险模型进行了简要而详尽的概述,帮助大家更好的理解生存分析等相关概念。本文适用于生物医学专业初学者以及对生存分析感兴趣的非专业人士。

生存分析

首先,简单描述一下 生存分析 的使用场景,已经熟悉的同学可以选择直接跳过。 生存分析 经常用在癌症等疾病的研究中,例如在对某种抗癌药物做临床试验时,会首先筛选一部分癌症患者随机分为两组,一组服用该试验药物,一组服用对照药物,服药后开始统计每个患者从服药一直到死亡的生存时间,通过考察两组之间的病人在生存时间上是否有统计学差异来判断试验药物是否有效。在这里,死亡是整个实验中重点观测的事件,即 event。对于每个病人,需要记录他们发生该事件的具体时间。因此, 生存分析 可以抽象概述为,研究在不同条件下,特定事件发生与时间的关系是否存在差异。这些具体事件可以是死亡,也可以是肿瘤转移、复发、病人出院、重新入院等任何可以明确识别的事件,而不同条件即为不同的分组依据,可以是年龄、性别、地域、某个基因表达量的高低、某个突变的携带与否等等。下图是钟南山院士在对欧洲呼吸学会针对 Covid-19 的报告中提到的研究结果,他们对湖北省内和省外的病人从开始症状到入院时间做了分析,从发生症状开始,入院则是我们刚才讲的 event 事件,而湖北省内外则是不同的分组条件。图中还提到,他们使用 Cox 模型对地理进行了校正,这也是我们在这篇文章中后续要讲到的内容。对钟南山报告感兴趣的同学可以访问此链接 进行查看。

继续阅读生存分析简明教程

PyTorch 简明样例:蛋白质序列预测模型构建、数据载入、抽样、训练、评估

PyTorch 是深度学习领域著名的开发框架,本文将介绍一个完整的代码样例,从使用自定义数据开始,直到评估训练模型结束,旨在为和笔者一样的入门者提供一份可参考的样例。本文使用的神经网络模型主要为 CNN,输入数据为蛋白质序列,每一条蛋白序列通过实验可测得其某指标(Y)的数值,我们希望通过已知的蛋白序列和其对应的 Y 值,预测新序列的Y值。阅读该样例需要对 python 包 pandas 和 numpy 有一定的熟悉。

首先,简单看一下我们的数据情况。

tongjixue shengwuxinxi shenduxuexi tutorial

其中 aa 一列即代表蛋白质序列,y 即代表我们需要训练的目标值。

继续阅读PyTorch 简明样例:蛋白质序列预测模型构建、数据载入、抽样、训练、评估

理解 Z-Score 标准分数的含义和用法

本节我们讲Z-Score.

注:从今天(2019-5-7)起,本博客将周期性更新统计学、计算机科学等学科方面的知识。笔者在这些方面并不精通,希望通过整理总结的方式和大家一起学习。

Z-Score 又叫 stand score, z-value, z-score, normal score, and standardized variable, 中文一般译作标准分数。其实 Z-Score 在多个领域有不同的定义和应用,我们这里主要讲解统计学中的标准分数。其他领域的 Z-Score 定义请查看维基百科

通俗解释z-score,即 z-score 是对某一原始分值进行转换,变成的一个标准分值,该标准分值可使得原来无法比较的数值变得可比。

一个简单的例子,中国人小王身高 1.75 m,美国人 James 身高 1.85 m,日本人大郎身高1.75 m,排除国籍导致的差异,请问小王、James、大郎三个人谁更高?

继续阅读理解 Z-Score 标准分数的含义和用法