PyTorch 简明样例:蛋白质序列预测模型构建、数据载入、抽样、训练、评估

PyTorch 是深度学习领域著名的开发框架,本文将介绍一个完整的代码样例,从使用自定义数据开始,直到评估训练模型结束,旨在为和笔者一样的入门者提供一份可参考的样例。本文使用的神经网络模型主要为 CNN,输入数据为蛋白质序列,每一条蛋白序列通过实验可测得其某指标(Y)的数值,我们希望通过已知的蛋白序列和其对应的 Y 值,预测新序列的Y值。阅读该样例需要对 python 包 pandas 和 numpy 有一定的熟悉。

首先,简单看一下我们的数据情况。

tongjixue shengwuxinxi shenduxuexi tutorial

其中 aa 一列即代表蛋白质序列,y 即代表我们需要训练的目标值。

继续阅读PyTorch 简明样例:蛋白质序列预测模型构建、数据载入、抽样、训练、评估

理解 Z-Score 标准分数的含义和用法

本节我们讲Z-Score.

注:从今天(2019-5-7)起,本博客将周期性更新统计学、计算机科学等学科方面的知识。笔者在这些方面并不精通,希望通过整理总结的方式和大家一起学习。

Z-Score 又叫 stand score, z-value, z-score, normal score, and standardized variable, 中文一般译作标准分数。其实 Z-Score 在多个领域有不同的定义和应用,我们这里主要讲解统计学中的标准分数。其他领域的 Z-Score 定义请查看维基百科

通俗解释z-score,即 z-score 是对某一原始分值进行转换,变成的一个标准分值,该标准分值可使得原来无法比较的数值变得可比。

一个简单的例子,中国人小王身高 1.75 m,美国人 James 身高 1.85 m,日本人大郎身高1.75 m,排除国籍导致的差异,请问小王、James、大郎三个人谁更高?

继续阅读理解 Z-Score 标准分数的含义和用法