1. 首页
  2. 23魔方

生物信息工程师首次出镜,讲述科研的日常.mp4

• • • • •


首先,这是一篇非常正经的科普文章,由我们的生物信息工程师,来现身讲解关于“民族血统V2.0版本”的相关知识。

 

在民族血统2.0版上线之后,我们时常会收到用户这样的问题:“我测出有2%的傣族成分,但我还想知道这2%是继承自我父亲还是母亲,它又是从哪条染色体的哪个位置继承下来的”。


要回答这类问题, 1.0版本是无法做到的。因此,我们决心上做新版本。我们希望新版本可以降低家系部分血统的“孟德尔错误”,也可以搞清楚民族血统的基因流向问题。

 

(没有wifi的朋友请往下看)


一个人的基因组就像一节节用积木砌成的火车,要解读它,就需要用一个科学的算法框架去重构它。

 

首先找到合适size的积木,去重构每一节车厢,积木的size对应着染色体窗口的大小;然后再推测计算每一节车厢的出厂地方,这个环节就是计算每个染色体窗口的祖源分类结果;最终确再确定这个火车出厂地方结果,也就是确定这个人的祖源结果。


生物信息工程师首次出镜,讲述科研的日常.mp4


民族血统检测准确性的提高有两个核心要素,一是优化祖源参考集,二是优化算法。

 

为了优化了我们的祖源参考集合,我们做了多次各民族血统样本的征集的行动。这些参考集的选取严格经过四个步骤:

①必须以“三代同宗”为标准;

②对样品进行亲缘关系过滤;

③通过PCA方法过滤离群的样品,使参考集合更纯;

④最后再进一步删除“不纯”的参考样品。

 

生物信息工程师首次出镜,讲述科研的日常.mp4


而祖源V2.0的算法,整体也是基于四个步骤:

①有家系信息的需要做phasing。phasing的意思基因定相,确定人的两条单倍型的遗传来源方向;

②接下来对每一个染色体窗口使用机器学习的方法进行民族分类,判断祖源的类型;

③基于隐马可夫模型HMM的smoothing的操作,计算模型的转移矩阵和发射矩阵,求出每个窗口每个祖源结果的概率;

④选取合适的阈值和参数,求出各民族成分的窗口比例得出最终的民族结果。


生物信息工程师首次出镜,讲述科研的日常.mp4


整个过程中,最难的部分是染色体窗口的划分。

 

窗口划分是很重要的参数:这个窗口不能太大也不能太小,太小肯定会造成窗口多态性位点信息量太小,影响分类器的精度;太大的话,一个窗口可潜在的信息来源就会增多,没法确保每个窗口都源于一个共同祖先。

 

我们花了很大力气调试,根据现有的芯片位点骨架,最终找到最优的窗口大小。

 

最终模型里,不同民族的F1 score指标,相比以前模型提升10%百分点。


生物信息工程师首次出镜,讲述科研的日常.mp4


这是一个机器学习衡量模型准确度的优化指标,越接近1代表越好,我们现在平均的F1score能达到0.97以上。


-End-


 点击下图立享特惠价 

多人购买超划算哦 


 要么买我,要么关注我 

#都请扫描下方二维码#

我是23魔方

中国最会用口水测基因的公众号

生物信息工程师首次出镜,讲述科研的日常.mp4


原创文章,作者:DOT日报,如若转载,请注明出处:https://www.bilingling.cn/news/18895.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注