1. 首页
  2. 23魔方

23魔方为什么暂时还测不出满族成分?

• • • • •


“为何我是满族人却没有测出满族血统?”


这是一个高频的问题

原因是我们可检测的民族中并不包含满族


23魔方可检测民族血统


23魔方为什么暂时还测不出满族成分?


那么大个民族居然测不出来?


为了解决这个问题

23魔方曾多次征集满族样本

测了又测

希望有所突破

可是按照目前的算法

我们还是没能测出来满族


23魔方为什么暂时还测不出满族成分?


我们是根据什么检测民族血统的呢?


想知道个体的基因祖源

要把基因组与一个已知明确种群分类的样品集合做比对

通过其相似度来进行推断

得出检测者基因组民族祖源成分


有很多方法可以估算基因组的种族民族成分

但都要依赖一个成型参考集合数据库

它的质量对祖源民族成分准确度起到了关键作用

所以我们在集合数据库的时候十分谨慎


23魔方祖源民族数据库一共会经历四个步骤:


参考样品选取

亲缘关系过滤

PCA过滤 

panel参考集性能测试

 


参考样品选取


以每个民族始祖的DNA定义民族样本是再合适不过

然而现实让人无奈

不是每个民族都有古DNA样本的

加上近百年来迁徙频率加快

让我们去进行民族样本的划分更是难上加难

为了确保参考集的客观

我们选取参考集的标准是

三代同宗

(即从自己往上推三代祖先中都必须同一个民族,同一个省份)

最大限度地保证参考集的特异性

 


亲缘关系过滤


有亲缘关系的样品因为在基因组上格外相似

会引起频率计算的偏向

如果一个参考祖源中的亲缘关系样品比较多

在某些SNP上的频率就会额外偏高

所以对于参考集合第一步质控

就是过滤有亲缘关系的样品



PCA过滤


主成分分析是在群体遗传学上一个常用的基因组聚类方式

23魔方的芯片有70万个位点

相当于从70万个维度定义一个样本

PCA就是把70万维降维到2维平面(如下图)


23魔方为什么暂时还测不出满族成分?

一般情况下同一个地区的人群样本

往往会如图中一样聚集在一起

通过这种方式可以快速排除离群的样本

使得参考集更纯



Panel参考集合性能测试


过滤后的

还需要对参考集合做进一步的训练测试

通过Leave-One-Out(留一法)

来对参考集合进一步筛查

对异常或者“不纯”的参考样品删减

从而使我们祖源参考集合性能达到最优



我们统计了23魔方数据库里的资料

把用户填写满族的民族血统分布

作成民族成分分布的箱线图

 

23魔方为什么暂时还测不出满族成分?


 可以看出绝大部分的满族成员

主要成分分布在北方汉族范围

没有存在特别的的民族血统分布

 

在去年12月我们征集了20个样本

(拥有家谱记载的三代同宗的满族人)


23魔方为什么暂时还测不出满族成分?


对这些样本进行检测

并结合公开的民族数据库进行PCA分析

进行了检测和分析,如下图  

23魔方为什么暂时还测不出满族成分?

红色点为我们征集的满族样品

可以看出几乎全部都落在北方汉的集群位置中

 

 结合我们23魔方已有的数据库

以及征集的有家谱记载的满族样品

并结合算法模型对满族进行预测

在已有的数据和模型下

根据现有技术

因此我们无法构建一个的满族训练的集合

抱着对用户负责的态度

为了追求结果的严谨和准确度

所以我们暂时不支持满族的民族血统预测

 

对此,我们会不断努力

争取在将来实现满族的模型预测

 

 预告:

23魔方近期会对民族血统进行一轮升级

增加新的民族参考集

届时大家的血统会进行更新

敬请期待哦~


-end-


 点击下图进入基因检测 


23魔方为什么暂时还测不出满族成分?

 要么买我,要么关注我 

#都请扫描下方二维码#

我是23魔方

中国最会用口水测基因的公众号

23魔方为什么暂时还测不出满族成分?

原创文章,作者:DOT日报,如若转载,请注明出处:https://www.bilingling.cn/news/19491.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注