https://www.jianshu.com/p/76b4c1382be3
正选择的一般步骤
我想用基因的vcf文件做正选择,有巴布考克鸡的全基因组的vcf,有坝上长尾鸡的全基因组重测序数据vcf,我想筛选clock这个基因,做张选择,我应该怎么做?
使用VCF(Variant Call Format)文件进行正选择分析是一种常见的方法,特别是当你手头有特定物种的全基因组变异数据时。以下是针对你提到的巴布考克鸡和坝上长尾鸡的CLOCK
基因进行正选择分析的一般步骤:
1. 准备工作
- 确认基因位置:首先,你需要知道
CLOCK
基因在鸡的参考基因组上的确切位置(起始和终止坐标)。这个信息可以通过基因组数据库,如NCBI或Ensembl获得。 - 获取参考基因组:确保你有鸡的参考基因组序列,这对于后续的分析至关重要。
2. 提取特定基因的变异数据
- 使用工具提取数据:你可以使用如
bcftools
这样的工具来提取CLOCK
基因区域的变异数据。例如,使用bcftools view
命令,结合CLOCK
基因的位置,从全基因组VCF文件中提取该基因的变异信息。
3. 数据预处理
- 质量控制:对提取出来的变异数据进行质量控制,包括去除低质量的变异位点、过滤掉低深度(coverage)位点等。这一步骤确保分析的准确性。
- 注释变异:使用如
SnpEff
或ANNOVAR
这样的工具注释变异,识别哪些变异是同义的,哪些是非同义的,这对后续分析非常重要。
4. 计算dN/dS比率
- 选择合适的软件:有多种软件和工具可以用来计算dN/dS比率,如
PAML
,HyPhy
, 或DnaSP
等。 - 进行dN/dS比率分析:根据提取和注释的变异数据,使用上述软件之一计算
CLOCK
基因的非同义(dN)与同义(dS)替换率比值。dN/dS > 1可能表明正选择。
5. 进一步的分析
- 结构和功能分析:对发现的正选择信号进一步分析,考虑它们在基因结构上的位置,以及可能对基因或蛋白质功能产生的影响。
- 比较分析:比较巴布考克鸡和坝上长尾鸡中
CLOCK
基因的变异,探索这些变异如何影响各自的生理特征或适应性。
6. 验证和解释结果
- 文献对照:将你的发现与现有的文献进行比较,看看是否有相似的发现或解释。
- 实验验证:可能需要进一步的生物学实验来验证计算分析结果的生物学意义,例如,通过基因表达分析来研究选定变异对
CLOCK
基因功能的影响。
工具和资源
在执行上述步骤时,你可能需要使用到的一些工具和资源包括:
- 基因组数据和数据库:NCBI, Ensembl
- VCF工具:
bcftools
,vcftools
- 注释工具:
SnpEff
,ANNOVAR
- dN/dS比率分析工具:
PAML
,HyPhy
,DnaSP
这只是一个大概的框架,每一步都可能需要根据你的具体数据和目标进行调整。希望这能给你的分析提供一个好的起
选择是两两密码子序列进行比较,计算kn/ks的值?为什么呀?
在分子进化和比较基因组学研究中,(K_a/K_s)(也称为(d_N/d_S)或(ω))比率是一个重要的指标,用于评估蛋白质编码基因的进化速率和模式。这个比率是通过两两比较密码子序列计算得出的,主要原因和目的如下:
1. 进化压力的量化
- (K_a)(或(d_N)):是非同义替换(导致氨基酸改变)的速率,反映了基因或蛋白质在功能或结构上发生改变的能力。
- (K_s)(或(d_S)):是同义替换(不影响氨基酸序列)的速率,被认为是中性进化的代理,因为这些替换不影响蛋白质的功能。
2. 识别选择模式
- **(K_a/K_s > 1)**:表明非同义替换的速率高于同义替换的速率,这通常被解释为正选择或达尔文选择的证据,即有利的突变被选择,促进了基因的进化。
- **(K_a/K_s = 1)**:表明非同义替换和同义替换的速率相同,这通常被解释为中性进化,即突变对生物的适应性没有影响。
- **(K_a/K_s < 1)**:表明非同义替换的速率低于同义替换的速率,这通常被解释为纯化选择(负选择)的证据,即有害的非同义突变被选择性移除,以保持蛋白质的功能不变。
3. 获得进化见解
通过计算(K_a/K_s)比率,研究人员可以获得关于基因或蛋白质在进化过程中受到的选择压力类型的见解。这有助于揭示生物适应性进化的分子机制,理解基因功能的变化,以及在不同物种或种群中识别关键的适应性进化事件。
4. 两两比较的原因
- 精确度:通过两两比较密码子序列,可以更准确地计算(K_a)和(K_s),因为这种方法允许直接比较同一基因在不同物种或种群中的具体变异。
- 适应性分析:两两比较使研究人员能够具体分析每一对物种或种群之间的适应性差异,从而更精细地探索进化历程和适应性特征。
因此,(K_a/K_s)比率的计算提供了一种强大的工具,用于研究基因的进化动态和解释物种如何通过自然选择过程适应其环境。
lositan-selection workbench这个软件里面的,fst/he那个图是什么?
Lositan是一个用于检测自然选择的软件工具,它基于FST和期望杂合度(He)的比较。在Lositan中,FST/He图是一个重要的图表,用于帮助识别受正选择影响的位点。这个图的两个关键参数是:
FST:是一个测量群体间遗传分化的统计量。FST值范围从0到1,值越大表示群体间的遗传分化越大。高FST值可能表明一个位点在不同群体中因自然选择或遗传漂变而具有不同的频率。
He(期望杂合度):是一个衡量群体遗传多样性的指标,反映了一个位点在群体内部的遗传变异。较高的He值表明该位点具有较高的遗传多样性。
FST/He图的解释
图中的点:每个点代表一个遗传标记(如单核苷酸多态性,SNP)。点的位置基于其FST值(通常在y轴)和He值(通常在x轴)。
正选择指示:在FST/He图中,位于图表上方的点表示具有较高FST值的位点,这些位点可能受到了正选择的影响,因为它们在不同群体间显示出较大的遗传分化。特别是,那些同时具有较高FST值和较低He值的位点,更有可能是正选择的结果,因为这表明在某些群体中某个等位基因被强烈选中,导致杂合度降低。
筛选标准:Lositan会通过模拟随机分布来建立期望的FST和He关系,然后将实际数据与这个分布进行比较。位于期望分布外的位点,尤其是 those with higher than expected FST values for their He,可能被视为受正选择影响的候选位点。
实际应用
在实际应用中,研究人员利用FST/He图来识别在不同环境条件或生态位下可能发生适应性进化的基因。通过这种方法,可以揭示哪些基因可能对生物的适应性特征贡献最大,从而为进一步的功能性研究提供线索。这种分析在进化生物学、保护生物学和种群遗传学中尤为重要,因为它提供了一种直观的方法来识别和解释遗传数据中的自然选择信号。
种内正选择
做种内正选择,需要什么数据?
进行种内正选择(positive selection)的分析主要旨在识别自然选择作用下保留下来的基因或基因区段,这通常意味着这些基因或区段在物种的适应性进化中扮演了重要角色。要进行这样的分析,需要准备以下类型的数据和资源:
序列数据:
- 多个等位基因序列:对于种内分析,你需要收集同一物种内不同个体的同一基因的序列。这些序列代表了基因的不同等位基因,可以用来探测正选择的信号。
- 高质量的参考基因组:有时,你还需要该物种的参考基因组来辅助分析,特别是在定位基因或基因组区段以及进行注释时。
比对和变异检测工具:
- 多重序列比对工具:如MAFFT、MUSCLE或Clustal Omega,用于比对等位基因序列。
- 变异检测工具:根据比对结果,可以使用特定的工具来检测序列间的变异,包括单核苷酸多态性(SNP)和插入/缺失(indels)。
正选择分析软件:
- PAML(Phylogenetic Analysis by Maximum Likelihood):特别是它的Codeml工具,可以用来分析氨基酸替换的模式,识别受正选择作用的密码子。
- HYPHY:包括BUSTED、MEME和FEL等方法,用于检测正选择信号。
- SLiM或SweeD:用于扫描基因组以寻找选择信号的工具。
统计和图形软件:
- 用于进化率计算、统计检验和可视化分析结果的软件,如R语言及其包、Python或专门的进化分析软件。
额外的比较组数据(可选):
- 有时,与其他物种的比较数据也可以帮助识别正选择,特别是在进行种间比较的情况下。这需要收集其他物种中相应基因的序列数据。
实验室条件下的功能验证数据(可选):
- 对于一些研究,特别是那些寻找特定功能变异的,实验室验证(如表型分析、基因表达实验)的数据也是重要的补充,可以帮助解释正选择的生物学意义。
在进行种内正选择分析之前,收集和准备上述数据是非常重要的。这需要综合运用生物信息学、统计学和分子生物学的知识。此外,对分析结果的解释需要谨慎,特别是考虑到可能的混淆因素,如群体结构和基因流,这些因素可能会影响选择信号的检测。
鸡chicken,Chicken (bGalGal1.mat.broiler.GRCg7b)
https://useast.ensembl.org/Gallus_gallus/Info/Index
这段信息提到了一种肉鸡基因组的组装版本“bGalGal1.mat.broiler.GRCg7b”,其访问编号为GCA_016699485.1。这是肉鸡基因组的一种参考组装,旨在为研究者提供详细的基因组信息,有助于肉鸡相关的基因组学研究和遗传改良。
鸡chicken breeds
这些信息描述了两种鸡的基因组数据:
https://useast.ensembl.org/Gallus_gallus/Info/Breeds
白色莱霍恩种母鸡(Gallus gallus)的基因组数据,使用的是bGalGal1.pat.whiteleghornlayer.GRCg7w组装版本,访问编号为GCA_016700215.2。白色莱霍恩鸡是一种常见的蛋鸡品种,以高产蛋和较快的生长速度而知名。
红色丛林鸡(Gallus gallus)的基因组数据,使用的是GRCg6a组装版本,访问编号为GCA_000002315.5。红色丛林鸡被认为是所有家鸡的祖先,具有重要的研究价值,尤其在研究家鸡的驯化和进化方面。
https://useast.ensembl.org/Gallus_gallus/Gene/Summary?g=ENSGALG00010015364;r=4:64586757-64632362
https://www.ncbi.nlm.nih.gov/search/all/?term=gallus%20gallus%20clock
这些信息描述了两种鸡的基因组数据:
白色莱霍恩种母鸡(Gallus gallus)的基因组数据,使用的是bGalGal1.pat.whiteleghornlayer.GRCg7w组装版本,访问编号为GCA_016700215.2。白色莱霍恩鸡是一种常见的蛋鸡品种,以高产蛋和较快的生长速度而知名。
红色丛林鸡(Gallus gallus)的基因组数据,使用的是GRCg6a组装版本,访问编号为GCA_000002315.5。红色丛林鸡被认为是所有家鸡的祖先,具有重要的研究价值,尤其在研究家鸡的驯化和进化方面。
这段信息提到了一种肉鸡基因组的组装版本“bGalGal1.mat.broiler.GRCg7b”,其访问编号为GCA_016699485.1。这是肉鸡基因组的一种参考组装,旨在为研究者提供详细的基因组信息,有助于肉鸡相关的基因组学研究和遗传改良。
先在数据库中提取基因对应文件
cd /data/zcs回车进入文件所在路径
sudo bcftools filter chicken.vcf.gz –regions 4:69517569-69524964 >/home/dell/data/TLR1A.vcf
或者bcftools filter chicken.vcf.gz –regions 4:69517569-69524964 >/home/dell/data/ZXF/TLR1A.vcf
cd /data/zcs回车进入文件所在路径
sudo bcftools filter chicken.vcf.gz –regions 4:69117413-69122553 >/home/dell/data/TLR1B.vcf
或者bcftools filter chicken.vcf.gz –regions 4:69117413-69122553 >/home/dell/data/ZXF/TLR1B.vcf
bcftools filter chicken.vcf.gz –regions 4:69517569-69524964 >/home/dell/data/ZXF/TLR1A.vcf
可以使用bcftools
命令来查看VCF文件的头部信息。使用以下命令:
1 | bcftools view -h chicken.vcf.gz |
这个命令会打印出VCF文件的头部信息(header),其中包含了很多有用的信息,如文件格式、比对的基因组版本、参考序列以及其他元数据。
我需要知道版本信息
KPSNY082023046K_KPS202306081_张传生_河北科技师范学院_40个内脏组织_鸡_重测序-10G
bgzip -c 40.vcf > 40.vcf.gz
bcftools index 40.vcf.gz
]
4:64586757-64632362
bcftools filter 40.vcf.gz –regions 4:64586757-64632362 > clock.vcf
/media/dell/XIFEI/bbkkb380/40个内脏组织_鸡-10G/04.vcf
MEGA进化树改变颜色,分支点,然后subtree-锤子图案,然后display
reference=file:///lustre/user/wangms/wms_project/ref_data/Red_ref4_chorm.fa
http://may2015.archive.ensembl.org/Gallus_gallus/Info/Index
染色体:Galgal4:CM000096.3:64696007:64717393:1
染色体:Galgal4:CM000101.3:4978758:5005060:1
chromosome:Galgal4:CM000113.3:291840:308592:1
PER3-201 (Chicken Transcript)
ENSGALT00000000797 21:291840-308592:-1
Period circadian clock 3 [Source:HGNC Symbol;Acc:HGNC:8847]
PER3-201 (HGNC transcript name record with a description of period circadian clock 3) is associated with Transcript ENSGALT00000000797
LocationExternal Refs.cDNA seq.Variation tableProtein seq.PopulationProtein
PER3 (Chicken Gene)
ENSGALG00000000573 21:291840-308592:-1
Period circadian clock 3 [Source:HGNC Symbol;Acc:HGNC:8847]
PER3-201 (HGNC transcript name record with a description of period circadian clock 3) is associated with Transcript ENSGALT00000000797
Variation tablePhenotypesLocationExternal Refs.RegulationOrthologuesGene tree
Gene: PER3 ENSGALG00000000573
Description
period circadian clock 3 [Source:HGNC Symbol;Acc:HGNC:8847]
Location
Chromosome 21: 291,840-308,592 reverse strand.
INSDC coordinates
chromosome:Galgal4:CM000113.3:291840:308592:1
About this gene
This gene has 1 transcript (splice variant), 56 orthologues, 1 paralogue and is a member of 1 Ensembl protein family.
CRY2
http://may2015.archive.ensembl.org/Gallus_gallus/Gene/Summary?db=core;g=ENSGALG00000008436;r=5:23244457-23264618;t=ENSGALT00000013745
chromosome:Galgal4:CM000097.3:23244457:23264618:1
chromosome:Galgal4:CM000093.3:53554188:53588375:1
CRY1 (Chicken Gene)
ENSGALG00000012638 1:53554188-53588375:-1
Cryptochrome-1 [Source:RefSeq peptide;Acc:NP_989576]
GO:0043153 (GO record with a description of entrainment of circadian clock by photoperiod) is associated with Translation ENSGALP00000020598
Variation tablePhenotypesLocationExternal Refs.RegulationOrthologuesGene tree
Announcement
Dear valued users,
We are pleased to announce that to ensure the long-term stable development of our website, we have migrated the original web domain name (nwsuaf.edu.cn) to the new one (animal.omics.pro). We apologize for any inconvenience this may have caused and kindly request your understanding during this transition.
To access the desired resources, please click the following links. We hope to earn your continued support and patronage. Additionally, you can access our animal omics dataset (AOD) at http://animal.omics.pro/ and navigate to other sub-datasets by clicking on the ‘Database’ menu in the AOD.
If you have any questions or concerns, please feel free to contact us at yu.jiang@nwafu.edu.cn. Thank you for your understanding and cooperation.
Best regards, AOD
Animal Omics Database (AOD), (http://animal.omics.pro)
Ruminant Genome Database (RGD) Version 2, (http://animal.omics.pro/code/index.php/RGD)
Bovine VariationDB (BGVD),(http://animal.omics.pro/code/index.php/BosVar)
Sheep VariationDB (SheepVar),(http://animal.omics.pro/code/index.php/SheepVar)
Goat VariationDB (GGVD),(http://animal.omics.pro/code/index.php/GoatVar)
Chicken VariationDB ,(Galbase)(http://animal.omics.pro/code/index.php/ChickenVar)
panPigDB (PIGPAN),(http://animal.omics.pro/code/index.php/panPig)
panGoatDB (GOATPAN),(http://animal.omics.pro/code/index.php/panGoat)
panChickenDB (CPAN),(http://animal.omics.pro/code/index.php/panChicken)
Wheat VariationDB (WGVD),(http://animal.omics.pro/code/index.php/Wheat)
Ruminant Genome Database(RGD)Version 1,(http://animal.omics.pro/code/index.php/Ruminantia)
CLOCK (Chicken Gene)
ENSGALG00000013793 4:65084415-65108758:1
CLOCK-202 (Chicken Transcript)
ENSGALT00000099728 4:65085161-65107085:1
PER3 (Chicken Gene)
ENSGALG00000000573 21:291189-310409:-1
PER2 (Chicken Gene)
ENSGALG00000005521 9:5655084-5680030:-1
CRY
CRY1 (Chicken Gene)
ENSGALG00000012638 1:53591410-53626354:-1
CRY2 (Chicken Gene)
ENSGALG00000008436 5:24183069-24201831:-1
CRY4 (Chicken Gene)
ENSGALG00000000104 26:1089542-1098705:-1
ARNTL(Bmal1)
ARNTL (Chicken Gene)
ENSGALG00000005378 5:7820343-7864789:-1
plink –vcf chicken_6a.vcf.gz –make-bed –out chicken –chr-set 39
plink –bfile chicken –chr 4 –from-bp 64696007 –to-bp 64717393 –make-bed –out clock –chr-set 39
plink –bfile clock –recode vcf –out clock_vcf –chr-set 39
正选择