wuwu,mei tu
更新内容:把GO,KEGG.shiny改为GO,KEGG,GSEA.shiny
添加一个GO美化的柱状图,
增加了GSEA分析的图
GSEA目前能做出3种图
GSEA的小提琴图 GSEA热图的可视化图像 GSEA的点图
下面是添加上面内容后的教程
TBtools|GO,KEGG,GSEA富集分析
- 「GO,KEGG,GSEA.shiny」
思路来自于:TBtools | 零基础掌握WGCNA共表达网络分析 - 「WGCNAshiny by Warlock」 (qq.com)等老师的文章。
目前只适合下面这些物种做GO,KEGG,GSEA富集分析:
具体物种的数据库,可以从下面的网站找到
GO物种缩写索引表:http://bioconductor.org/packages/release/BiocViews.html#___OrgDb
KEGG物种缩写索引表:https://www.genome.jp/kegg/catalog/org_list.html
其中GO表里只有19个物种,KEGG表里有大部分的物种,说明KEGG其实能做更多的物种。GSEA只需要GO和KEGG对应的是同一个物种就行。
数据下载,下面示例的数据可以在这里面下载:
链接:https://pan.baidu.com/s/1Xj8WPLOBGQfd8_4QP4OwdQ?pwd=2gwn
提取码:2gwn
使用 GO,KEGG,GSEA.shiny 插件
GO,KEGG,GSEA.shiny 插件本身其实是一个 Shiny 程序。R插件的界面由 TBtools 主要完成。非常方便。点击「Start」。
GO,KEGG,GSEA.shiny 插件
可以看到界面变化,随后等待两分钟(GO,KEGG,GSEA,shiny插件依赖较多,需要等待加载)。加载完成,即可看到Shiny 插件弹出的网页接口。随后所有分析在其上开展(注:TBtools可以最小化,但不要关闭)
Shiny 插件弹出的网页
此处,准备了一个基因名字(gene_symbol)的文件,支持csv,xlsx,txt输入,基因的ID转换可以在网上找教程,我一般用的是ensemble数据库的BioMart。
下面用拟南芥的和鸡的基因做个GO,KEGG的例子,再用人的基因做GSEA的例子。
拟南芥的gene_symbol文件
鸡的gene_symbol文件
开始的时候,请先调到对应物种,再输入文件!否则如果输入的基因名字在别的基因库中没有。此时界面就会卡住,需要刷新从新做。
物种不对应会出现的问题
先以拟南芥为例,先调到拟南芥的GO号(At tair)和KEGG(ath)号。
然后拖入文件,等一段时间,会看到富集的图。然后就能找到
目前可以调整富集分析的pvalueCutoff和qvalueCutoff值,图的宽和高,字号大小。
pvalueCutoff是在假设检验中常用的一个参数,用于描述检验结果是否具有统计显著性。在富集分析中,p-value表示一个富集分析结果与随机事件产生该结果的概率大小。p-value越小,代表该结果的富集程度越显著。
qvalueCutoff是用于控制错误发现率(FDR)的一种统计指标,它定义为已知的p-value中,期望的FDR所达到的最小值。在富集分析中,qvalueCutoff通常用于控制多重检验的误差率,例如使用Benjamini-Hochberg校正方法来调整p-value。qvalueCutoff越小,代表该结果的富集程度经过多重检验校正后,依然保持显著。
因此,在进行富集分析时,pvalueCutoff和qvalueCutoff值分别用于筛选结果的显著性水平。通常情况下,我们会将pvalueCutoff和qvalueCutoff设置为较小的值,以筛选出显著的富集信息,从而较好地解释生物学上的差异。但是,在具体应用时,pvalueCutoff和qvalueCutoff的具体设置需要结合具体的研究问题、数据分析流程及其统计方法进行考虑。
所以一般按照默认0.05,如果不出图就适当调大,确保结果可视化。
这样的错误请适当调大p值q值,确保结果可视化
想要保存图片,直接在浏览器里,鼠标右键保存即可,保存的都是完整的图。
简单下载图的方法
也可以下载富集的文件,操作如下图。
这个文件的内容是会随着pvalueCutoff和qvalueCutoff的改变而动态变化的。
下载富集的文件
更新内容(6/15):添加了GSEA富集分析,算是完成了最初的想法吧。
下面主要是GSEA富集分析的演示:
这个是人的GSEA数据,相比GO,KEGG的数据,多一列logFC数据。
人的gene_symbol和logFC文件
先把GO,KEGG的编号改为人的Gg和gga,然后把这个数据拖入插件中,稍等一会。插件会根据第一列的数据自动生成GO和KEGG图:
GSEA需要手动点击开始GSEA分析,插件会根据第一列和第二列的数据生成GSEA的图
下载的GSEA数据表格:
下面是我想用这个和网站做的做个对比,看看这个是否可靠。
因为我想要与网站上的GO,KEGG图做对比,而网站上的没有拟南芥,那么接下来我用鸡的基因来做,最后和网页上的进行对比。
网站上做富集分析的界面
插件上的GO富集分析柱状图
对比下方的网站的分析,因为横坐标不同,我的是count,用颜色来表示padjust网站上的是Enrichment score,用长度来表示padjust,殊途同归,我也可以多加一个类似网站的富集分析柱状图。
网站的GO富集分析柱状图
对比分析网站上的,差别也不是很大。
网站的GO富集分析文件(左)与插件上的GO富集分析文件(右)
对于KEGG也基本一样,可能用的数据库不同,对比还是有区别的,这点需要注意。
目前:GO能做出5种图,如下。
GO富集分析柱状图 GO富集分析点状图
GO美化后的富集分析柱状图
基因-通路关联网络图 基因-通路关联热图
GO富集分析emapplot
KEGG能做出4种图
KEGG富集分析柱状图
KEGG富集分析点状图
KEGG富集分析Cnetplot
KEGG富集分析热图
GSEA目前能做出3种图
GSEA的小提琴图
GSEA热图的可视化图像
GSEA的点图
GO,KEGG,GSEAshiny优势主要是能动态的改变富集分析图的一些值,能动态的更直观的预览图片,文件,使用者可能会对GO,KEGG,GSEA有更深的认识。
后续,因为没有对所有的情况一一验证,所以可能有很多bug,我会注意修改,增加更多的图的类型,并且使每一个图能改变的参数更多等,欢迎大家多多指教。