温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
数据
分析
报告
2016
数据分析报告数据分析报告 2016 年 3 月 9 日 21:02 项目名称:项目名称:Sus scrofascrofa 蛋白组学无标试验蛋白组学无标试验 客户名称:客户名称:完成时间:完成时间:项目编号:项目编号:实验结果实验结果 一共 3 个猪的脑脊液样品 677,635,658,分别为:677 是空白组;635 是脑膜炎链球菌感染;658 是关节炎链球菌感染。3 例(猪的脑脊液)样本,每例样本跑了 3 个fraction,每例样本 3 次实验学重复(共计 27 个 raw 文件)。利用无标 LC-MS/MS 技术结合 Maxquant 软件共鉴定到 3456 个 UNIPROT 蛋白。原始数据提交原始数据提交 原始数据如有需求,可以提交到 iProX(数据提交的中国站点),PRIDE 或 MassiVE 上,供研究人员下载。http:/www.iprox.org/http:/www.proteomexchange.org/submission 数据分析数据分析 2016 年 3 月 9 日 21:03 外源数据库获取外源数据库获取 蛋白信息获取蛋白信息获取 所有蛋白通过 ID 号到 Uniprot(http:/www.uniprot.org)数据库中批量获取对应的注释文件(*.dat)和 fasta 文件。用自编的 PERL 程序 Uniprot_xRef_Function.pl 将 dat文件中的Uniprot 交叉号注释、蛋白名称、功能注释、GO等信息解析成表。详细数据表详细数据表 所有样本的鉴定结果保存在所有样本的鉴定结果保存在 Result.xlsx 的“的“iBAQ”表”表中。中。Result.xlsx 的“的“Log10”表是取”表是取 log 后的结果;而后的结果;而Median 是用中值归一化的结果。是用中值归一化的结果。Result.xlsx 的“的“VolcanoPlot”表是差异分析的结果。”表是差异分析的结果。Sig 列中列中 1 表示上调,表示上调,-1 表示下调,表示下调,0 表示不变。表示不变。差异蛋白差异蛋白 根据实验设计,对所有鉴定定量结果进行统一分析,如果p-value0.05 以及 Fold Change 比值在 2 倍以上的作为候选的差异蛋白。差异蛋白的分析结果见/Diff/目录下的火山图及其表格。全局分析全局分析 2016 年 3 月 9 日 21:03 全局分析的结果见/Global/目录下的结果。表达量分布范围图表达量分布范围图 箱型图 箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种表现有关数据的位置和分散情况资料的统计图。箱形图主要包含六个数据节点,将一组数据从大到小排列,分别计算出他的上边缘,上四分位数(Q1),中位数(Median),下四分位数(Q3),下边缘,还有一个异常值。它可以粗略地表达出数据是否具有有对称性,分布的分散程度等信息,通常用于对几个样本的比较。箱形图中异常值被定义为小于 Q11.5IQR 或大于Q3+1.5IQR(四分位间距)的值。通过比较箱形图的异常值,可以发现数据点在同类其他群体中的位置。样本数据的中位值在该坐标系中越接近 1,反应数据越集中;上下四分位值离中位值越远,表明数据离散趋势越强。聚类热图聚类热图 聚类热图(heatmap)是通过排列矩阵的行列,将相似的数值放在相邻的放以展示聚类分析结果的图像;它可以直观呈现多样本多个基因的全局表达量变化,呈现多样本或多基因表达量的聚类关系。通过聚类分析,可以对数据进行分类并反应其相似程度。聚类热图中的一行代表一个蛋白,一列代表一个样本比较组。其中,不同颜色为样本的不同表达量值,由绿-黑-红表达量依次增加。样本间的欧式距离长短反应其关联性,距离较近说明两组数据性质较近,距离较远说明关联较远。功能分析功能分析 2016 年 3 月 9 日 21:03 所有鉴定蛋白的所有鉴定蛋白的 GO 分析分析 随着新一代测序技术的不断发展,越来越多物种的基因组和转录组获得了高通量测序,给人们带来了海量的核酸序列数据,如何对海量序列中隐含的生物信息进行高通量的解读是研究者要面对的问题序列信息解读的一个核心内容是对基因进行功能注释,具体操作上就涉及到一个概念:基因的本体论(Gene Ontology,GO)注释大多数基因在不同生物中的同 源基因拥有相同的主要生物学功能,因此,在某些物种 里已知的基因功能信息可以用来解释其他物种对应的同源基因但是这些已知的功能信息包含在先前积累的浩瀚文献之中,不同的文献会用不同的词汇来描述 同一生物学功能,这为功能检索和注释带来诸多不便而 GO项目就是建立一套特定的词汇集合来描述生物学功能,以此对基因功能注释统一化用于描述生物学功能的词汇必然要反映生物学功能的本质,此即本体论(Ontology)的由来 GO 项目对基因功能进行了一致性描述,开发了可控制的词汇表,且无物种特异性目前已经建立了三大独立的本体论词汇表:生物过程(Biological Process)、细胞组分(Cellular Componet)和分子功能(Molecular Function)这三大本体论词条下面又可以独立出不同的亚层次,以“有向非循环图(Directedacy-Clicgraphs)”的方式层层向下,将每一个本体论词条串联起来形成树状结构将 GO 词条分配给基因序列的行为即 GO注释目前,GO 注释已经成为高通量测序序列的主要注释方法 综上所述,一个基因编码的蛋白质可以在多种水平上被赋予本体论定义,GO 注释的原理就是通过计算机程序建立基因产物与用于定义它们的本体论词条之间的联系自从1998 年基因本体论项目(Gene Ontology Project)创立以来,已经有多款 GO注释软件发表,实现了基因产物的标准化注释 所有基因列表的富集度计算都是用如下公式:所有基因列表的富集度计算都是用如下公式:参数参数 说明说明 N 背景基因的数目 n 提交基因的数目 M 特定 GO 或通路中的背景基因个数 m 特定 GO 或通路中的提交基因个数 如果 p 值小于 0.05,我们认为这个 GO 或通路是有显著富集度的。利用 MATLAB 软件完成 GO 功能富集度计算,并用 Excel进行图示化。功能类别的统计富集度 p 值来自超几何检验得到,然后经过-log10 转换。GO 的分析结果保存在 GO 文件夹下。C.xlsx 为亚细胞定位;F.xlsx 为分子功能;P.xlsx 为生物学过程。每个每个 Excel 都是相同的格式,如下:都是相同的格式,如下:表名表名 说明说明 AllCount 特定 GO 下蛋白的个数 Genome:整个蛋白库在此类 GO下的个数 Sample:所有鉴定蛋白在此类 GO 下的个数 每组样品:特定样品在此类 GO下的个数-Log10(pValue)特定的 GO 的富集度 Sample:所有鉴定蛋白在此类 GO 下的富集度;以 Genome 为背景 每组样品:特定样品在此类 GO下的富集度;以 Sample 为背景 Enrichment 前两张表格列的简单拼合,方便排序 Matrix 前几列是原始数据,后面的 0-1表是每个蛋白是否属于特定的 GO,可以结合 Excel的筛选功能筛选属于特定 GO的鉴定蛋白 SigCount 差异蛋白的个数分成上下调计算;下调用负号表示,方便在 Excel 中作图 所有鉴定蛋白的所有鉴定蛋白的 KEGG 分析分析 每组样品的鉴定蛋白与差异蛋白利用自编 MATLAB 程序批量将数据上载到 KEGG(http:/www.genome.jp/kegg)网站上,并得到所有通路的 map 结果。KEGG 的分析结果保存在 KEGG 文件夹下。KEGG.xlsx 为通路汇总结果,格式与GO 的 Excel 相同。通路图中红色节点表示显著上调蛋白,绿色表示显著下调蛋白。通路的图注,可登陆 KEGG 网站(http:/www.genome.jp/kegg/document/help_pathway.html)进行查阅 GO 分析分析 2016 年 3 月 9 日 21:03 数据准备数据准备 1.所有蛋白通过 ID 号到 UNIPROT(http:/www.uniprot.org)数据库中批量获取对应的注释文件(*.dat)和 fasta 文件 2.用 PERL 程序 Uniprot_xRef_Function.pl 将 dat文件中的GO 与 KEGG 信息解析成表;形成 xRef_GO.txt 与xRef_KEGG.txt 两个文件 MATLAB 后处理后处理 用用 AnalyzeGO.m 处理,读取原始或差异蛋白处理,读取原始或差异蛋白 Excel,以,以及及 xRef_GO.txt 文件文件 GO 分析数据 结果的统计数据和相关图片均在结果的统计数据和相关图片均在 GO 的目录下,包含三的目录下,包含三类注释(类注释(C:细胞组件;:细胞组件;F F:分子功能;:分子功能;P P:生物学途:生物学途径),各包括以下文件:径),各包括以下文件:All.xlsx,up.xlsx,down.xlsx 分别为总的,上调和下调的基分别为总的,上调和下调的基因的情况表。表中每个因的情况表。表中每个 sheetsheet 的含义为:的含义为:Count:每个样品对应的:每个样品对应的 GO 注释的蛋白数;注释的蛋白数;Ratio:每个样品:每个样品 GO 注释蛋白数除以基因组中该注释蛋白数除以基因组中该 GO 注释的注释的总蛋白数;总蛋白数;Enrichment:根据超几何分布计算的富集度分析结果,值越:根据超几何分布计算的富集度分析结果,值越高,表示富集度越高;高,表示富集度越高;Matrix:每个蛋白的差异显著性和:每个蛋白的差异显著性和 GO 注释的详细表格。注释的详细表格。C:Enrichment SigCount F:Enrichment SigCount P:Enrichment SigCount GO Slim 分析分析 2016 年 3 月 9 日 21:03 数据准备数据准备 1.所有蛋白通过 ID 号到 UNIPROT(http:/www.uniprot.org)数据库中批量获取对应的注释文件(*.dat)和 fasta 文件 2.用 PERL 程序 Uniprot_xRef_Function.pl 将 dat文件中的GO 与 KEGG 信息解析成表;形成 xRef_GO.txt 与xRef_KEGG.txt 两个文件 MATLAB 后处理后处理 定义定义 GO Slim 的目标的目标 GO 号号 修改 GOOntologyGO-Parent.xlsx 文件 形成形成 GO 号与号与 GO Slim号的对应表号的对应表 运行 MyGOID2ParentID.m文件,读取 xRef_KEGG.txt与 GO-Parent.xlsx,形成 SlimTable.xlsx 用用 AnalyzeGO_Slim.m 处理,读取原始或差异蛋白处理,读取原始或差异蛋白Excel 与与 SlimTable.xlsx GO 分析数据 结果的统计数据和相关图片均在结果的统计数据和相关图片均在 GO 的目录下,包含三的目录下,包含三类注释(类注释(C:细胞组件;:细胞组件;F F:分子功能;:分子功能;P P:生物学途:生物学途径),各包括以下文件:径),各包括以下文件:All.xlsx,up.xlsx,down.xlsx 分别为总的,上调和下调的基分别为总的,上调和下调的基因的情况表。表中每个因的情况表。表中每个 sheetsheet 的含义为:的含义为:Count:每个样品对应的:每个样品对应的 GO 注释的蛋白数;注释的蛋白数;Ratio:每个样品:每个样品 GO 注释蛋白数除以基因组中该注释蛋白数除以基因组中该 GO 注释的注释的总蛋白数;总蛋白数;Enrichment:根据超几何分布计算的富集度分析结果,值越:根据超几何分布计算的富集度分析结果,值越高,表示富集度越高;高,表示富集度越高;Matrix:每个蛋白的差异显著性和:每个蛋白的差异显著性和 GO 注释的详细表格。注释的详细表格。C:Enrichment SigCount F:Enrichment SigCount P:Enrichment SigCount KEGG 分析分析 2016 年 3 月 9 日 21:03 数据准备数据准备 1.所有蛋白通过 ID 号到 UNIPROT(http:/www.uniprot.org)数据库中批量获取对应的注释文件(*.dat)和 fasta 文件 2.用 PERL 程序 Uniprot_xRef_Function.pl 将 dat文件中的GO 与 KEGG 信息解析成表;形成 xRef_GO.txt 与xRef_KEGG.txt 两个文件 MATLAB 后处理后处理 用用 AnalyzeKEGG.m 处理,读取原始或差异蛋白处理,读取原始或差异蛋白 Excel,以及以及 xRef_KEGG.txt 文件文件 KEGG 分析数据 结果的统计数据和相关图片均在结果的统计数据和相关图片均在 KEGG 的目录下,包含的目录下,包含以下目录和文件:以下目录和文件:文件:文件:All.xlsx,up.xlsx,down.xlsx 分别为总的,上调和下调的基分别为总的,上调和下调的基因的情况表。表中每个因的情况表。表中每个 sheetsheet 的含义为:的含义为:Count:每个样品对应的:每个样品对应的 GO 注释的蛋白数;注释的蛋白数;Ratio:每个样品:每个样品 GO 注释蛋白数除以基因组中该注释蛋白数除以基因组中该 GO 注释的注释的总蛋白数;总蛋白数;Enrichment:根据超几何分布计算的富集度分析结果,值越:根据超几何分布计算的富集度分析结果,值越高,表示富集度越高;高,表示富集度越高;Matrix:每个蛋白的差异显著性和:每个蛋白的差异显著性和 GO 注释的详细表格。注释的详细表格。K KEGGEGG 目录下是所有差异表达蛋白在目录下是所有差异表达蛋白在 KEGG 网络中的情况;网络中的情况;每个比较的目录表示这两者比较的情况下差异表达蛋白在每个比较的目录表示这两者比较的情况下差异表达蛋白在KEGG 网络中的情况。网络中的情况。COG 分析分析 2016 年 3 月 9 日 21:03 数据准备数据准备 1.从 NCBI 下载 COG 的参考序列 2.数据库搜索的序列数据库 MATLAB 后处理后处理 1.从搜索数据库的 fasta 格式中提取鉴定的蛋白序列,和COG 的参考序列进行 Blast 比对,得到比较结果 2.用 Matlab 程序读取 Blast 结果,并提取对应的 COG 的信息 COG 的的分析结果分析结果 COGCOG 的分析结果见的分析结果见/COG/COG/目录目录下下的的 excelexcel 文件文件:COG_Mapping 表是每个蛋白的 COG 注释信息 COG 表中是各大类的鉴定数目统计 蛋白质相互作用分析 2016 年 3 月 9 日 21:03 数据处理数据处理 1.用 String 在线分析鉴定蛋白的相互作用,卡相互作用的confidence 为 High(0.7),得到所有可能的蛋白质相互作用对 2.用 Cytoscape 展示相互作用信息,并且用 MCODE 进行相互作用的聚类分析 分析结果 分析结果分析结果和和图图在在/PPI/目录下目录下 进行相互作用分析后,得到一个总体的相互作用图进行相互作用分析后,得到一个总体的相互作用图(Col*.all.png)而后进行相互作用高连接度的子网络的分析,得到而后进行相互作用高连接度的子网络的分析,得到 16个子网络,详见文件个子网络,详见文件 mcode.export.txtmcode.export.txt 导出每组比值的前导出每组比值的前 5 5 个高连接度的网络,见图片个高连接度的网络,见图片Col*.cluster*Col*.cluster*.png.png 注意:Col3:表示 658/635 Col4:表示 677/635 Col5:表示 677/658 图形中红色为上调,绿色为下调