这是学术性的问题,不是技术的问题。基因在RNA层次和protein层次表达的不⼀致性是⼀个公认的事实,通常较好的相关性只有〜0.5左右,即RNA和protein往往是两个不⼀样的概念。引起RNA和protein差异的原因很多,比如miRNA、lincRNA、circle RNA和E3 ligase等等。
样本组别之间的差异蛋⽩质(fold change>1.2)数量多少主要与样本本⾝的⽣物学差异大小有关。⼀般如正常组织和病理组织之间的样本差异⽐较显著,得到的差异蛋⽩质数量较多(⼀般差异蛋⽩质数量占蛋⽩质鉴定总数的10%左右)。然而,病理组和药物处理组之间的样本差异则不⼀定显著,如药物是否有效、药物处理浓度是否合适 、取样时间是否恰当等因素都可能导致差异蛋⽩质数量较少。
如果仅按照fold change>1.2筛选得到蛋⽩质数量并不少,但是通过p value<0.05再做进⼀步筛选后得到的差异蛋⽩质数量显著减少,则主要是由组内样本的⽣物学个体变异较⼤造成的。该情况下 可考虑剔除组内样本重复检测数据中波动较⼤的个别数据。
同时满足统计学分析和差异倍数过滤标准,如fold change>1.2以及显著性分析p value<0.05。如果这样筛选的差异数据非常多,则可提高筛选标准,如fold change>1.5甚⾄>2或者p value<0.01等。
参考⽂献:
Moulder R, Lon nberg T, et al. Quantitative proteo mics analysis of the nuclear fraction of human CD4+ cells in the early phases of IL-4-induced Th2 differentiation.Mol Cell Proteomics. 2010; 9(9): 1937-1953.(fold change>1.2and p value<0.05)。
覆盖度不能代表可信度,只要肽段的匹配鉴定是可信的,即使蛋白的覆盖率不⾼,这个蛋⽩的鉴定结果也是可信的,可以通过提高蛋白纯度来提高蛋⽩覆盖率。
⼀两次质谱实验⽆法做到绝对的有或⽆的鉴定,有很多原因造成某个蛋⽩不检出,⽐如丰度较低,质谱采集的随机性等等,经过质谱广泛鉴定实验可以初步指⽰可能存在的有或无的蛋⽩差异可能性,后期需要多次质谱实验以及靶向质谱实验验证有或⽆的确定性。
⼀般的定量蛋⽩质组学实验都是以共有蛋⽩为前提的,挑选不同样本间的差异表达蛋⽩。
数据库质量不好通常是鉴定数量较少的主要原因。如数据库不好(通常是数据库收录的蛋⽩质序列较少),可考虑更换在进化树上同源性较近的、研究比较清楚的、基因组数据库相对完整的模式物种的数据库重新搜库。根据样品SDS-PAGE图,判断样本本⾝的蛋⽩质条带丰富程度,是否样本蛋⽩质条带较少,或者是样本有降解。
根据SDS-PAGE图判断样品中是否存在高丰度蛋⽩质,⾼丰度蛋白质会影响样本整体蛋⽩质鉴定数量。
本公司开展的实验⼀般采用商业化软件Proteome Discoverer(Thermo Scientific)进⾏蛋⽩质定性和定量分析,蛋白质定性筛选标准为peptide FDR≤0.01。FDR是通过检索⽬标数据库(Target database)和Decoy库(Decoy库由Proteome Discoverer 软件⾃动创建)后,根据得到的匹配图谱数量计算得来。设置该软件中的“High Confidence Filter Settings”高可信度过滤参数即可得到符合FDR≤0.01的数据。FDR≤0.01为公认的数据筛选标准,我们提供的报告中的数据均已经通过FDR≤0.01标准筛选,因此均是可信数据。