网站首页 > 文章中心 > 其它

r语言go人类基因注释

作者:小编 更新时间:2023-09-06 12:54:05 浏览量:240人看过

GO文件中的注释信息是如何得到的

一直很好奇GO注释文件中的信息是如何得到的,终于在<>中找到了答案.

GO的原始文件可以分为两部分:ontology和association files.

这部分文件主要是关于GO词条的具体功能信息,以及相关的支撑信息,以GAF或GPAD格式储存.

目前对基因的注释主要有两种手段:人工注释和机器注释.

机器注释主要两大类方法:根据序列进行注释和文本挖掘的方法注释.

①.、根据序列信息进行注释:

annotation transfers from Homologous proteins

r语言go人类基因注释-图1

annotation transfers from Orthologous proteins

annotation transfers from Protein families

Automatic text categorization

Lexical approaches

k-Nearest neighbors

Properties of Lexical and k-NN categorizers

Inter-annotator agreement

r语言go人类基因注释-图2

每种方法的具体解释参考<>的相关章节.

GO(Gene Ontology)

Ontology 首先是出现于哲学领域的一个词汇,后来广泛用于计算机领域,发挥了很重要的作用,再后来这个概念被引入生物领域.

gene Ontology 是生物中Ontology中一个重要应用.go项目最初是由研究三种模式生物(果蝇、小鼠和酵母)基因组的研究者共同发起.是生物信息分析中很重要的一个方法

go是在生物领域应用非常广,可以帮助生物学家对基因产物进行准确的定义(功能、位置),节省时间.

因为在最开始的时候,生物学家们更多是专注于自己研究的物种/课题,而且每个生物学家对功能等的定义是存在差异的,导致不同实验室/物种不能实现直接的对接(比如A物种内的x基因的功能使用的是a这个词汇进行注释,而B物种内的x基因的功能却使用的是与a同义的词汇b进行注释,这种情况计算机无法识别),就像讲两种语言的人,无法直接进行语言交流.这种情况导致的问题是,出现了一种阻碍,让问题复杂化了.所以就有了Ontology在生物领域中的应用,实现"书同文".

go定义了基因/基因产物的功能(通过术语)且定义了它们各自之间功能是怎样联系的(关系).它组成了一个具有大量term的词汇库,并定义各种term之间的关系(is_a part_of R).

GO通过三个方面的术语对基因/基因产物的功能进行描述:分子功能(molecular function) -由基因/基因产物行使的分子水平上的功能; 细胞组件(cellular component)-基因/基因产物产生功能时其在细胞结构上的位置;生物学过程(biological process)-在哪个生物学通路/生物过程发挥作用.

目前,GO 注释主要有两种方法:

GO 的图形是一个有向无环图

R语言:clusterProfiler进行GO富集分析和Gene_ID转换

ID转换用到的是 bitr() 函数,bitr()的使用方法:

org.Hs.eg.db包含有多种gene_name的类型

keytypes() :keytypes(x),查看注释包中可以使用的类型

columns() :类似于keytypes(),针对org.Hs.eg.db两个函数返回值一致

select() :select(x, keys, columns, keytype, ...) eg.

函数enrichGO()进行GO富集分析,enrichGO()的使用方法:

举例:

什么叫go注释

大致是解释这个基因的功能的.如它所生成的蛋白质的功能,参与了那些代谢调节等方面的解释.

ID转换大全-3-使用R语言获取人类所有基因的名字,ID,symbol以及别名

参考

在输出的文件里面可以搜索:

都是 SWI/SNF Related, Matrix Associated, Actin Dependent Regulator Of Chromatin,我是在genecard里面 检查 SMARC发现的

但是大部分文章里面却总是使用它们的别名.

GO、KEGG富集分析(一)有参情况

对基因的描述一般从三个层面进行:

这三个层面具体是指:

得到GO注释

做GO分析的思路:

GO富集分析原理:

有一个term注释了100个差异表达基因参与了哪个过程,注释完之后(模式生物都有现成的注释包,不用我们自己注释),计算相对于背景它是否显著集中在某条通路、某一个细胞学定位、某一种生物学功能.

clusterProfiler是一个功能强大的R包,同时支持GO和KEGG的富集分析,而且可视化功能非常的优秀,本章主要介绍利用这个R包来进行Gene Ontology的富集分析.

①1 准备输入数据

r语言go人类基因注释-图3

待分析的数据就是一串基因名称了,可以是ensembl id、entrze id或者symbol id等类型都可以.把基因名称以一列的形式排开,放在一个文本文件中(例如命名"gene.txt").Excel中查看,就是如下示例这种样式.

加载了注释库之后,读取基因列表文件,并使用clusterProfiler的内部函数enrichGO()即可完成GO富集分析.

读取基因列表文件,并使用clusterProfiler的内部函数enrichKEGG()即可完成KEGG富集分析.

此外,clusterProfiler中也额外提供了一系列的可视化方案用于展示本次富集分析结果,具有极大的便利.

参考:

;utm_medium=timeline

以上就是土嘎嘎小编为大家整理的r语言go人类基因注释相关主题介绍,如果您觉得小编更新的文章只要能对粉丝们有用,就是我们最大的鼓励和动力,不要忘记讲本站分享给您身边的朋友哦!!

版权声明:倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本站《原创》内容,违者将追究其法律责任。本站文章内容,部分图片来源于网络,如有侵权,请联系我们修改或者删除处理。

编辑推荐

热门文章