场景 从GISAID上面批量下载下来的序列id很长,格式如下: 太长了,并且makeblastdb的时候-parse_seqids参数会导致报错,大概是长度太长不符合要求无法处理之类的。 不作处理去掉-parse_seqids也没问题,不过怕后期引起不必要的麻烦,这个时候就需要处理一下这些id sed 想着直接sed处理一下就
for fasta in *fasta; do if [ -e ~/Workfile/Alphafold2_Output/${fasta%.fasta}/ranked_0.pdb ];then echo $fasta; cp ~/Workfile/Alphafold2_Output/${fasta%.fasta}/ranked_0.pdb ${fasta%.fasta}.pdb; rm -rf ~/Workfile/Alphafold2_Output/${fasta%.fasta}/msas; rm ~/
001、读取fasta文件 root@PC1:/home/test# ls a.fasta root@PC1:/home/test# cat a.fasta ## 测试数据 >Rosalind_1 ATCCAGCT >Rosalind_2 GGGCAACT >Rosalind_3 ATGGATCT >Rosalind_4 AAGCAACC >Rosalind_5 TTGGAACT >Rosalind_6 ATGCCA
001、 方法1 root@PC1:/home/test# ls a.fasta test.py root@PC1:/home/test# cat test.py ## 测试程序 #!/usr/bin/python in_file = open("a.fasta", "r") dict1 = dict() for i in in_file: i = i.strip() if i[0] == &qu
001、 (base) root@PC1:/home/test2# ls a.fasta test.py (base) root@PC1:/home/test2# cat a.fasta ## 测试fasta文件 >gene2 myc AGCTGCCTAAGC GGCATAGCTAATCG >gene1 jun ACCGAATCGGAGCGATG GGCATTAAAGATCTAGCT >gene4 malat1 AGGCTAGCGAG GCGC
001、 (base) root@PC1:/home/test2# ls a.fasta test.py (base) root@PC1:/home/test2# cat a.fasta ## 测试fasta文件 >gene1 myc AGCTGCCTAAGC GGCATAGCTAATCG >gene2 jun ACCGAATCGGAGCGATG GGCATTAAAGATCTAGCT >gene3 malat1 AGGCTAGCGAG GCGCGAG GATT
001、 fasta序列迭代 (base) root@PC1:/home/test2# cat a.fasta ## 测试fasta文件 >gene1 myc AGCTGCCTAAGC GGCATAGCTAATCG >gene2 jun ACCGAATCGGAGCGATG GGCATTAAAGATCTAGCT >gene3 malat1 AGGCTAGCGAG GCGCGAG GATTAGGCG >>> import pyfastx
001、 root@DESKTOP-1N42TVH:/home/test5/test/test# ls test.fa root@DESKTOP-1N42TVH:/home/test5/test/test# cat test.fa >Chr1 ACCCTAAACCCTAAACCCTAAACCCTAAACCCTAAACCCTAACCCTAAAC ACCCTAAACCCTAAACCCTAAACCCTAAACCCTAAACCCTAACCCTAAAC >Chr2 ACCCTAAACCCTAAAC
001、测试数据 [root@PC1 test2]# ls a.fa test.py [root@PC1 test2]# cat a.fa ## 测试数据 >OR4F5_ENSG00000186092_ENST00000641515_61_1038_2618 CCCAGATCTCTTCAGTTTTTATGCCTCATTCTGTGAAAATTGCTGTAGTCTCTTCCAGTTATGAAGAAGGTAACTGCAGAGGCTATTTCCTGGAATGAATCAACGAGTGA
python GISAID 网站爬虫实践:fasta文件获取 临近毕业,老师交给我的爬虫任务已经结束。反正留在电脑里也没用,不如发出来造福大家。 简介: GISAID是流行病毒共享组织,网址“www.gisaid.org”,服务器位于美国洛杉矶、旧金山等地, 需要教育邮箱注册账号才能访问其数据。它的网站比较老
1、测试数据 root@PC1:/home/test# ls record.txt test.fa root@PC1:/home/test# cat test.fa >OR4F29_ENSG00000284733_ENST00000426406_20_955_995 AGCCCAGTTGGCTGGACCAATGGAT GGAGAGAATCACTCAGTGGTATCTGAG TTTTTGTTTCTGGGACTC >OR4F16_ENSG00000284662_ENST00000332831_
FASTQ with Emoji = FASTQE
有时候需要个性化处理原始序列,自己写python脚本太慢,且速度太慢,可以用seqkit这个工具,开发得不错。 比如提取10x genomics的barcode,fastq里的前16个碱基。 seqkit subseq Vcl-YFP-CNCC_3_S35_L004_R2_001.fastq.gz -r 1:16 > tmp.fastq 参考: fasta/fq文件处理万能工具
2021SC@SDUSC 文章目录 前言一、Google Colab介绍二、代码地址三、代码分析四、效果展示 前言 今天尝试在google colab快速跑通Alphafold2的简易版,进行蛋白质预测初体验 一、Google Colab介绍 Google Colab是一个免费的 Jupyter 笔记本环境,不需要进行任何设置就可
本人在读研究生,方向环境微生物。之前在学习生物信息分析过程中在网络上四处奔走获取相关学习资料与解决问题,好生麻烦。于是,我就把与同学一起做的一些生物信息分析相关教程与经验总结搬运到这个CSDN这个大平台上来,希望能够与大家一起学习讨论。班门弄斧,大神见文多指教,抱拳抱拳抱
本人在读研究生,方向环境微生物。之前在学习生物信息分析过程中在网络上四处奔走获取相关学习资料与解决问题,好生麻烦。于是,我就把与同学一起做的一些生物信息分析相关教程与经验总结搬运到这个CSDN这个大平台上来,希望能够与大家一起学习讨论。班门弄斧,大神见文多指教,抱拳抱拳抱
本人在读研究生,方向环境微生物。之前在学习生物信息分析过程中在网络上四处奔走获取相关学习资料与解决问题,好生麻烦。于是,我就把与同学一起做的一些生物信息分析相关教程与经验总结搬运到这个CSDN这个大平台上来,希望能够与大家一起学习讨论。班门弄斧,大神见文多指教,抱拳抱拳抱
模拟一个简单计算器 Read simulators are widely being used within the research community to create synthetic and mock datasets for analysis. In this article, I will introduce some recently proposed, commonly used read simulators. 阅读模拟器在研究社区中被广
格式说明 FASTA格式是一种基于文本用于表示核苷酸序列(或氨基酸序列)的格式。碱基对(或氨基酸)用单个字母来编码,且允许在序列前添加序列名及注释。 >gi|46575915|ref|NM_008261.2| Mus musculus hepatic nuclear factor 4, alpha (Hnf4a), mRNA GGGACCTGGGAGGAGGCAGGAGGAGGGCGGG
1.以scaffold.fasta作为输入文件,计算GC含量以及N50和N90 2.根据给定的基因组scaffold.fasta文件和相对用的基因注释gff文件提取基因的cds区域,并以每行60个碱基的格式输出到cds.fasta文件中 3.以cds.fasta作为输出文件,将其翻译成蛋白质序列并以每行60个氨基酸的格式输出到pep.fa
1、RepeatMasker 1.1、输入 输入格式为fasta序列,不接受其它 GenBank, Staden,等格式。它既可以处理一个批文件(一个文件包含许多条序列),也可以批处理许多文件(每个文件含有一条序列)。 RepeatMasker *.fasta 该命令将mask当前目录下所有的以.fasta文件结尾,并为每个文件提供
1,返回Fasta类型结果: 2,返回XML格式结果:
对初步组装进行polish 以FASTA和BAM文件作为输入,根据比对结果对输入的参考基因组进行提高,包括 单碱基差异 小的插入缺失(indels) 较大的插入缺失或者block替换 填充参考序列中的N 找到局部的错误组装 最后输出polish后的FASTA文件 参考来源: https://www.jianshu.com/p/cce
文章首发在个人博客: NECAT: Nanopore数据的高效组装工具 NECAT是肖传乐老师团队开发的一个针对Nanopore数据组装的软件,目前该工具尚未发表,除了https://github.com/xiaochuanle/NECAT有软件的介绍外,暂时没有中文资料介绍NECAT的使用。 太长不看的结论: Nanopore的组装推
我有一个包含蛋白质序列的fasta文件.我想选择超过300个氨基酸的序列,半胱氨酸(C)氨基酸出现超过4次. 我用这个命令来选择超过300 aa的序列: cat 72hDOWN-fasta.fasta | bioawk -c fastx 'length($seq) > 300{ print ">"$name; print $seq }' 一些序列示例: >jgi|Triasp1|21661