Fasta

原来sed不支持非贪婪匹配2022-09-15 12:04:43

场景从GISAID上面批量下载下来的序列id很长，格式如下：太长了，并且makeblastdb的时候-parse_seqids参数会导致报错，大概是长度太长不符合要求无法处理之类的。不作处理去掉-parse_seqids也没问题，不过怕后期引起不必要的麻烦，这个时候就需要处理一下这些id sed 想着直接sed处理一下就
fasta AF2建模后处理2022-08-29 11:01:24

for fasta in *fasta; do if [ -e ~/Workfile/Alphafold2_Output/${fasta%.fasta}/ranked_0.pdb ];then echo $fasta; cp ~/Workfile/Alphafold2_Output/${fasta%.fasta}/ranked_0.pdb ${fasta%.fasta}.pdb; rm -rf ~/Workfile/Alphafold2_Output/${fasta%.fasta}/msas; rm ~/
python中 pysam包FastxFile函数2022-08-20 01:32:39

001、读取fasta文件 root@PC1:/home/test# ls a.fasta root@PC1:/home/test# cat a.fasta ## 测试数据 >Rosalind_1 ATCCAGCT >Rosalind_2 GGGCAACT >Rosalind_3 ATGGATCT >Rosalind_4 AAGCAACC >Rosalind_5 TTGGAACT >Rosalind_6 ATGCCA
python 中实现按照 fasta文件的scaffold进行排序2022-08-15 18:33:47

001、方法1 root@PC1:/home/test# ls a.fasta test.py root@PC1:/home/test# cat test.py ## 测试程序 #!/usr/bin/python in_file = open("a.fasta", "r") dict1 = dict() for i in in_file: i = i.strip() if i[0] == &qu
python中实现依据序列名称排序并输出2022-08-13 23:03:45

001、 (base) root@PC1:/home/test2# ls a.fasta test.py (base) root@PC1:/home/test2# cat a.fasta ## 测试fasta文件 >gene2 myc AGCTGCCTAAGC GGCATAGCTAATCG >gene1 jun ACCGAATCGGAGCGATG GGCATTAAAGATCTAGCT >gene4 malat1 AGGCTAGCGAG GCGC
python中提取原始序列名字第一个空格前的名字作为的序列名字，输出到屏幕2022-08-13 18:33:26

001、 (base) root@PC1:/home/test2# ls a.fasta test.py (base) root@PC1:/home/test2# cat a.fasta ## 测试fasta文件 >gene1 myc AGCTGCCTAAGC GGCATAGCTAATCG >gene2 jun ACCGAATCGGAGCGATG GGCATTAAAGATCTAGCT >gene3 malat1 AGGCTAGCGAG GCGCGAG GATT
python 学习之 fasta/fastq 处理利器--pyfastx2022-08-12 13:02:19

001、 fasta序列迭代 (base) root@PC1:/home/test2# cat a.fasta ## 测试fasta文件 >gene1 myc AGCTGCCTAAGC GGCATAGCTAATCG >gene2 jun ACCGAATCGGAGCGATG GGCATTAAAGATCTAGCT >gene3 malat1 AGGCTAGCGAG GCGCGAG GATTAGGCG >>> import pyfastx
linux 中shell统计fasta文件中每条染色体上的碱基数目2022-07-17 23:34:19

001、 root@DESKTOP-1N42TVH:/home/test5/test/test# ls test.fa root@DESKTOP-1N42TVH:/home/test5/test/test# cat test.fa >Chr1 ACCCTAAACCCTAAACCCTAAACCCTAAACCCTAAACCCTAACCCTAAAC ACCCTAAACCCTAAACCCTAAACCCTAAACCCTAAACCCTAACCCTAAAC >Chr2 ACCCTAAACCCTAAAC
python 中实现将fasta文件中碱基以每行指定数目输出2022-06-07 22:35:18

001、测试数据 [root@PC1 test2]# ls a.fa test.py [root@PC1 test2]# cat a.fa ## 测试数据 >OR4F5_ENSG00000186092_ENST00000641515_61_1038_2618 CCCAGATCTCTTCAGTTTTTATGCCTCATTCTGTGAAAATTGCTGTAGTCTCTTCCAGTTATGAAGAAGGTAACTGCAGAGGCTATTTCCTGGAATGAATCAACGAGTGA
python GISAID 网站爬虫实践：fasta文件获取2022-02-19 01:02:09

python GISAID 网站爬虫实践：fasta文件获取临近毕业，老师交给我的爬虫任务已经结束。反正留在电脑里也没用，不如发出来造福大家。简介： GISAID是流行病毒共享组织，网址“www.gisaid.org”，服务器位于美国洛杉矶、旧金山等地，需要教育邮箱注册账号才能访问其数据。它的网站比较老
linux shell中将fasta文件按照每行指定碱基数输出2022-02-03 01:32:03

1、测试数据 root@PC1:/home/test# ls record.txt test.fa root@PC1:/home/test# cat test.fa >OR4F29_ENSG00000284733_ENST00000426406_20_955_995 AGCCCAGTTGGCTGGACCAATGGAT GGAGAGAATCACTCAGTGGTATCTGAG TTTTTGTTTCTGGGACTC >OR4F16_ENSG00000284662_ENST00000332831_
【fastqe】有趣的表情包版fastqc2022-01-13 23:02:51

FASTQ with Emoji = FASTQE
seqkit | 序列处理利器 | fastq | fasta2021-10-18 18:34:52

有时候需要个性化处理原始序列，自己写python脚本太慢，且速度太慢，可以用seqkit这个工具，开发得不错。比如提取10x genomics的barcode，fastq里的前16个碱基。 seqkit subseq Vcl-YFP-CNCC_3_S35_L004_R2_001.fastq.gz -r 1:16 > tmp.fastq 　　参考： fasta/fq文件处理万能工具
AlphaFold2初体验2021-10-09 21:33:46

2021SC@SDUSC 文章目录前言一、Google Colab介绍二、代码地址三、代码分析四、效果展示前言今天尝试在google colab快速跑通Alphafold2的简易版，进行蛋白质预测初体验一、Google Colab介绍 Google Colab是一个免费的 Jupyter 笔记本环境，不需要进行任何设置就可
Mothur2_减少测序和PCR错误2021-09-05 12:33:57

本人在读研究生，方向环境微生物。之前在学习生物信息分析过程中在网络上四处奔走获取相关学习资料与解决问题，好生麻烦。于是，我就把与同学一起做的一些生物信息分析相关教程与经验总结搬运到这个CSDN这个大平台上来，希望能够与大家一起学习讨论。班门弄斧，大神见文多指教，抱拳抱拳抱
Mothur3_处理改进的序列2021-09-05 12:29:48

本人在读研究生，方向环境微生物。之前在学习生物信息分析过程中在网络上四处奔走获取相关学习资料与解决问题，好生麻烦。于是，我就把与同学一起做的一些生物信息分析相关教程与经验总结搬运到这个CSDN这个大平台上来，希望能够与大家一起学习讨论。班门弄斧，大神见文多指教，抱拳抱拳抱
Mothur2进阶_Mothur扩增子基因序列_数据预处理2021-09-04 16:02:53

本人在读研究生，方向环境微生物。之前在学习生物信息分析过程中在网络上四处奔走获取相关学习资料与解决问题，好生麻烦。于是，我就把与同学一起做的一些生物信息分析相关教程与经验总结搬运到这个CSDN这个大平台上来，希望能够与大家一起学习讨论。班门弄斧，大神见文多指教，抱拳抱拳抱
模拟一个简单计算器_阅读模拟器的简单介绍2021-01-20 19:34:01

模拟一个简单计算器 Read simulators are widely being used within the research community to create synthetic and mock datasets for analysis. In this article, I will introduce some recently proposed, commonly used read simulators. 阅读模拟器在研究社区中被广
【Bioinfo Blog 005】【Python Code 001】——FASTA文件处理（未完）2020-11-24 20:02:29

格式说明 FASTA格式是一种基于文本用于表示核苷酸序列（或氨基酸序列）的格式。碱基对（或氨基酸）用单个字母来编码，且允许在序列前添加序列名及注释。 >gi|46575915|ref|NM_008261.2| Mus musculus hepatic nuclear factor 4, alpha (Hnf4a), mRNA GGGACCTGGGAGGAGGCAGGAGGAGGGCGGG
perl 小练习2020-03-12 10:37:47

1.以scaffold.fasta作为输入文件，计算GC含量以及N50和N90 2.根据给定的基因组scaffold.fasta文件和相对用的基因注释gff文件提取基因的cds区域，并以每行60个碱基的格式输出到cds.fasta文件中 3.以cds.fasta作为输出文件，将其翻译成蛋白质序列并以每行60个氨基酸的格式输出到pep.fa
基因组注释之软件使用2020-02-21 12:01:25

1、RepeatMasker 1.1、输入输入格式为fasta序列，不接受其它 GenBank, Staden,等格式。它既可以处理一个批文件(一个文件包含许多条序列)，也可以批处理许多文件(每个文件含有一条序列)。 RepeatMasker *.fasta 该命令将mask当前目录下所有的以.fasta文件结尾，并为每个文件提供
从nucleotide数据库中提取给定id的序列2019-10-20 11:04:14

1，返回Fasta类型结果： 2，返回XML格式结果：
「三代组装」使用Pilon对基因组进行polish2019-09-23 11:55:23

对初步组装进行polish 以FASTA和BAM文件作为输入，根据比对结果对输入的参考基因组进行提高，包括单碱基差异小的插入缺失(indels) 较大的插入缺失或者block替换填充参考序列中的N 找到局部的错误组装最后输出polish后的FASTA文件参考来源： https://www.jianshu.com/p/cce
NECAT: Nanopore数据的高效组装工具2019-08-31 12:43:54

文章首发在个人博客: NECAT: Nanopore数据的高效组装工具 NECAT是肖传乐老师团队开发的一个针对Nanopore数据组装的软件，目前该工具尚未发表，除了https://github.com/xiaochuanle/NECAT有软件的介绍外，暂时没有中文资料介绍NECAT的使用。太长不看的结论: Nanopore的组装推
linux – 在fasta文件中选择序列超过300 aa,“C”至少出现4次2019-08-28 02:50:21

我有一个包含蛋白质序列的fasta文件.我想选择超过300个氨基酸的序列,半胱氨酸(C)氨基酸出现超过4次. 我用这个命令来选择超过300 aa的序列： cat 72hDOWN-fasta.fasta | bioawk -c fastx 'length($seq) > 300{ print ">"$name; print $seq }' 一些序列示例： >jgi|Triasp1|21661

1 2 > 尾页

ICode9

原来sed不支持非贪婪匹配2022-09-15 12:04:43

fasta AF2建模后处理2022-08-29 11:01:24

python中 pysam包FastxFile函数2022-08-20 01:32:39

python 中实现按照 fasta文件的scaffold进行排序2022-08-15 18:33:47

python中实现依据序列名称排序并输出2022-08-13 23:03:45

python中提取原始序列名字第一个空格前的名字作为的序列名字，输出到屏幕2022-08-13 18:33:26

python 学习之 fasta/fastq 处理利器--pyfastx2022-08-12 13:02:19

linux 中shell统计fasta文件中每条染色体上的碱基数目2022-07-17 23:34:19

python 中实现将fasta文件中碱基以每行指定数目输出2022-06-07 22:35:18

python GISAID 网站爬虫实践：fasta文件获取2022-02-19 01:02:09

linux shell中将fasta文件按照每行指定碱基数输出2022-02-03 01:32:03

【fastqe】有趣的表情包版fastqc2022-01-13 23:02:51

seqkit | 序列处理利器 | fastq | fasta2021-10-18 18:34:52

AlphaFold2初体验2021-10-09 21:33:46

Mothur2_减少测序和PCR错误2021-09-05 12:33:57

Mothur3_处理改进的序列2021-09-05 12:29:48

Mothur2进阶_Mothur扩增子基因序列_数据预处理2021-09-04 16:02:53

模拟一个简单计算器_阅读模拟器的简单介绍2021-01-20 19:34:01

【Bioinfo Blog 005】【Python Code 001】——FASTA文件处理（未完）2020-11-24 20:02:29

perl 小练习2020-03-12 10:37:47

基因组注释之软件使用2020-02-21 12:01:25

从nucleotide数据库中提取给定id的序列2019-10-20 11:04:14

「三代组装」使用Pilon对基因组进行polish2019-09-23 11:55:23

NECAT: Nanopore数据的高效组装工具2019-08-31 12:43:54

linux – 在fasta文件中选择序列超过300 aa,“C”至少出现4次2019-08-28 02:50:21