ICode9

精准搜索请尝试: 精确搜索
首页 > 系统相关> 文章详细

linux – 如何(内存限制)> grep -F -f file_A file_B >> output.txt

2019-08-16 21:53:31  阅读:264  来源: 互联网

标签:linux grep scripting text-processing shell-script


file_A(~500MB,1.6M行)由所有等长搜索项组成,每行1个,未排序.

file_B由所有等长文本行组成,每行1个,未排序

我已经能够在任何大小的file_B上运行“grep -F -f file_A file_B>> output.txt”而没有问题的52GB ram的盒子.问题是我现在限制在4GB内存,因此file_A的大小现在太大了,无法在不耗尽可用内存的情况下运行.

如果没有手动将file_A切换成较小的bite,有没有简单的方法来编写这个grep文件的前1000行file_A,然后当它们自动grep为1001-2000行时,等等.直到我完成了所有的file_A?

解决方法:

循环遍历file_A的块,将它们作为stdin发送到同一个grep语句;将1000调整到可用内存:

nlines=$(wc -l < file_A)
chunk=1000
for((i=1; i < nlines; i += chunk)) 
do 
  sed -n $i,+$((chunk - 1))p file_A | grep -F -f - file_B
done > output

标签:linux,grep,scripting,text-processing,shell-script
来源: https://codeday.me/bug/20190816/1671422.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有