最近,有一批任务需要把两批的fastq合并到一起并压缩成一个fastq文件才能继续往下做,由于存储空间有限又不能直接全部跑上,只能按样本逐个分批跑。众所周知,一般fastq是成对存在的,所需要对read1和read2分别合并一次,然而这次任务的fastq文件比较大,合并然后压缩一次需要1天左右,那对于一组fastq就要2-3天,这也太耗时间了,所以我在想能不能read1和read2 同时跑上,这就可以节省一半的时间了。
创新互联建站从2013年开始,是专业互联网技术服务公司,拥有项目成都做网站、网站设计网站策划,项目实施与项目整合能力。我们以让每一个梦想脱颖而出为使命,1280元白沙黎族做网站,已为上家服务,为白沙黎族各地企业和个人服务,联系电话:18980820575
平时也能遇到很多类似的任务,特别是在进程数有限的情况下,如果这些小任务单独占用一个进程,而任务很多就很耗时间,如果能在一个进程下实现多个线程并行执行,就能大大提高运行效率。关于进程和线程的知识可以参考知乎的这篇文章【 Shell“ 多线程”,提高工作效率 】,整理的也比较有条理,能比较容易读懂。
当然,某些博主也写过类似的文章,例如这篇【 shell后台限制多并发控制后台任务强度进行文件拷贝 】但是实在是太高深莫测了,看不懂,一时半会儿也学不会。本文将示例Shell实现多线程的简单版本,其实不用太复杂。
其实只需要两个步骤, 第一步是给需要并行运行的命令行在结尾加上"",代表放到后台运行,第二步是在在所有并行任务的后面加上一句“wait”,意思是等所有通过“”放到后台运行的任务跑完后再继续执行后面的任务 ,这些就能实现所有带有“”的行并行执行了。
看完脚本是不是觉得很简单?
上面的脚本适合并行任务少的,可以手动加和wait,但是如果有几十个甚至上百个的小任务就比较麻烦了。但不用担心,可以写个循环,批量运行。
循环的结果也是跟上面类似的,只是多了个循环结构。
如果需要执行的任务只有一行,可以把大括号去掉。
关于for和while的循环可以查看之前的文章【 Shell常用循环示例(for和while批量处理)2022-05-25 】
需要注意的是多线程并行还是需要有限制的,毕竟都是在一个进程里运行,如果线程太多了会卡顿的,建议控制在100个以内,当然还有毕竟高级和复杂的方法可以实现限制。因为上面的脚本已经够我用了,没继续往下学,以后可以再补充。
参考 60、骑白马的不一定是王子,可能是唐僧;有翅膀的不一定是天使,也可能是鸟人!
linux也是有不同类型的,比如个人桌面版的只支持单处理器,而企业级服务器版的则支持多处理器。所以这个多任务在不同的版本上也是有不同的意思。在个人版上,也就是我们平常说的最多的多任务系统,其实是多个任务排队使用cpu,因为cpu在同一时刻是只能被独享的,这是绝对的。还有任务这个概念比较笼统,只是相对于我们的需要来说,并不是从操作系统的角度出发的,对我们来说一个任务可能由很多步骤构成,而这些步骤也是由或多或少的进程构成的,所以,一个任务就是由一个或者多个进程构成的处理序列。linux是一个多线程的操作系统,而我们知道,进程是计算机的最小资源分配单元,而线程则是最小的调度单元(这两个概念请自行查找资料),也就是说,linux系统中真正使用cpu的是线程,当然了,也有不需要创建线程的进程。现在的操作系统大部分都是分时的,这个概念只要学过计算机基础的人都知道,也就是对每个进程或者线程按照调度进程的算法来调度他们使用cpu的先后顺序和时间片长度。
对于单处理器的系统,每个cpu每次只允许有一个进程或线程使用,整个系统中也只有这一个进程或线程在运行,而对于多处理器系统(如果硬件安装了多处理器的话),每个cpu每次也只允许有一个进程或线程使用,整个系统中允许有多个进程或线程同时运行,这种叫并行处理。请注意,这个我们在PC上同时开很多任务是不同的,这种是真正意义上的同时处理,是绝对的。