利用Linux Shell实现分组求和功能 (linux shell 分组求和)

对于大量数据的处理,分组求和是一种非常常见的需求,这个需求并不复杂,但对于不熟悉程序开发的人员来说,也许还需要借助一些实用工具来实现。而在Linux系统中,我们可以使用Shell脚本来快速实现分组求和的功能。

步骤一:准备数据

我们需要准备一些原始数据,这些数据可以是文本文件、CSV文件、ON文件等等格式,但是必须是可以使用命令行读取的格式。在本文中,我们使用文本文件来举例说明。

假设我们有一个名为“data.txt”的文本文件,其内容如下所示:

apple 20

apple 10

banana 15

banana 12

orange 8

orange 11

在这个文件中,每行都代表一个数据点,由两个字段组成,之一个字段表示数据的分组,第二个字段表示数据的数值。

步骤二:编写Shell脚本

接下来,我们需要编写Shell脚本,来对这些数据进行分组求和。在本文中,我们使用Bash Shell作为编写脚本的工具。

我们需要将原始数据按照分组进行分割,这可以通过awk命令来实现,具体操作如下所示:

awk ‘{sum[$1]+=$2}END{for(i in sum){print i,sum[i]}}’ data.txt

解释一下这个命令,首先使用awk命令读取原始数据文件,然后使用花括号“{}”来表示需要执行的操作。其中的“sum[$1]+=$2”表示将原始数据按照之一个字段(即分组)进行分组,然后将每个分组的数据的第二个字段(即数值)进行求和,并存储到一个名为“sum”的变量中。使用“END”关键字表示完成数据处理后需要执行的操作,这里我们使用一个“for”循环来遍历所有分组,然后输出每个分组的名称和对应的求和结果。

执行这个命令后,我们就可以得到如下的输出结果:

orange 19

banana 27

apple 30

这个输出结果表示,对于原始数据中的三个分组(orange、banana、apple),分别对应的求和结果分别是19、27和30。

步骤三:优化Shell脚本

上面的Shell脚本已经可以满足分组求和的需求,但是在实际应用中,我们可能需要对Shell脚本进行一些优化,来提高其执行效率和代码的可读性。

我们可以将Shell脚本保存为一个单独的文件,比如“sum.sh”:

#!/bin/bash

awk ‘{sum[$1]+=$2}END{for(i in sum){print i,sum[i]}}’ $1

然后,我们可以添加一些注释来解释脚本的作用:

#!/bin/bash

# 分组求和脚本

# Usage: ./sum.sh data.txt

awk ‘{sum[$1]+=$2}END{for(i in sum){print i,sum[i]}}’ $1

在这个脚本中,之一行表示这是一个Bash Shell脚本,第二行和第三行分别是脚本的注释,用来说明脚本的作用和使用方法。第四行是实际的脚本命令,和之前的命令相同,只是添加了一个参数“$1”,表示需要传入一个数据文件名。

另外,我们可以使用一些Shell脚本的技巧来简化代码,比如使用管道符“|”将命令串联起来,将多个操作同时执行:

cat data.txt | awk ‘{sum[$1]+=$2}END{for(i in sum){print i,sum[i]}}’

这个命令的用法和之前的命令相同,只是使用了一个cat命令来读取原始数据文件,并将结果通过管道传递给awk命令。

在本文中,我们介绍了如何使用Linux Shell来实现分组求和的功能,这个功能可以广泛应用于大数据分析、数据清洗、数据挖掘等领域。通过编写Shell脚本,我们可以快速高效地实现数据处理的需求。当然,Shell脚本并不是唯一的工具,如果您需要更加复杂和高效的处理方式,可以考虑使用Python、R、SQL等其他工具来实现。

相关问题拓展阅读:

学生信的那些事儿之七 – Linux基础之Shell脚本编程

沿着前面的轨迹,接下来是Linux中shell脚本的学习。这对于生信工程师后续处理大量 (海量更合适些) 数据是非常非常脊码重要的,但是同样的,作为一个有点古板的人,对于”脚本”是什么意思我都死磕了好久。主要觉得有些抽象,尤其是跟生信的同事讨论项目分析部分的问题时,他们经常会说道这个词,在他们意识里这是个不言自明的术语,殊不知对外行人而言 (比如我),那简直就是无情的”知识的诅咒”。经常是我假装听懂了,然后继续讨论下面的问题,形成一个模糊的印象。

百度上的解释是:脚本(Script)是一种批处理文件的延伸,是一种纯文本保存的程序,一般来说的计算机脚本程序是确定的一系列控制计算机进行运算操作动作的组合,在其中可以实现一定的逻辑分支等。不知道你能不能看懂,反正我开始的时候真是一知半解。

鸟哥私房菜的解释是:shell script是利用 shell 的功能所写的一个”程序”,这个程序是使用纯文本文件,将一些shell的语法与命令(含外部命令)写在里面,搭配正则表达式、管道命令与数据流重定向等功能,以达到我们所想要的处理的目的。不明觉厉,好像更看不懂了···

Jude 的简单粗暴大白话解释是:脚本就是Linux中很多命令按照一定规则的组合,以实现某个特定的功能。Linux中有很多简单的命令,往往只是进行了简单的对话,比如 cd 就是进入到某个目录,简单直接。但是如果我想进入某个目录A,然后在目录A中创建目录B,再在目录B中创建文本C呢?当然可以一步一步操作,如果想要一步到位呢,那就可以用脚本,把三个命令写在一起,一起执行。好像有点啰嗦···

或者从英语的角度去理解,脚本的对应英文是Script,而这个单词的中文释义中还有剧本的意思。剧本就好理解了啊,剧本就是导演(生信工程师)基于某个主旨(要实现的目标)按照一定的手法(规则)所写的一个故事。不管是哪个演员,都得按照剧本演。所以,学好英语对于生信也是有帮助的~

按照脚本的复杂程度可以分为:

这个无需多说,其实就是若干个简单命令的顺序排列,执行脚本后会按照命令的前后关系从前往后一一执行。

相对于简单的基本脚本,结构化的命令脚本可以施加逻辑流程控制,从而改变程序(命令)执行的顺序。基本脚本中的命令就是从上往下执行,但兄野迅是结构化的命令脚本可以根据逻辑判断重复或者跳过某些命令。

常用的结构化命令(语句)有:

后面还有什么嵌套循环啊啥的,不过我觉得上面的7中命令学到家了,应该可以应付大部分在生信分析里面的应用了。

记得高中的时候,物理老师(也是班主任)在给我们讲解习题时有个有意思的套路:不管什么难题现在下面写个”答:”,以示自己解决问题的决心,也是一种正向的心理暗示。脚本编写也是有套路的,不过总的来说还是比较简单。

对于简单的脚本(超级简单的那种),直接几个命令连在一起即可,中间用”;”隔开。

对于更长更复杂的脚本,一般需要创建一个文本,并在里面编辑。这就涉及到了文本编辑器,比较常用和简单的一般有nano和vim,实在羡此很简单,规则也容易理解,教程随手可得,不多说。

比如用vim创建了一个脚本之后,具体的语法(套路):

ok,脚本写完了,怎么让脚本开始工作呢?这有涉及到之前讲过的环境变量和相对路径、绝对路径了。方法有三:

就这么多吧,应该有点感觉到了,剩下的就是狂练狂练了~

linux常用的shell有哪些

最常用的当然是bash这个shell了,不需要多说,因为大橘仿猜部分Linux发行版都默认是这个shell;还有C shell用户也很多,因为它的语法和C语言有点像;还有一个ash,念做A Shell,在智能路由器系统OpenWrt、LEDE上作为默认圆型shell,话说玩路由器Linux系统OpenWrt的也不少啊,好多硬件论坛上都知道这个系统,所大悄以ash也算是常用的Linux shell吧。

Linux系统的shell作为操作系统的外壳,为用户提供使用操作系统的接口。它是命令语言、命令解释程序及程序设计语言。

shell是用户和Linux内核之间的接口程序,如果把Linux内核想象成一个球体的中心,shell就是围绕内核的外层。当从shell或其他程序向Linux传递命令时,内核会做出相应的反应。

shell是一个命令语言解释器,它拥有自己内建的shell命令集,shell也能被系统中的其他应用程序所调用。用户在提示符下输入的命令都由shell先解释然后传给Linux核心。

Linux常用的shell有哪些?

1、Bourne shell

Bourne shell是一个交换式的命令解释器和命令编程语言。

Bourne shell是标准的UNIX shell,以前常被用来做为管理系统之用。大部分的系统管理命令文件,例如rcstart、stop与shutdown都是Bourne shell的命令档,且在单一使用者模式下以root签入时它常被系统管理者使雀芹搏用。Bourneshell是由AT$T发展的,以简洁、快速著名,Bourne shell提示符号的默认值是$。

2、C shell

C shell是一种比Bourneshell更适合的变种shell,使用的是类C语言,csh是具有C语言风格的一种shell,其内部命令有52个,比较庞大。

C shell是柏克莱大学所开发的,且加入了一些新特性,如命令列历程、别名、内建算术、档名完成和工作首拍控制。对于常在交谈模式下执行shell的使用者而言,他们较喜欢用C

shell;但对于系统管理者而言,则较偏好以Bourne shell来做命令档,因为Bourne shell命令档比C shell命令档来的简单及快速。C shell提示符号的默认值是%。

3、顷祥korn shell

korn shell是一个Unix shell,它由贝尔实验室的David Korn在二十世纪八十年代早期编写。它完全向上兼容Bourne shell并包含了c shell的很多特性,例如贝尔实验室用户需要的命令编辑。

Korn shell是Bourne shell的超集,由AT&T的David korn所开发。它增加了一些特色,比C shell更为先进。Korn shell的特色包括了可编辑的历程、别名、函式、正则表达式万用字符、内建算术、工作控制、共作处理和特殊的除错功能。Korn shell提示符号的默认值也是$。

linux shell 分组求和的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于linux shell 分组求和,利用Linux Shell实现分组求和功能,学生信的那些事儿之七 – Linux基础之Shell脚本编程,linux常用的shell有哪些的信息别忘了在本站进行查找喔。


数据运维技术 » 利用Linux Shell实现分组求和功能 (linux shell 分组求和)