Linux系统 2023-08-01

Linux去重教程：如何只保留一个重复行？ (linux将重复行只保留一个)

Linux去重教程: 如何只保留一个重复行？

在处理文本数据时，常常会出现重复行的情况，这些重复行的存在可能会导致数据分析和处理的不准确性，因此需要进行去重处理。在Linux系统中，有多种方法可以实现去重，本文将介绍几种常用的方法和命令，帮助你快速去重并只保留一个重复行。

一、使用sort命令去重

sort命令可以将文件中的所有行进行排序，并去除其中的重复行。可以使用以下命令将文件进行去重：

sort file.txt | uniq > dedup.txt

上述命令将文件file.txt中的所有行进行排序，并将其中的重复行去除，然后将结果保存在dedup.txt文件中。

如果你想要保留一个重复行，可以使用以下命令：

sort file.txt | uniq -u > dedup.txt

上述命令将文件file.txt中的所有行进行排序，并找出其中不重复的行保存在dedup.txt文件中。

二、使用awk命令去重

awk是一种强大的文本处理工具，可以进行复杂的文本操作。使用awk命令去重可以灵活地设置去重条件。可以使用以下命令去除文件中的重复行：

awk ‘!a[$0]++’ file.txt > dedup.txt

上述命令将文件file.txt中的重复行去除，并保存非重复的行到dedup.txt文件中。

如果你想要保留一行重复的行，可以使用以下命令：

awk ‘!a[$0]++ || a[$0]==1’ file.txt > dedup.txt

上述命令将文件file.txt中的重复行去除，并保存唯一的行和之一个重复的行到dedup.txt文件中。

三、使用grep命令去重

grep是一种强大的文本搜索工具，可以搜索文件中的指定字符串。使用grep命令去重可以根据指定的字符串进行去重。可以使用以下命令去重文件中的行：

cat file.txt | grep -v ‘^\s*$’ | uniq > dedup.txt

上述命令将文件中的空行去除，并将其中的重复行去除，然后将结果保存在dedup.txt文件中。

如果你想要保留一个重复的行，可以使用以下命令：

cat file.txt | grep -v ‘^\s*$’ | uniq -u > dedup.txt

上述命令将文件中的空行去除，并找出其中不重复的行保存在dedup.txt文件中。

四、使用sed命令去重

sed是一种强大的文本转换工具，可以对文件中的指定行进行转换。使用sed命令去重可以根据指定的规则去重。可以使用以下命令去重文件中的行：

sed -e ‘s/^$.*$$/\1,1/’ file.txt | sort -u -t, -k1,1 | cut -d’,’ -f1 > dedup.txt

上述命令将文件中的每行加上序号，并将其中的重复行去除，然后将去重后的行保存在dedup.txt文件中。

如果你想要保留一个重复的行，可以使用以下命令：

sed -e ‘s/^$.*$$/\1,1/’ file.txt | sort -t’,’ -k1,1 -u | cut -d’,’ -f1 > dedup.txt

上述命令将文件中的每行加上序号，并找出其中不重复的行保存在dedup.txt文件中。

本文介绍了四种常用的Linux命令去重方法，通过这些命令可以快速去重并只保留一个重复行。使用这些命令能够帮助我们在处理文本数据时更加高效和准确。

相关问题拓展阅读：

如何快速删除Linux文件中的重复数据行
利用Linux命令行进行文本按行去重并按重复次数排序

如何快速删除Linux文件中的重复数据行

uniq 文件名

这样就可以了

用uniq，罩宏如下，将罩和 1.txt 中所有 “相邻” 重复行合并成一行，结果存入 2.txt

uniq 1.txt > 2.txt

如果是想将相邻重复物闷盯行彻底删掉（而不是合并成一行），可以用

uniq -u 1.txt > 2.txt

哪个逗逼写的答案，不相邻的行就尺汪腔不用去了吗？

可以用sort Filename|uniq -u >OutputFilename

但是这也不快速，因为sort的排序过程其实陵稿是没有必要的，浪费了大量时间，最快的方陵衫法还是写c。

利用Linux命令行进行文本按行去重并按重复次数排序

利用linux命令行进行文本按行去重并按重复次数排序linux命令行提供了非常强大的文本处理功能，组合利用linux命令能实现好多强大的功搏李能。本文这里举例说明如何利用linux命令行进行文本按行去重并按重复次数排序。主要用到的命令有sort，uniq和cut。其中，sort主要功能是排序，uniq主要功能是实现相邻文本行的去重，cut可以从文本行中提取相应的文本列(简单地说，就是按列操作文本行)。用于演示的测试文件内容如下：Hello

World.

Apple

and

Nokia.

Hello

World.

wanna

buy

Apple

device.

The

Iphone

Apple

company.

Hello

World.

The

Iphone

Apple

company.

name

Friendfish.

Hello

World.

Apple

and

Nokia.

实现命令及过程如下：1、文本行去重

(1)排序

由于uniq命令只能对相邻行进行去重复操作，所以在进行去重前，先要对文本行进行排序，使重复行集中到一起。

sort

test.txt

Apple

and

Nokia.

Apple

and

Nokia.

Hello

World.

Hello

World.

Hello

World.

Hello

World.

wanna

buy

Apple

device.

name

Friendfish.

The

Iphone

Apple

company.

The

Iphone

Apple

company.

(2)去掉相邻的重复行

sort

test.txt

uniq

Apple

and

Nokia.

Hello

World.

wanna

buy

Apple

device.

name

Friendfish.

The

Iphone

Apple

company.

2、文本行去重并按重复次数排序

(1)首先，对文本行进行去重并统计重复次数(uniq命令加-c选项可以实现对重复次数进行统计。)。

sort

test.txt

uniq

-c

Apple

and

Nokia.

Hello

World.

wanna

buy

Apple

device.

name

Friendfish.

The

Iphone

Apple

company.

(2)对文本行按重复次数进行排序。

sort

-n可以识别每行开头的数字，并按其大小对文本行进行排序。默认是按升序排列，如果想要按降序要加-r选项(sort

-rn)。

sort

test.txt

uniq

-c

sort

-rn

Hello

World.

The

Iphone

Apple

company.

Apple

and

Nokia.

name

Friendfish.

wanna

buy

Apple

device.

(3)每行前面的删除重复次数。

cut命令可以按列操作文本行。可以看出前面的重复次数占8个字符，因此，可以用命令cut

-c

取出每行第9个及其以后的字符。

sort

test.txt

uniq

-c

sort

-rn

cut

-c

Hello

World.

The

Iphone

Apple

company.

Apple

and

Nokia.

name

Friendfish.

wanna

buy

Apple

device.

下面附带说一下cut命令的使用，用法如下：cut

-b

list

…>

cut

-c

list

…>

cut

-f

list

delim>

…>

上面的-b、-c、-f分别表示字节、字符、字段（即byte、character、field）；

list表示-b、-c、-f操作范围，-n常常表示具体数字；

file表示的自然是要操作的文本粗旅文件的名称；

delim（英文岩银凳全写：delimiter）表示分隔符，默认情况下为TAB；

-s表示不包括那些不含分隔符的行（这样有利于去掉注释和标题）

三种方式中，表示从指定的范围中提取字节（-b）、或字符（-c）、或字段（-f）。

范围的表示方法：

只有第n项

从第n项一直到行尾

n-m

从第n项到第m项(包括m)

-m

从一行的开始到第m项(包括m)

–

从一行的开始到结束的所有项

关于linux将重复行只保留一个的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

数据运维技术 » Linux去重教程：如何只保留一个重复行？ (linux将重复行只保留一个)

分享到：

如何快速删除Linux文件中的重复数据行

利用Linux命令行进行文本按行去重并按重复次数排序

相关推荐