Header Ads

Como processar um arquivo linha por linha em um script Linux Bash

Fatmawati Achmad Zaenuri / Shutterstock

É muito fácil ler o conteúdo de um arquivo de texto do Linux linha por linha em um script de shell — contanto que você lide com alguns truques sutis. Veja como fazer isso da maneira segura.

Arquivos, texto e expressões idiomáticas

Cada linguagem de programação possui um conjunto de expressões idiomáticas. Essas são as maneiras padrão e simples de realizar um conjunto de tarefas comuns. Eles são a forma elementar ou padrão de usar um dos recursos da linguagem com a qual o programador está trabalhando. Eles se tornam parte de um kit de ferramentas de planos mentais do programador.

Ações como ler dados de arquivos, trabalhar com loops e trocar os valores de duas variáveis ​​são bons exemplos. O programador conhecerá pelo menos uma maneira de atingir seus objetivos de maneira genérica ou simples. Talvez isso seja suficiente para o requisito em questão. Ou talvez eles embelezem o código para torná-lo mais eficiente ou aplicável à solução específica que estão desenvolvendo. Mas ter o idioma básico na ponta dos dedos é um ótimo ponto de partida.

Conhecer e entender expressões idiomáticas em uma linguagem também torna mais fácil aprender uma nova linguagem de programação. Saber como as coisas são construídas em um idioma e procurar o equivalente — ou o mais próximo — em outro idioma é uma boa maneira de avaliar as semelhanças e diferenças entre as linguagens de programação que você já conhece e aquela que você é aprendizagem.

Lendo linhas de um arquivo: o One-Liner

No Bash, você pode usar um loop while na linha de comando para ler cada linha de texto de um arquivo e fazer algo com ela. Nosso arquivo de texto é denominado “ data. txt. ” Ele contém uma lista dos meses do ano.

 Janeiro fevereiro março. . Outubro novembro dezembro 

Nossa linha simples é:

 ao ler a linha; faça echo $ line; feito < data. txt 

O loop while lê uma linha do arquivo, e o fluxo de execução do pequeno programa passa para o corpo do loop. O comando echo escreve a linha de texto na janela do terminal. A tentativa de leitura falha quando não há mais linhas para serem lidas e o loop está concluído.

Um truque interessante é a capacidade de redirecionar um arquivo em um loop. Em outras linguagens de programação, você precisará abrir o arquivo, ler a partir dele e fechá-lo novamente quando terminar. Com o Bash, você pode simplesmente usar o redirecionamento de arquivo e deixar o shell lidar com todas as coisas de baixo nível para você.

Claro, esta linha única não é muito útil. O Linux já fornece o comando cat, que faz exatamente isso para nós. Criamos uma maneira prolixa de substituir um comando de três letras. Mas demonstra visivelmente os princípios de leitura de um arquivo.

Isso funciona bem o suficiente, até certo ponto. Suponha que temos outro arquivo de texto que contém os nomes dos meses. Neste arquivo, a sequência de escape para um caractere de nova linha foi anexada a cada linha. Vamos chamá-lo de “ data2. txt. ”

 Janeiro \ n fevereiro \ n março \ n. . Outubro \ n novembro \ n dezembro \ n 

Vamos usar nosso one-liner em nosso novo arquivo.

 enquanto lê a linha; faça echo $ line; feito < data2. txt 

O caractere de escape da barra invertida ” \ ” foi descartado. O resultado é que um “ n ” foi anexado a cada linha. O Bash está interpretando a barra invertida como o início de uma sequência de escape. Freqüentemente, não queremos que o Bash interprete o que está lendo. Pode ser mais conveniente ler uma linha na íntegra — sequências de escape de barra invertida e todas — e escolher o que analisar ou substituir, dentro de seu próprio código.

Se quisermos fazer qualquer processamento ou análise significativa nas linhas de texto, precisaremos usar um script.

Lendo linhas de um arquivo com um script

Este é o nosso script. É denominado “ script1. sh. ”

 #! / bin / bashCounter = 0whileIFS = '' read-rLinefromFile || [[- n "$"]]; do ((Contador ++)) echo " Acessando a linha $ Counter: $ "done <" $ 1 "

Definimos uma variável chamada Counter para zero e, em seguida, definimos nosso loop while.

A primeira instrução na linha while é IFS = ''. IFS significa separador de campo interno. Ele contém valores que o Bash usa para identificar os limites das palavras. Por padrão, o comando read remove os espaços em branco à esquerda e à direita. Se quisermos ler as linhas do arquivo exatamente como estão, precisamos definir IFS como uma string vazia.

Podemos definir isso uma vez fora do loop, assim como estamos definindo o valor de Counter. Mas com scripts mais complexos — especialmente aqueles com muitas funções definidas pelo usuário neles — é possível que o IFS possa ser definido com valores diferentes em outras partes do script. Garantir que o IFS seja definido como uma string vazia cada vez que o loop while itera garante que sabemos qual será seu comportamento.

Vamos ler uma linha de texto em uma variável chamada LinefromFile. Estamos usando a opção -r (leia a barra invertida como um caractere normal) para ignorar as barras invertidas. Eles serão tratados como qualquer outro personagem e não receberão nenhum tratamento especial.

Existem duas condições que irão satisfazer o loop while e permitir que o texto seja processado pelo corpo do loop:

  • read -r LinefromFile: Quando uma linha de texto é lida com sucesso do arquivo, o comando read envia um sinal de sucesso para o while, e o loop while passa o fluxo de execução para o corpo do loop. Observe que o comando de leitura precisa ver um caractere de nova linha no final da linha de texto para considerá-lo uma leitura bem-sucedida. Se o arquivo não for um arquivo de texto compatível com POSIX, a última linha pode não incluir um caractere de nova linha. Se o comando de leitura vir o marcador de fim de arquivo (EOF) antes que a linha seja encerrada por uma nova linha, ele não o tratará como uma leitura bem-sucedida. Se isso acontecer, a última linha do texto não será passada para o corpo do loop e não será processada.
  • [-n "$"]: Precisamos fazer algum trabalho extra para lidar com não Arquivos compatíveis com POSIX. Esta comparação verifica o texto lido do arquivo. Se não terminar com um caractere de nova linha, essa comparação ainda retornará com sucesso para o loop while. Isso garante que quaisquer fragmentos de linha final sejam processados ​​pelo corpo do loop.

Essas duas cláusulas são separadas pelo operador lógico OR ” || ” de modo que se qualquer cláusula retornar sucesso, o texto recuperado será processado pelo corpo do loop, haja um caractere de nova linha ou não.

No corpo do nosso loop, estamos incrementando a variável Counter em um e usando echo para enviar alguma saída para a janela do terminal. O número da linha e o texto de cada linha são exibidos.

Ainda podemos usar nosso truque de redirecionamento para redirecionar um arquivo em um loop. Nesse caso, estamos redirecionando $ 1, uma variável que contém o nome do primeiro parâmetro da linha de comando que foi passado para o script. Usando esse truque, podemos facilmente passar o nome do arquivo de dados em que queremos que o script trabalhe.

Copie e cole o script em um editor e salve-o com o nome de arquivo “ script1. sh. ” Use o comando chmod para torná-lo executável.

 chmod + x script1. sh 

Vamos ver o que nosso script pensa do arquivo de texto data2. txt e das barras invertidas nele contidas.

 ./ script1. sh data2. txt 

Cada caractere na linha é exibido literalmente. As barras invertidas não são interpretadas como caracteres de escape. Eles são impressos como caracteres regulares.

Passando a linha para uma função

Ainda estamos apenas exibindo o texto na tela. Em um cenário de programação do mundo real, provavelmente estaríamos prestes a fazer algo mais interessante com a linha de texto. Na maioria dos casos, é uma boa prática de programação lidar com o processamento posterior da linha em outra função.

Veja como poderíamos fazer isso. Isto é “ script2. sh. ”

#! / bin / bashCounter = 0function process_line () {echo "Linha de processamento $ Contador: $ 1"} whileIFS = '' read-rLinefromFile || [[- n "$"]]; do ((Contador ++)) process_line "$ LinefromFile" done < "$ 1"

Definimos nossa variável Counter como antes, e então definimos uma função chamada process_line (). A definição de uma função deve aparecer antes que a função seja chamada pela primeira vez no script.

Nossa função receberá a nova linha de texto lida em cada iteração do loop while. Podemos acessar esse valor dentro da função usando a variável $ 1. Se duas variáveis ​​fossem passadas para a função, poderíamos acessar esses valores usando $ 1 e $ 2 e assim por diante para mais variáveis.

O loop while é basicamente o mesmo. Existe apenas uma mudança dentro do corpo do loop. A linha de eco foi substituída por uma chamada para a função process_line (). Observe que você não precisa usar o “ () ” colchetes no nome da função ao chamá-la.

O nome da variável que contém a linha de texto, LinefromFile, é colocado entre aspas quando é passado para a função. Isso atende a linhas que têm espaços. Sem as aspas, a primeira palavra é tratada como $ 1 pela função, a segunda palavra é considerada $ 2 e assim por diante. O uso de aspas garante que toda a linha de texto seja tratada, como um todo, como $ 1. Observe que este não é o mesmo $ 1 que contém o mesmo arquivo de dados passado para o script.

Como Counter foi declarado no corpo principal do script e não dentro de uma função, ele pode ser referenciado dentro da função process_line ().

Copie ou digite o script acima em um editor e salve-o com o nome de arquivo “ script2. sh. ” Torne-o executável com chmod:

 chmod + x script2. sh 

Agora podemos executá-lo e passar um novo arquivo de dados, “ data3. txt. ” Tem uma lista dos meses e uma linha com muitas palavras.

 Janeiro Fevereiro Março. . Outubro Novembro \ nMais texto "no final da linha" Dezembro 

Nosso comando é:

 ./ script2. sh data3. txt 

As linhas são lidas do arquivo e passadas uma a uma para a função process_line (). Todas as linhas são exibidas corretamente, incluindo a ímpar com backspace, aspas e várias palavras.

Os blocos de construção são úteis

Há uma linha de pensamento que diz que um idioma deve conter algo exclusivo para aquele idioma. Isso não é uma crença minha. O que é importante é que faça bom uso da linguagem, seja fácil de lembrar e forneça uma maneira confiável e robusta de implementar algumas funcionalidades em seu código.

Veja Também:

Nenhum comentário