统计特定文件中的词频 - Unix系统

发布时间：2013-12-11 09:38:36 所属栏目：Unix 来源：站长网

导读：查找文件中使用的单词的频率是一件很有意思的事情，下面，我们利用关联数组，awk，sed，grep 等不同的方式来解决问题。首先，我们需要一个测试用的文本，保

查找文件中使用的单词的频率是一件很有意思的事情，下面，我们利用关联数组，awk，sed，grep 等不同的方式来解决问题。

首先，我们需要一个测试用的文本，保存名为 word.txt

内容如下：

Word used  
this  counting  
this

接下来需要编写Shell脚本程序，如下所示：

#!/bin/bash  
#Name: word_freq.sh  
#Description: Find out frequency of words in a file  
      
if [ $# -ne 1 ];  
then  
    echo "Usage: $0 filename";  
    exit -1
fi  
      
filename=$1
      
egrep -o "b[[:alpha:]]+b" $filename | 
      
awk '{ count[$0]++ } END{ printf("%-14s%sn","Word","Count") ;  
 for(ind in count) { printf("%-14s%dn",ind,count[ind]); } }'

工作原理介绍：

1.egrep -o "b[[:alpha:]]+b" $filename 用来只输出单词，用 -o 选项打印出由换行符分割的匹配字符序列，这样我们就可以在每行中列出一个单词

2.b 是单词边界标记符。[:alpha:] 是表示字母的字符类

3.awk命令用来避免对每一个单词进行迭代

下面给出运行的截图：

关于awk命令请参考博主的其他博客。

（编辑：佛山站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!