#1256. 统计单词
统计单词
【题目描述】
提取、分析文章的高频词汇有时可以帮助理解作者的写作意图。老师给小明留了几篇阅读理解的作业,她不想做,于是她索性统计了一下每个单词出现的次数(也就是常说的“词频”),然后将根据词频 ≥K 的单词来猜测文本的含义。
为了避免麻烦,小明会将所有的数字、标点都删掉(不考虑 i18n这种单词里嵌入数字的情况),并且移除一些无关紧要的词(例如语法中的助词),还将所有大写字母改成小写,只留下小写字母和分隔单词的空格(注意两个单词之间可能有多个空格,一行的开头也可能有空格)。这样预处理之后该文章共计 L 行,小明希望找出词频>=K的所有单词。
【输入格式】
第一行是两个正整数 K,L;
之后 L 行表示小明预处理之后的文本,保证每一行至少有 1 个单词。
【输出格式】
输出若干行,每行一个只包含小写字母的字符串,表示词频 ≥K 的单词。输出时第一次出现较早的单词排在前边。
【样例输入】
2 5
sample text
five words in this sentence
six lines in this sample input
cirno baka baka baka
without platelets we will die
【样例输出】
sample
in
this
baka
【数据规模及约定】
K , L≤50 ,每个单词的长度 ≤20 ,每行长度 ≤100 。
保证至少一个单词的词频 ≥K ,即输出文件保证不为空。
本题共 10 个测试文件,部分测试点满足如下限制:
Statistics
Related
In following contests: