#B. 统计单词

    Type: FileIO (word) 1000ms 256MiB

统计单词

You cannot submit for this problem because the contest is ended. You can click "Open in Problem Set" to view this problem in normal mode.

【题目描述】

提取、分析文章的高频词汇有时可以帮助理解作者的写作意图。老师给小明留了几篇阅读理解的作业,她不想做,于是她索性统计了一下每个单词出现的次数(也就是常说的“词频”),然后将根据词频 ≥K 的单词来猜测文本的含义。

为了避免麻烦,小明会将所有的数字、标点都删掉(不考虑 i18n这种单词里嵌入数字的情况),并且移除一些无关紧要的词(例如语法中的助词),还将所有大写字母改成小写,只留下小写字母和分隔单词的空格(注意两个单词之间可能有多个空格,一行的开头也可能有空格)。这样预处理之后该文章共计 L 行,小明希望找出词频>=K的所有单词。

【输入格式】

第一行是两个正整数 K,L;

之后 L 行表示小明预处理之后的文本,保证每一行至少有 1 个单词。

【输出格式】

输出若干行,每行一个只包含小写字母的字符串,表示词频 ≥K 的单词。输出时第一次出现较早的单词排在前边。

【样例输入】

2 5
sample text
five words in this sentence
six lines in this sample input
cirno baka baka baka
without platelets we will die

【样例输出】

sample
in
this
baka

【数据规模及约定】

K , L≤50 ,每个单词的长度 ≤20 ,每行长度 ≤100 。

保证至少一个单词的词频 ≥K ,即输出文件保证不为空。 本题共 10 个测试文件,部分测试点满足如下限制: image

2024-10-7普及组模拟赛

Not Attended
Status
Done
Rule
IOI
Problem
4
Start at
2024-10-7 9:00
End at
2024-11-18 1:00
Duration
1000 hour(s)
Host
Partic.
25