寻找发帖‘水王’

传说,Tango有一大水王,他不但喜欢发帖,还会回复其他ID发的贴子,坊间风闻该水王发帖数目超过了帖子总数的一半。如果你有一个当前论坛上所有帖子(包括回帖)的列表,其中帖子作者的ID也在表中,你能快速找出这个传说中的Tango水王吗?

最直接的方法,我们可以对所有ID进行排序,然后再扫描一边排好序的ID列表,统计各个ID出现的次数,如果某个ID出现的次数超过总数的一半,那么就输出这个ID。这个算法的时间复杂度是 O(N*logN + N)

如果ID列表已经是有序的,还需要扫描一遍整个列表来统计各个ID出现的次数吗?

当列表已经是有序时候,第N/2项就是水王ID

但上面两种方法都需要先对ID列表进行排序,时间复杂度没有本质的改进,能否避免排序呢?

如果每次删除两个不同的ID(不管是否包含水王的ID),那么,在剩下的ID列表中,水王ID出现的次数仍然超过总数的一半,可以不断通过重复这个过程,把ID列表中的ID总数降低(转化为更小的问题),从而得到答案,新的思路,避免了排序这个耗时的步骤,总的时间复杂度只有O(N),且只需要常数的额外内存。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Type Find(Type* ID, int N)
{
Type candidate;
int nTimes, i;
for(i = nTimes = 0; i < N; i++)
{
if(nTimes == 0)
{
candidate = ID[i], nTimes = 1;
}
else
{
if(candidate == ID[i])
nTimes++;
else
nTimes--;
}
}
return candidate;
}

把一个问题转化为规模较小的若干个问题,小的问题跟原问题本质上一直。

扩展问题:

统计发现,有三个发帖很多的ID,他们的发帖数目都超过了帖子总书N的1/4,你能从发帖ID列表中快速找出他们的ID吗?

Donate? comment?