文档在一个或多个时间段内更新的(平均)量(例如,网页的可查看内容在时间段 t 内发生变化的 n%)以一种或多种方式得出,包括但不限于,在一个实施例中,根据(1)、(2)、月平均变化量以及最近n天的变化量计算UA。 在一个实施例中,假设UA是根据文档内容的不同加权部分来计算的。例如,在一个实施例中,当识别UA时,可以忽略对诸如Javascript、评论、广告、导航元素、样板或日期/时间标签之类的内容的改变。
在一个实施例中时间或内容
另一方面,如果更新的内容被认为很重要(更频繁、更新、更广泛等),那么在识别用户获取时可能会给予更大的权重。例如,在本发明的一个实施例中,超出文 南非 电话号码 的标题或锚文本的改变被给予比其他文本中所做的改变更大的权重。 为了在监控文档内容变化时有效地管理用于存储数据的资源,在本发明的一个实施例中,搜索引擎系统通过使用文档本身来检测文档内容的变化并保存并使用“特征”。
文档的一部分而不是整个文档
在一个实施例中,存储诸如网页之类的文档的时间段向量并监视相对较大的变化。在另一个实施例中,可以保存和监视被认为重要或最频繁出现的文档的相对小 阿富汗电话号码列表 的部分(不包括停用词)。然而,在其他实施例中,可以维护文档的概要或其他表示并且可以提供对所做改变的监控。在一个实施例中,可以预期,计算检测例如几乎重复的内容的simhash并将其用于监视变化。即使 simhash 中相对较小的变化也可以被搜索引擎解释为指示相关文档中相对较大的变化。