采集知名小说网站的盗版小说页实例参考:示例内容质量说明

金坛金祥龙 次浏览

摘要:影响用户浏览体验好坏的因素很多,目前百度搜索引擎主要从内容排版、广告影响两方面对网页进行考量:百度搜索引擎认为这部分网页无法提供有价值信息,如果站点中此类网页过多,也会影响百度搜索引擎对其的收录和评级。为了保证搜索质量、提高用户使用满意度,百度搜索引擎每周都会进行网页质量抽样评估。

示例参考:

例子

内容质量

阐明

案例3.1.2-1

中间

网易直接转载了中国新闻网的一篇新闻文章。

案例3.1.2-2

中间

文库网友上传的“国庆放假安排”消息

案例3.1.2-3

中间

起点小说网盗版小说网站合集

案例3.1.2-4

中间

百度贴吧的一个普通帖子

3、内容质量差:

百度搜索引擎认为,主要内容信息较少、无有效信息、或无效、过期信息的网页是内容质量较差的网页,不能给用户提供任何实质性帮助,应减少其展示机会。 同时,如果网站中此类网页所占比例过大,也会影响百度搜索引擎对该网站的评分。 尤其是UGC网站、电子商务网站、黄页网站,要特别重视过期无效网页的管理。 例如:

• 已下架的产品页面,或过期的团购页面;

• 招聘和交易页面已过期;

• 资源已过期,如视频已删除、软件下载后无法使用等。

4、内容质量无从谈起:

内容质量不合格的网页是指制作成本低、粗制滥造的网页; 从其他地方收集的内容未经最少编辑就放在网上; 病毒,例如特洛伊木马; 含有作弊行为或意图; 完全不能满足用户的需求。 ,甚至包含欺骗性内容的页面。 例如:

• 内容空洞、简短,内容量少,不能支撑页面的主要目的;

• 问答页面的问题没有答案,或者答案根本不能解决问题;

• 网站搜索结果页面,但未给出相关信息

除上述网页外,欺骗用户和搜索引擎的网页在采集中所占比例很高,毫无内容质量可言。 百度搜索引擎将作弊网页定义为不符合用户需求,采用不正当手段欺骗用户和搜索引擎以获取利润的网页。 目前,此类网页在互联网上仍占少数,但作弊网页的价值是负面的,对用户危害很大。 搜索引擎对此类网页的打击是坚决的。

衡量网页质量的维度——浏览体验

不同品质的网页给用户带来的浏览体验会有很大差距。 一个高质量的网页应该给用户带来积极的浏览体验。 用户希望看到干净且易于阅读的网页。 布局混乱、广告过多会影响用户对网页主要内容的访问。 在百度搜索引擎网页质量体系中,用户对网页主要内容的获取成本与浏览体验成反比,即获取成本越高,浏览体验越低。 面对内容质量相似的网页,浏览体验好的网页更有可能获得更高的排名。 对于浏览体验较差的网页,百度搜索引擎会视情况降低其显示概率甚至拒绝收录。

影响用户浏览体验的因素有很多。 目前,百度搜索引擎主要从内容布局和广告效果两个方面考虑网页:

内容布局:用户进入网页时首先看到的就是内容布局。 布局决定了用户对网页的第一印象,也决定了用户获取内容的成本。

广告影响:百度搜索引擎深知网站的生存和发展需要资金的支持,支持在网页上投放合法的广告。 网页的目的应该是满足用户的需求。 最好的状态是“主要内容和广告一起满足用户需求,内容为主,广告为辅”。 广告不应成为网页的主体。

我们通过一个例子来感受一下百度搜索引擎是如何对网页的浏览体验进行分类的。 站长可以据此比较和测试自己网站的浏览体验:

1.良好的浏览体验:

页面布局合理,用户获取主要内容的成本较低。 它一般具有以下特点:

• 布局合理,版式美观,易于阅读和浏览;

• 用户需要的内容在网页中占据最重要的位置;

• 能够通过页面标签或页面布局清晰地区分广告;

• 广告不占据主要内容的位置,不妨碍用户访问主要内容;

示例参考:

例子

浏览体验

阐明

案例3.2.1-1

好的

招聘、房产网站的首页也有很多广告,但都是招聘相关的,浏览体验还可以。

案例3.2.1-2

好的

文章页面,页面布局合理,无广告,布局良好,结构合理

案例3.2.1-3

好的

游戏首页,布局精美,布局合理,无广告,浏览体验极佳

2、浏览体验差:

页面布局和广告投放影响用户对主要内容的访问,增加用户获取信息的成本,得罪用户。 包括但不限于以下情况:

• 文本内容未换行或分段,导致用户阅读困难;

• 字体和背景颜色相似,难以区分内容;

• 页面布局不合理,网页首屏看不到有价值的主要内容;

• 广告遮挡了主要内容; 或者在普通分​​辨率下,首屏全是广告,看不到主要内容;

• 弹出广告过多;

• 浮动广告过多,干扰阅读

• 单击链接时,出现意外的弹出窗口;

• 广告和内容混乱,难以区分;

衡量网页质量的维度——可访问性

用户希望从搜索引擎中快速获取自己需要的信息。 百度搜索引擎尽力为用户提供可以直接一次性获取所有信息的网页结果。 百度搜索引擎认为无法直接获取主要内容的网页对用户不友好,会根据情况调整其显示概率。

百度搜索引擎会从正常打开、权限限制、有效性三个方面来判断网页的可访问性。 对于能够正常访问的网页,可以参与正常排序; 对于有权限限制的网页,将通过其他维度进行观察; 对于无效的网页,显示机制将被降级,甚至从数据库中删除。

1、可以正常访问的网页

没有权限限制,您可以直接访问所有主要内容的网页。

2、权限受限的网页

网页有两种类型:打开权限和资源获取权限。

1)打开权限:表示需要登录权限才能打开网页。 未经许可,您无法看到具体内容。 普通用户无法获取或者获取成本非常高。 百度搜索引擎会降低其显示概率。 不包括主要功能为登录的网页。

2)资源获取权限:指获取网页的主要内容,如文档、软件、视频等,需要权限或安装插件才能获取完整的内容。 此时会出现三种情况:

• 提供高质量、真实内容的网站。 由于内容建设成本较高,虽然需要权限或插件才能查看全文或下载,但也在用户的预期之内。 百度搜索引擎不认为权限行为对用户造成伤害,并给予正常可访问的页面同等对待。

• 对于一些非优质非正版资源,由用户转载甚至机器采集,成本本身较低,内容不唯一,用户获取资源有权限限制——用户需要注册登录或付费查看,百度搜索引擎将根据具体情况决定是否调整其呈现方式。

• 还有一些视频和下载资源页面。 他们的资源质量可能不错,但是需要安装非常冷门的插件才能正常访问。 例如,如果他们要求安装“xx大片播放器”,百度搜索引擎就会怀疑他们有恶意倾向。

示例参考:

例子

可达性

阐明

案例3.2-1

好的

CNKI上的一篇论文可以付费下载,但有版权,浏览体验很好。

案例3.2-2

好的

优酷上有一部新电影。 您需要付费才能观看。 浏览体验很好。

案例3.2-3

中间

内容已复制,但需要登录才能查看更多

案例3.2-4

不同之处

入党申请表本身已被转载,在网上到处都是,但这个页面仍然需要付费下载。

3. 无效网页

通常指含有死链接和无效主要资源的网页。 百度搜索引擎认为这些网页不能提供有价值的信息。 如果网站上此类网页过多,也会影响百度搜索引擎的收录和评级。 建议站长对此类网页进行相应设置,及时登录百度站长平台,并使用死链接提交工具告知百度搜索引擎。

无效网页包括但不限于:

• 404、403、503 等网页;

• 程序代码错误报告网页;

• 打开后提示内容已删除,或因内容不存在而跳转至首页;

• 包含已删除内容、已删除视频页面的论坛帖子(主要在 UGC 网站上找到)

互联网网络资源现状

CNNIC 2014年初发布的《中国互联网络发展状况统计报告》称,截至2013年12月百度收录量浮动很大,中国网页数据量为1500亿条,较2012年同期增长22.2%。2013年,平均网页数据数为1500亿条,比2012年同期增长22.2%。我国单个网站网页数量和单个网页平均字节数均保持增长,显示中国互联网内容更加丰富:网站平均网页数量达到46900个,增长2.3 % 较去年同期。

为了保证搜索质量,提高用户满意度,百度搜索引擎每周都会进行网页质量抽样评估。 但从过去一年的评价数据来看,我们发现优质网页的绝对数量很少,几乎没有增长; 普通网页的比例在下降,相应的,劣质网页的比例则明显上升。 截至2014年5月,统计显示,在百度网页搜索发现的海量网页中,高质量网页仅占7.4%,低质量网页占21%,普通网页占71.6%。

烟台网站制作.jpg

百度网页搜索力求通过一系列的筛选、识别、分析、赋能等,将更多优质网页呈现在用户面前,每天打击数以万计的劣质网站,涉及数以百万计的网页页面,并尽可能减少低质量的网页。 网页对用户造成的干扰。 从下图所示的2014年5月网页展示分析数据来看,当前展示在用户面前的网页质量分布中,优质网页占比40%,劣质网页下降至11% 。 虽然这种变化已经非常明显,但百度网页搜索仍然希望与广大站长共同努力,将劣质的比例降低到更低的水平。

互联网上的所有网页

百度搜索显示的网页

高品质网页

7.4%

41%

普通网页

71.6%

49%

网页质量差

21%

11%

上述劣质网页包括两部分:低质量网页和垃圾网页。 低质量网页分布如下图所示:

从上图可以看出,当前低质量网页最严重的问题是广告过多,占据网页主要位置,导致浏览体验差,以及意外弹窗、内容空洞短小、需要权限获取资源和过期信息的网页也是低质量网页的重要组成部分。

除了低质量网页外,低质量网页中毫无质量的垃圾页面的问题分布如下图所示:

烟台网站建设.jpg

从上图可以看出,当前低质量网页最严重的问题是广告过多,占据网页主要位置,导致浏览体验差,以及意外弹窗、内容空洞短小、需要权限获取资源和过期信息的网页也是低质量网页的重要组成部分。

除了低质量网页外,低质量网页中毫无质量的垃圾页面的问题分布如下图所示:

烟台网站制作.png

死链接对于用户、网站和搜索引擎来说没有任何意义,在垃圾网页中所占比例最大。 其次,存在作弊网页,对用户和搜索引擎造成很大伤害。 资源无效、问题未解答、搜索结果不相关的网页,极大地浪费了用户的时间百度收录量浮动很大,也是搜索引擎不想呈现给用户的网页。

给站长的百度搜索引擎建议

以上介绍了百度搜索引擎判断网页质量的标准。 对应这些标准,站长在实际工作中应遵循几个原则:

• 设计网页时主要考虑的是用户,而不是搜索引擎

• 始终将用户体验放在第一位

• 根据用户需求创建内容

• 多思考如何使您的网站独特且有价值

• 从长远来看,过多的广告弊大于利

• 及时删除低质量内容

• 不得试图以任何方式欺骗用户或搜索引擎

随机内容