ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

大数据分析与计算 汤羽 第四章习题答案

2021-11-20 19:59:30  阅读:381  来源: 互联网

标签:数据分析 Web 优先 网页 URL 汤羽 搜索 习题 日志


1. 什么是日志采集?日志采集的主要目的是什么?

参考答案:Web日志包含各种前端Web服务器产生的用户访问日志,以及各种Web应用程序输出的日志。日志采集是指对这些信息的汇总。日志采集的主要目的是为了进行日志分析。Web日志中包含了大量人们感兴趣的信息。例如,我们可以从日志记录中获取网站每个页面的页面访问量、访问用户的独立IP数;此外,我们还可以获取一些较为复杂的信息。例如,统计出关键词的检索频次排行榜、用户停留时间最长的页面,甚至可获取更复杂的信息,包括构建广告点击量模型、用户行为特征分析等等。

2. 日志采集的主要过程是什么?传输协议有哪些?

参考答案:日志数据的采集是通过设备中的日志记录子系统实现的,这个子系统能够在必要的时候生成日志消息。当然,具体的日志信息采集方式取决于设备。例如,我们可以对设备进行手工配置,也可以通过硬编码让设备自身生成一系列的预设消息。此外,我们必须使用日志主机来接收日志消息。日志主机是一个基于Unix或者Windows的服务器系统,它用来集中存储日志消息。日志主机可以集中存储来自多个数据源的日志消息,可以对系统日志信息进行备份,也可以分析日志数据。

3. 请简述网络爬虫的工作原理。

参考答案:网络爬虫往往从一个初始网页的URL开始工作,首先获得初始网页上的URL。在抓取网页的过程中,需要根据网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列中。然后,网络爬虫根据某种搜索策略从队列中选择下一次要抓取的网页URL,并重复上述过程,直到达到系统的某一停止条件,例如搜索时长或搜索页面数量达到某一阈值。另外,所有被爬虫抓取的网页会自动被系统存储,并建立索引,以便之后的查询和检索。

4. 网络搜索的方法有几种?请简述每种网络搜索的原理,并比较不同搜索算法的优缺点。

参考答案:网页的搜索策略按照搜索次序不同,可以分为深度优先、广度优先和最佳优先三种搜索策略。

深度优先的搜索策略表述如下:首先跳转进入起始网页的URL链接,分析这个网页中所包含的URL链接,选择其中一个URL链接进入。如此一个链接一个链接地选择并跳转进入,直到访问完路径中的最后一个URL。深度优先搜索策略存在如下问题:起始网页通常是网站主页,其提供的链接往往最具价值,浏览和点击量最高。随着每一层URL的深入,网页的价值和点击量都会相应地有所下降。这表明重要网页通常距离起始网页的跳转次数较少,而多次跳转抓取到的网页价值往往很低。相对于其他搜索策略而言,深度优先的搜索策略在实际搜索过程中很少被使用。

广度优先的搜索策略和深度优先策略不同。它在抓取URL的过程中,只有完成当前层级的搜索后,才跳转到下一层级进行搜索。广度优先算法的复杂度较高。

最佳优先搜索策略是基于降低广度优先搜索策略的算法复杂度而进行优化的。最佳优先搜索策略按照特定的网页分析算法,预测候选URL与主题的相关性,筛选并抓取最相关的某些URL。

5. RESTful Web 是基于哪些资源进行定义的?

参考答案:RESTful Web 服务(也称为 RESTful Web API)是一个使用HTTP并遵循REST原则的Web服务。它基于以下三方面资源进行定义:

  • URI,例如http://example.com/resources/。
  • Web服务接收与返回的互联网媒体类型,比如:JSON、XML等。
  • Web服务所支持的一系列资源请求方法(比如:POST,GET,PUT或DELETE)。

标签:数据分析,Web,优先,网页,URL,汤羽,搜索,习题,日志
来源: https://blog.csdn.net/m0_46943867/article/details/121444492

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有