ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

数据可视化练习题

2022-06-07 16:31:35  阅读:2039  来源: 互联网

标签:练习题 网页 matplotlib 柱状图 可视化 文本 数据


单选题:
1、 数据可视化必须以什么为导向? 【B】
A、漂亮的图形
B、需求或者目的
C、支持互动
D、数据
2、以下说法不正确的是哪一项?【D】
A、在计算机视觉领域,数据可视化是对数据的一种形象直观的解释,实现从不同维度观察数据,从而
得到更有价值的信息。
B、数据可视化将抽象的、复杂的、不易理解的数据转化为人眼可识别的图形、图像、符号、颜色、纹
理等。
C、比起枯燥冰冷的数据,人类对于大小、位置、形状、颜色深浅等能够更好、更快的认识。
D、人类对数据有较高的识别能力,能识别出数据中包含的有用信息。
3、下图的可视化表现形式为【C】
A、阶梯图
B、折线图
C、堆叠柱状图
D、饼图
4、下图的可视化表现形式为【D】
A、阶梯图
B、折线图
C、堆叠柱状图
D、散点图
5、下图的可视化表现形式为【B】
A、阶梯图
B、折线图
C、柱状图
D、饼图
6、 拟合曲线的主要应用场合为【B】
A、银行的利率,它一般会持续几个月不变,然后某一天出现上调或下调
B、数据很杂乱,可能很难甚至无法辨认出其中的发展趋势和模式
C、某明星微博粉丝增长趋势。
D、主要用来反映分类项目之间的比较。
7、 饼图基本框架包括楔形和__【D】
A、三角
B、圆圈
C、线
D、楔形角度
8、 对于比例数据,通常我们能看到最大值、最小值和___【C】
A、平均值
B、中位数
C、总体分布
D、差值
9、 饼图常用于__模型【B】
A、数学
B、统计学
C、大数据
D、分析
10、呈现时间变化时一般使用哪种可视化图形?【D】
A、柱状图
B、饼图
C、环状图
D、堆叠柱形图
11、板块层形图是一种基于__的可视化方式【B】
A.形状
B.面积
C.颜色
D.大小
12、对于同一个问题有多种选项时,我们可以通过__看到整体中所有问题选项的分布情况【D】
A、柱状图
B、饼图
C、环状图
D、堆叠柱形图
13、多元数据具有多个__【A】
A、相关属性
B、特殊属性
C、独立属性
D、普遍属性
14、高维数据具有多个__【C】
A、相关属性
B、特殊属性
C、独立属性
D、普遍属性
15、散点图的本质是将抽象的数据对象映射到__坐标表示的空间【B】
A、一维
B、二维
C、三维
D、多维
16、以下哪个不是空间映射法【C】
A、散点图
B、表格透镜
C、饼图
D、降维
17、哪种方法便于用户理解各数据维度间的关系,也可对坐标轴的排列顺序进行改变。【B】
A、图标法
B、平行坐标
C、像素图
D、马赛克图
18、PCA的计算过程第一步是__【D】
A、计算每个数据属性的均值
B、特征分解
C、投影向量
D、数据重组
19、图表法的典型代表是__【A】
A、星形图
B、像素图
C、柱状图
D、堆叠柱形图
20、马赛克图通过__的方法展示多元类型数据的统计信息。【A】
A、空间剖分
B、模糊图形
C、划分坐标
D、区分形状
21、复杂数据并不只有高维度数据,还有__等【C】
A、多元数据
B、多维数据
C、异构数据
D、网络数据
22、异构数据通常可采用__进行表达【A】
A、网络结构
B、圆形结构
C、环状结构
D、点线结构
以下不属于导航的基本操作有【D】
A、平移
B、缩放
C、旋转
D、折叠
24、百闻不如一见体现了数据可视化的什么作用?【D】
A、绘制图表
B、记录信息
C、分析推理
D、信息传播与协同
25、由于数据分析的重要性,将可视化与数据分析结合可形成一个新的学科是【D】
A、数据表现学
B、数据可视化学
C、信息分析学
D、可视分析学
26、绝大多数单色光也可以分解成三种色光,下面哪种颜色是这三种色光之一【D】
A、黄
B、紫
C、白
D、蓝
27、pyecharts库中用于实现饼图的类为:【D】
A、Bar
B、Line
C、Tree
D、Pie
28、以下哪一个指标不是箱线图中反映的指标? 【A】
A、均方根偏差
B、中位数
C、上四分位数
D、下四分位数
29、pyecharts模块中那个类用于绘制词云【D】
A、Tree
B、ThemeRiver
C、Line
D、WordCloud
30、pandas的DataFrame对象df中获取表头信息的方法为 【A】
A、df.columns
B、df.head
C、df.index
D、df.headers
31、以下哪一项不是数据可视化要寻找的信息 【B】
A、关系
B、数量
C、模式
D、异常
32、关于matplotlib与seaborn之间的关系以下说法错误的是【C】
A、matplotlib是受matlab的启发构建的,是一个广泛使用的可视化工具
B、matplot是面向过程的,通过一系列函数的调用,可以轻松绘制可视化图表
C、seaborn是用于绘制高级图表的工具,与matplotlib没有什么联系
D、seaborn的底层通过matplotlib来实现,是一种指令式的可视化工具
33、seaborn中绘制散点矩阵的函数是 【B】
A、histplot
B、pairplot
C、relplot
D、distplot
34、“机场每月的旅客人数都不一样,通过几年的数据对比,发现旅客人数存在周期性的变化,某些月份
的旅客数量一直偏低,某些月份的旅客数量则一直偏高。”这一句话体现了数据哪方面的信息?【A】
A、数据的规律
B、数据的表现
C、数据的异常
D、数据相关性
35、关于视觉感知的过程排序正确的是,①识别②记忆搜索③分辨④视觉寻找⑤寻找⑥确定 【B】
A、⑤①②③④⑥
B、④⑤③①⑥②
C、⑤①②④③⑥
D、④②①③⑤⑥
36、pyecharts模块中那个类用于绘制主题河流【B】
A、Tree
B、ThemeRiver
C、Line
D、WordCloud
37、以下哪种方式不用于文本数据可视化 【B】
A、主题河流
B、散点矩阵
C、文档散
D、标签云
38、社交网络分析属于 【C】
A、文本标签可视化
B、时序文本可视化
C、文本关系可视化
D、文本内容可视化
39、对于关系数据在大数据中的应用中,我们更关注的是 【D】
A、事物的科学依据
B、事物的前后顺序
C、事物发生的原因
D、探索事物的相关关系
40、下图所示图形数据格式塔的哪一原则【D】
A、接近原则
B、相似原则
C、相近原则
D、闭合原则
41、数据可视化的设计框架中,第一层是【A】
A、现实问题
B、可视化术语
C、交互方式
D、交互算法
42、连续型时间数据的可视化形式不包括【D】
A、阶梯图
B、折线图
C、拟合曲线
D、柱状图
43、雷达图的主要作用是 【D】
A、查看数据的分布情况
B、查看数据随时间变化趋势
C、查看数据间的联系
D、查看多个对象的多个性能参数
44、可以体现文本时序性的可视化方法是 【D】
A、标签云
B、平行标签云
C、文本弧
D、主题河流
45、关于矩形树图的说法错误的是【B】
A、矩形树图是一种基于面积的可视化方式
B、矩形树图只能展示数据的层级关系
C、矩形树图可以展示树状结构的数据的比例关系
D、矩形树图的外部矩形表示父类别,内部矩形表示子类别
46、下图的可视化图表现形式为 【C】
A、雷达图
B、关系图
C、词云图
D、饼图
47、下图的可视化图表现形式为【A】
A、平行坐标系
B、词云图
C、关系图
D、饼图
48、Python中可以用于数据可视化的库不包括【D】。
A、pyecharts
B、matplotlib
C、ggplot
D、Scrapy
49、数据可视化是为了从数据中寻找模式、关系和异常,其中关系是指【B】。
A、数据中的规律
B、数据间的相关性
C、有问题的数据
D、数据的构成
50、哪一图形可用于二维大数据集,适用于趋势比单个数据点更重要的场合 【A】。
A、折线图
B、柱状图
C、饼图
D、玫瑰图
51、张量场可视化属于可视化的哪个分支学科 【A】
A、科学可视化
B、信息可视化
C、可视分析学
D、人机交互学
52、使用以下哪种可视化工具不需要编程基础:【B】
A、D3.js
B、Tableau
C、Vega
D、Processing
53、有的人在发朋友圈的时候,会把一张图片切成9份,然后再按顺序拼出一个九宫格,如下图所示。
虽然图片被分割开来,但是我们仍旧能够感知到图片原来完整的样子,这体现了格式塔理论的( )原
则。【D】
A、接近原则
B、闭包原则
C、相似原则
D、连续原则
54、下图所示的图片体现了格式塔理论的( )原则【A】
A、接近原则
B、连续原则
C、相似原则
D、闭包原则
55、下图所示的可视化中运用了以下哪个视觉通道?【C】
A、亮度
B、形状
C、高度
D、颜色
56、下图所示的可视化中体现了哪种类型的视觉通道?【B】
A、定性型
B、分组型
C、分类型
D、定量型
57、以下哪种可视化方法能够反应每个数据项所占的比例【D】
A、盒须图
B、柱状图
C、散点图
D、饼状图
58、可视化可以将难以理解的原始数据变换成用户可以理解的模式和特征,并显示出来。依据可视化流
程概念图,在原始数据和可视化中间这一步骤是 【A】
A、数据处理和变换
B、数据采集
C、数据分析
D、用户感知
59、以下哪个视觉通道是位置通道 【C】
A、
B、
C、
D、
60、以下哪张散点图的标注最合适?【A】
A、
B、
C、
D、
61、一般所指的地理信息数据,不包括下面哪种数据【C】
A、城市湖泊与河流数据
B、城区污染指数
C、人的社交网络数据
D、参会打卡数据
62、下列选项中,不是地理信息数据可视分析应用的是【B】
A、通过图表了解区域之间的收入差异
B、自动计算异常的轨迹
C、通过交互发现拥堵的路口
D、通过地图分析微博数据的传播情况
63、以下哪个实例没有使用树结构?【B】
A、计算机系统中的文件目录
B、分布式网络
C、决策树
D、企业组织的层次结构
64、以下哪些个不是文本数据 【B】
A、小明发的微博
B、某路口车流量
C、报纸上的新闻
D、某门课程的题库
65、在对文本进行分词时,哪些词可以去掉【D】
A、中文:文本,可视化,大数据…
B、英文:the, a, bad, poor…
C、英文:text, analytics, mooc…
D、中文:的,了,是…
66、某文本的词频向量为
该文本最可能描述了什么主题? 【B】
A、足球比赛
B、家庭生活
C、校园生活
D、科学技术
67、在18世纪中叶,伦敦突然爆发了一场霍乱。 人们都不知道它的源头在哪里? 因而人心惶惶。一位
英国医生,John Snow, 通过将所有的霍乱病例画在地图上,图中柱状图的高度表示该地霍乱病例的数
量,从而首次提出在百老汇大道上的水井是霍乱的起源地。这个例子中主要体现了可视化的哪种作用?
【A】
A、数据分析
B、数据过滤
C、信息记录
D、传播交流
68、图中的示例使用了哪个视觉通道?【A】
A、形状
B、尺寸
C、纹理
D、位置
69、图中的示例使用了哪一种可视化图表【B】
A、折线图
B、 堆叠柱状图
C、 饼图
D、 柱状图
70、图中使用了哪种可视化方法【D】
A、标记法
B、高度映射
C、颜色映射
D、等值线
71、对于下图这样的数据,若要更好的了解其趋势,我们最好做什么样的数据处理?【B】
A、数据聚类
B、数据平滑化
C、数据降维
D、数据采样
72、著名的南丁格尔玫瑰图的可视化形式属于()【B】
A、随机
B、径向
C、线性
D、网格
73、下图中,我们很容易看出一排五角星,一排圆形,这体现了格式塔理论的( )原则【B】
A、接近性
B、相似性
C、连续性
D、闭合性
74、下面的图片一眼能看出是一只熊猫,这体现了格式塔理论的( )原则【D】
A、接近性
B、相似性
C、连续性
D、闭合性
75、下面哪个图适用于多维(四维以上)的数据【C】
A、直方图
B、走势图
C、雷达图
D、热力图
76、matplotlib 绘制直方图的方法是( ) 【A】
A.matplotlib.pyplot.hist()
B.matplotlib.pyplot.scatter()
C.matplotlib.pyplot.plot()
D.matplotlib.pyplot.bar()
77、创建初始值是 0 的 ndarray 方法是( )【B】
A.numpy.array()
B.numpy.zeros()
C.numpy.ones()
D.numpy.full()
78、以下选项中哪个不属于数据间的关系【D】
A、数据间的比较
B、数据的构成
C、数据的分布或联系
D、数据的顺序
79、“机场每月的旅客人数都不一样,通过几年的数据对比,发现旅客人数存在周期性的变化,某些月份
的旅客数量一直偏低,某些月份的旅客数量则一直偏高。”这一句话体现了数据哪方面的信息?【C】
A、数据中的关系
B、数据之间的相关性
C、数据的规律
D、数据中的异常
80、下面哪个选项属于数据归约技术【C】
A、数据过滤技术
B、数据噪声的识别
C、数据抽样技术
D、基于规则的转换技术
多选题
1、 数据中所包含的信息,主要有哪三种?【ABD】
A、模式
B、关系
C、结果
D、异常
2、数据之间的关系有哪些?【ABCD】
A、 数据间的比较
B、 数据的构成
C、 数据的分布
D、数据间的联系
3、数据可视化的作用可归纳为哪三点?【BCD】
A、制作炫酷的图形
B、记录信息
C、信息传播与协同
D、有助于人们更快地分析和推理出有效信息
4、数据可视化可分为哪三类?【ABC】
A、可视分析学
B、科学可视化
C、信息可视化
D、网络可视化
5、数据可视化发展方向有哪些【ACD】
A、与数据挖掘紧密结合
B、与数据采集相结合
C、与人机交互相结合
D、与大规模、高纬度、非结构化数据结合
6、可视分析学是哪两个学科的结合 【CD】
A、数据存储
B、数据采集
C、可视化
D、数据分析
7、连续型时间数据的可视化形式包括 【ABC】
A、阶梯图
B、折线图
C、拟合曲线
D、柱状图
8、离散型时间数据的可视化形式包括【ACD】
A、散点图
B、折线图
C、堆叠柱形图
D、柱状图
9、折线图的主要应用场合包括 【AC】
A、某畅销书的销售量。
B、楼盘价格长时间停留在某个值,突然有一天因为各种调控,出现调整。
C、某明星微博粉丝增长趋势。
D、主要用来反映分类项目之间的比较。
10、python中可以用于数据可视化的库包括 【AB】
A、pyecharts
B、matplotlib
C、Scrapy
D、Django
11、交互在可视化中的作用包括 【ABC】
A、帮助用户理解数据
B、帮助用户更好分析数据
C、有效地缓解可视化空间和数据过载之间的矛盾
D、向用户传递更多信息
12、数据可视化系统中常见的交互操作,包括 【ABCD】
A、缩放
B、过滤
C、关联
D、提取
13、可视分析学涉及到的学科包括:【ABCD】
A、计算机图形学
B、数据挖掘
C、人机交互
D、统计分析
14、视觉三要素包括:【ABC】
A、色相
B、明度(亮度)
C、饱和度(纯度)
D、色温
15、绝大多数单色光也可以分解成三种色光,分别指的是: 【ABD】
A、红
B、黄
C、绿
D、蓝
16、以下关于感知与认知的一些描述,正确的有哪些?【ABC】
A、可视化可以作为外部辅助来增强工作记忆
B、在可视化中突出变化,可以减少认知负担
C、认知是信息加工的过程
D、感知系统基于绝对判断
17、在设计一个可视化解决方案的过程中,了解数据采集这一步骤中的(),才能有的放矢地解决问
题。【ACD】
A、数据的来源
B、数据的处理
C、数据的属性
D、数据的采集方法
18、在区域数据的可视化中,在关注对象在空间中实际位置的前提下,设计展示区域的交通状况时,以
下那种可视化方法是合理的。【BD】
A、在每一个区域中画一个点,使用点的大小编码车辆多少,点越大表示车辆越多。
B、使用斜线标注每一个区域,斜线越密表示区域中车辆越多。同时采用交互的方法,当用户选择某一
区域时,展示区域的详细信息。
C、用区域的面积大小表示车辆多少,并使用比较统计图展示数据。
D、使用区域的颜色编码拥堵程度,仅使用红单色,越红表示越拥堵
19、文本可视化的基本任务包括【ABCD】
A、展现文本所包含的情感
B、展现文本内容的内在联系
C、总结展现文本中的内容
D、辅助大规模文本数据集的浏览
20、针对不确定数据进行可视化方法包括【ABC】
A、图标法
B、几何体表达法
C、动画表达法
D、数据转化法
判断题

  1. 根据格式塔理论,人们在观看时,眼脑在一开始的时候会先区分一个形象的各个单一的组成部分,
    然后再将各个部分组合起来,使之成为一个易于理解的统一体。【T】

  2. 形状是一种典型的定性视觉通道。 【T】

  3. 在计算机视觉领域,数据可视化是对数据的一种形象直观的解释,实现从不同维度观察数据,从而
    得到更有价值的信息。【T】

  4. 人眼视觉获取的信息量,与其他的感官所获取的信息量是一样的。【F】

  5. 数据可视化能够在小空间中展示大规模数据。 【T】

  6. 异常的数据都是错误的数据。【F】

  7. 伦敦地铁图中路线上的车站距离与实际距离成正比关系。【F】

  8. 时间数据可视化的最终的目的就是从中发现趋势,看到什么已经成为过去,什么以保持不变,进而
    预测未来趋势。【T】

  9. 通常使用折线图反映分类项目之间的比较,也可以用来反映时间趋势。【F】

  10. 环形图不能呈现比例数据。【F】

  11. 对于带时空属性的比例数据,我们通过堆叠面积图既可以看到随时间变化数据的变化情况,也能看
    到同一时间不同问题的比例分布情况。【T】

  12. 比例数据可视化仅仅能呈现数据所占的比例。 【F】

  13. 二三维方法可视化可以完全呈现高维多元数据。【F】

  14. 数据的异构性大部分产生于数据源的获取方式的不同。 【T】

  15. 数据可视化最主要的是视觉呈现部分,交互不属于其主要内容。 【F】

  16. 良好的交互设计能有效地缓解可视化空间和数据过载之间的矛盾。 【T】

  17. 在可视化系统中,应尽可能的使用自动化分析,避免用户干预。【F】

  18. 交互的本质就是操作符与操作空间的组合。 【T】

  19. 过滤技术指的是通过设置过滤条件来进行信息查询的技术。【T】

  20. 面积是定量视觉通道,当可视化标记的面积发生变化时,人对面积的主观感知变化与实际变化值基
    本吻合。【F】

  21. 根据格式塔理论,人们在获取视觉感知的时候,会倾向于将事物理解为一个整体,而不是将事物理
    解为组成该事物所有部分的集合。【T】

  22. 一般来说,在编码数值型的数据时,长度的表现力强于面积的表现力。【T】

  23. 属性的类型可大致分为2类 —— 类别属性与序数属性【T】

  24. 一条等值线经过的所有空间中的点均拥有相同的数值【T】

  25. 在数据可视化的过程中,用户关注的更多是统计内容,而对数据的细节并不关注。 【F】

  26. 在地图的右下角显示地图的概览情况,属于概览+细节技术的应用。【T】

  27. 数据可视化的目的是对数据进行可视化处理,以更明确地、有效地传递信息。【T】

  28. 对于带时空属性的比例数据,我们通过堆叠面积图既可以看到随时间变化数据的变化情况,也能看
    到同一时间不同问题的比例分布情况。【T】

  29. 数据预处理的目的是为了提升数据质量,是的后续的数据处理、分析、可视化过程更加容易。
    【T】

  30. 气泡图与散点图相似,不同之处在于,气泡图允许在图表中加入一个标识大小的变量。 【T】

  31. 信息可视化的处理对象都是结构化的数据。【F】

  32. 在标签云中,某一个词越大,通常表示该词出现的频率越多,重要程度越高。【T】

  33. 在实际的数据分析过程中看,数据预处理仅仅起到格式转换的作用。【F】

  34. 可视化过程本身就是一个将信息进行隐喻化的过程。【T】

  35. 拟合曲线是根据给定的连续数据点绘制的曲线。【F】

  36. TF-IDF的主要思想是某个词或短语在这篇文章中出现的频率高,在其他文章中出现的频率低,则这
    个词或短语越能代表这篇文章。【T】

  37. 可视化图表中的环形图不能用于呈现比例数据。【F】

  38. python的pyecharts库的render()函数默认将会在当前目录下生成一个render.html的文件。【T】

  39. 在对可展示的数据进行筛选时,要确保不能展示过多数据,同时也不能展示过少数据 【T】

  40. 颜色按照色系可以分为冷色系和暖色系。【T】

  41. 感知系统是基于绝对判断而非相对判断。【F】
    简答题:

  42. 请简述直方图和柱形图的区别,使用matplotlib或Pyecharts中的哪个函数可以绘制柱形图?

    区别:

    • 柱形图用于展示离散型数据(记录不同类别的数据)的分布,而直方图用于展示连续型数据(一定区域内连续数值所组成的数据)的分布
    • 柱形图的各矩形条之间具有固定的间隙,而直方图各矩形条之间没有任何间隙。
      使用matplotlib里的bar()函数可以绘制柱状图
  43. 请简述数据可视化的作用,并举例说明

    数据可视化的作用:

    • 帮助人更好的分析数据,数据可视化将技术与艺术完美结合,借助图形化的手段,清晰有效地传达与沟通信息。
    • 数据赋予可视化以价值
    • 可视化增加数据的灵性,两者相辅相成,帮助企业从信息中提取知识、从知识中收获价值
      举例说明:
    • 伦敦鬼图
    • 南丁格尔玫瑰图
  44. 柱形图与折线图都可以反映数据随时间的变化,那么这两者有何区别,使用matplotlib中的哪个函
    数可以绘制柱形图和折线图?

    区别:

    • 柱形图是看差别的,折线图是看趋势的
      利用matplotlib的pyplot来绘制
  45. 列举出5种数据可视化的基本图表,并举例说明其使用场合。

    • 柱状图:过柱高能够比较清晰的反映数据的差异 适用于对比分类数据
    • 折线图:反映在相等时间间隔下数据的趋势 适用于有序的类别,比如时间
    • 饼图:反应数据占比 适用于了解数据的分布情况
    • 雷达图:反应某项目不同属性的特点 了解同类别的不同属性的综合情况
    • 条形图:反映分类项目之间的比较 适用于类别名称过长,将有大量空白位置标示每个类别的名称
  46. 简述数据可视化面临的挑战。

    数据可视化在大数据场景下面临诸多新的挑战,包括数据规模、数据融合、图表绘制效率、图表表达能力、系统可扩展性、快速构建能力、数据分析与数据交互等。

  47. 简述数据可视化设计的要遵循哪些标准。

    • 了解数据源及数据
      顾名思义,数据源即为数据的来源,信息系统的数据源必需可靠且具备更新能力。
    • 明确数据可视化的目的
      进行数据可视化的操作之前,除了应当了解数据源及数据之外,还必须要明确数据可视化的目的。
    • 注重数据的比较
      想要数据反映出问题,就必须要有所比较。比较是一种相对的变化,不仅在于量的呈现,更可以看到问题所在。
    • 建立数据指标
      在数据可视化的过程中,建立数据指标才会有对比性,才知道对比的标准在哪里,也可更好地知道问题所在。
    • 定义用户体验
      数据是用来引导用户而非支配用户的,它应该扮演一个幕后的角色。
  48. 请简要描述爬取网络数据的过程。

    • 获取网页
      爬虫首先要做的工作就是获取网页,也就是获取网页的源代码,然后从源代码中提取想要的信息。
      一般情况下,向网站服务器发送一个请求,返回的响应体就是网页源代码。为了构造请求并发送给服务器,然后接收到响应并将其解析出来,Python提供了许多库来帮助我们实现这个操作,如urllib,request等。我们可以用这些库来帮助我们实现HTTP请求操作。
    • 提取信息
      获取网页源代码后,接下来就是分析网页源代码,从中提取我们想要的数据。提取方法有两种:
      • 采用正则表达式提取,这是一个万能的方法,但是在构造正则表达式时比较复杂且容易出错。
      • 由于网页的结构有一定的规则,所以还有一些根据网页节点属性、CSS选择器或Xpath选择器来获取网页信息的库,如Beautiful Soup、pyquery、lxml等。
        使用这些库可以高效快速地从中提取网页信息,如节点的属性、文本值等。
    • 保存数据
      提取信息后,一般会将提取到的数据保存到某处以便后续使用。保存形式多种多样,可以简单保存为TXT文本或JSON文本,也可以保存到数据库,如MySQL和MongoDB等,也可以保存至远程服务器,如借助SFTP进行操作。
  49. 请指出格式塔原则包括哪些基本原则,并简要说明。

    原则包括:

    • 图形与背景
      例如,我们在寂静中比较容易听到清脆的钟声,在绿叶中比较容易发现红花
    • 接近性和连续性
      例如,距离较近而毗邻的两线,自然而然地组合起来成为一个整体。
    • 完整和闭合倾向
      有12个圆圈排成一个椭圆形,旁边还有一个圆圈,尽管按照接近性原则,它靠近12个圆圈中的其中一个,但我们仍把12个圆圈作为一个完整的整体来知觉,而把单独一个圆圈作为另一个整体来知觉。
    • 相似性
      O代表白色,●代表黑色,观察者容易将该列看作按直线排列,而非以横线排列。
    • 转换律
      例如,一个曲调变调后仍可保持同样的曲调,尽管组成曲子的音符全都不同。一个不大会歌唱的人走调了,听者通过转换仍能知觉到他在唱什么曲子。
    • 共同方向运动
    • 不灭痕迹
  50. 请简述TF-IDF算法

    TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。

       TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
       TF-IDF的主要思想是:如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
    
  51. 请简述TextRank算法

    PageRank算法通过计算网页链接的数量和质量来粗略估计网页的重要性,算法创立之初即应用在谷歌的搜索引擎中,对网页进行排名。
    PageRank算法的核心思想如下:
    (1)链接数量:如果一个网页被越多的其他网页链接,说明这个网页越重要,即该网页的PR值(PageRank值)会相对较高;
    (2)链接质量:如果一个网页被一个越高权值的网页链接,也能表明这个网页越重要,即一个PR值很高的网页链接到一个其他网页,那么被链接到的网页的PR值会相应地因此而提高。

  52. 请简述RFM模型

    RFM模型是网点衡量当前用户价值和客户潜在价值的重要工具和手段。

    • RFM是Rencency(最近一次消费)
    • Frequency(消费频率)
    • Monetary(消费金额)

标签:练习题,网页,matplotlib,柱状图,可视化,文本,数据
来源: https://www.cnblogs.com/shuilifang/p/16352349.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有