京东数据分析试卷题

北京雀斑的最好医院 https://m-mip.39.net/nk/mip_8714315.html

京z东数据分析试卷题

1.在软件开发过程中,我们可以采用不同的过程模型,下列有关增量模型描述正确的()

A.已使用一种线性开发模型,具有不可回溯性

B,把待开发的软件系统模块化,将每个模块作为一个增量组件,从而分批次地分析、设计、编码和测试这些增量组件

C.适用于已有产品或产品原型(样品),只需客户化的工程项目

D.软件开发过程每迭代一次,软件开发又前进一个层次

正确答案:B

增量模型

增量模型也称为渐增模型,是把待开发的软件系统「模块化」,将每个模块作为一个增量组件,从而分批次地分析、设计、编码和测试这些增量组件。

优点:

将待开发的软件系统模块化,可以「分批次地提交软件产品」,使用户可以及时了解软件项目的进展

以组件为单位进行开发「降低了软件开发的风险」,一个开发周期内的错误不会影响到整个软件系统

「开发顺序灵活」。开发人员可以对组件的实现顺序进行优先级排序,先完成需求稳定的核心组件。当组件的优先级发生变化时,还能及时地对实现顺序进行调整

缺点:

要求待开发的软件系统可以被模块化。如果待开发的软件系统很难被模块化,那么将会给增量开发带来很多麻烦

2.一颗二叉树的前序遍历是ABCDFGHE,后序遍历是BGHFDECA,中序遍历是?

A.GHBADFCE

B.DGBAFHEC

C.BADGFHCE

D.BAGDFHEC

正确答案:C

二叉树的前序、中序、后序三种遍历

我个人的二叉树结构如下图,仅供参考。

3.关于TCP协议的描述,以下错误的是?

A.面向连接

B.可提供多播服务

C.可靠交付

D.报文头部长,传输开销大

正确答案:B

TCP协议

TCP(TransmissionControlProtocol

传输控制协议)是一种面向连接的、可靠的、基于字节流的传输层通信协议,由IETF的RFC定义。

对B选项,TCP不提供广播或多播服务

对D选项,由于TCP要提供可靠的面向连接的传输服务,因此增加了许多开销,确认、流量控制、计时器及连接管理等

4.以下命令用于设置环境变量的是

A.export

B.cat

C.echo

D.env

正确答案:A

关于环境变量的命令

export:设置环境变量

echo:查看是否成功

env:显示所有的环境变量

set:显示所有本地定义的Shell变量

unset:清除环境变量

5.数据库事务的特性不包含

A.原子性

B.并发性

C.一致性

D.持久性

正确答案:B

数据库事务四大特性:原子性、一致性、隔离性、持久性

原子性:是指事务包含的所有操作要么全部成功,要么全部失败回滚,因此事务的操作如果成功就必须要完全应用到数据库,如果操作失败则不能对数据库有任何影响。

一致性:是指事务必须使数据库从一个一致性状态变换到另一个一致性状态,也就是说一个事务执行之前和执行之后都必须处于一致性状态。

隔离性:是当多个用户并发访问数据库时,比如操作同一张表时,数据库为每一个用户开启的事务,不能被其他事务的操作所干扰,多个并发事务之间要相互隔离。

持久性:是指一个事务一旦被提交了,那么对数据库中的数据的改变就是永久性的,即便是在数据库系统遇到故障的情况下也不会丢失提交事务的操作。

6.索引是对数据库表中一个或多个列的值进行排序的数据结构,以协助快速查询、更新数据库表中数据。以下对索引的特点描述错误的是

A.加快数据的检索速度

B.加速表和表之间的连接

C.在使用分组和排序子句进行数据检索时,并不会减少查询中分组和排序的时间

D.通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性

正确答案:C

索引的特点

创建索引的好处:

通过创建索引,可以在查询的过程中,提高系统的性能

通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性

在使用分组和排序子句进行数据检索时,可以减少查询中分组和排序的时间

创建索引的坏处:

创建索引和维护索引要耗费时间,而且时间随着数据量的增加而增大

索引需要占用物理空间,如果要建立聚簇索引,所需要的空间会更大

在对表中的数据进行增加删除和修改时需要耗费较多的时间,因为索引也要动态地维护

7.如果ORDERBY子句后未指定ASC或DESC,默认使用以下哪个?

A.DESC

B.ASC

C.不存在默认值

D.其它选项都不对

正确答案:B

8.关于Python中的复数,下列说法错误的是()

A.表是复数的语法是real+imagej

B.实部和虚部都是浮点数

C.虚部必须后缀j,且必须小写

D.方法conjugate返回复数的共轭复数

正确答案:C

Python中的复数

表是复数的语法是real+imagej

实部和虚部都是浮点数

虚部后缀可以是j或J

方法conjugate返回复数的共轭复数

9.执行以下shell语句,可以生成/test文件的是(假定执行前没有/test文件):

A.touch/test

B.a=touch/test

C./test

D.echo‘touch/test’

正确答案:ABC

10.if[2-a2=“test”]中-a是什么意思?

A.大于

B.减

C.全部

D.并且

正确答案:D

Linux_shell的逻辑判断

11.文件目录data当前权限为rwx—---,只需要增加用户组可读权限,但不允许写操作,具体方法为:

A.chmod+data

B.chmod+data

C.chmod+data

D.chmod+data

正确答案:A

参考解析

使用chomd命令改变文件权限。Linux文件基本权限有9个,owner,group,others三种身份对应各自read,write,execute三种权限。文件权限字符:“-rwxrwxrwx”三个一组

数字化r:4w:2x:1增加用户组可读,但不可写,第一组和第三组默认为0,只在第二组中添加r-x即可chomd+

12.以下哪个模型是生成式模型?

A.贝叶斯模型

B.逻辑回归

C.SVM

D.条件随机场

正确答案:A

生成式模型?判别式模型

区别与联系:

生成式模型对联合分布P(x,y)建模,而判别式模型对P(y

x)建模

生成式模型可以通过贝叶斯公式得到判别式模型,而判别式模型不能得到生成式模型

常见生成式模型:

朴素贝叶斯,隐马尔科夫模型,高斯混合模型,贝叶斯网络

常见判别式模型:

KNN,SVM,决策树,线性回归,boosting,条件随机场,感知机,传统神经网络,逻辑斯蒂回归,CART

13.下列关于计算机存储容量单位的说法中,错误的是?

A.1KB1MB1GB

B.基本单位是字节(Byte)

C.一个汉字需要一个字节的存储空间

D.一个字节能够容纳一个英文字符

正确答案:C

一个汉字需要两个字节,一个英文字符需要一个字节的储存空间。

14.以下机器学习中,在数据预处理时,不需要考虑归一化处理的是?

A.logistic回归

B.SVM

C.树形模型

D.神经网络

正确答案:C

归一化处理

Tree-basedmodelsdoesn’tdependonscaling

Non-tree-basedmodelshugelydependonscaling

对数模型,数值缩放不影响分裂点位置,因此特征值排序的顺序不变,那么所属的分支以及分裂点就不会有不同。

15.从使用的主要技术上看,可以把分类方法归结为哪几种类型?

A.规则归纳方法

B.贝叶斯分类方法

C.决策树分类方法

D.基于距离的分类方法

正确答案:ABCD

分类方法四种类型

基于距离的分类方法(最临近方法)

决策树分类方法(ID3和C4.5算法)

贝叶斯分类方法(朴素贝叶斯算法和EM算法)

规则归纳(AQ算法、CN2算法和FOIL算法)等

16.数据挖掘的挖掘方法包括?

A.聚类分析

B.回归分析

C.神经网络

D.决策树算法

正确答案:ABCD

17.检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测

A.统计方法

B.邻近度

C.密度

D.聚类技术

正确答案:A

18.熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是?

A.1比特

B.2.6比特

C.3.2比特

D.3.8比特

正确答案:B

H=-6*(1/6)*log2(1/6)=2.58

19.以下相关关系取值,哪个蕴含了无关系?

A.Cor(X,Y)=1

B.Cor(X,Y)=0

C.Cor(X,Y)=2

D.其他都是

正确答案:B

20.下列关于大数据的分析理念的说法中,错误的是?

A.在数据基础上倾向于全体数据而不是抽样数据

B.在分析方法上更注重相关分析我不是因果分析

C.在分析效果上更追究效率而不是绝对精确

D.在数据规模上强调相对数据而不是绝对数据

正确答案:D

21.置信概率可以用来评估区间估计的什么性能?

A.精确性

B.显著性

C.规范性

D.可靠性

正确答案:D

置信度

置信度(置信水平)是也称为可靠度,或置信系数,即在抽样对总体参数作出估计时,由于样本的随机性,其结论总是不确定的。是指正确的概率。(1-α为置信度或置信水平其表明了区间估计的可靠性)

22.为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?

A.探索性数据分析

B.建模描述

C.预测建模

D.寻找模式和规则

正确答案:B

23.下列关于普查的缺点的说法中,正确的是?

A.工作量较大,容易导致调查内容有限、产生重复和遗漏现象

B.误差不易被控制

C.对样本的依赖性比较强

D.评测结果不够稳定

正确答案:A

普查的优缺点

优点:

由于是调查某一人群的所有成员,所以在确定调查对象上比较简单

所获得的资料全面,可以知道全部调查对象的相关情况,准确性高

普查所获得的数据为抽样调查或其他调查提供基本依据

缺点:

工作量大,花费大,组织工作复杂

调查内容有限

易产生重复和遗漏现象

由于工作量大而可能导致调查的精确度下降,调查质量不易控制

24.数据科学家使用的统计方法有?

A.马尔科夫过程

B.等价划分类

C.线性累加

D.不知道

正确答案:A

25.在下列算法中,对于缺失值敏感的模型为?

A.随机森林

B.LogisticRegression(逻辑回归)

C.C4.5

D.朴素贝叶斯

正确答案:B

AC基于树模型,对缺失值敏感度低;D朴素贝叶斯对缺失值也比较稳定;B逻辑回归是线性模型,对缺失值敏感。

缺失值对模型的影响

树模型对于缺失值敏感度低,其本身就可以把缺失值当成一类

基于距离度量的模型对于缺失值敏感度高,如K近邻算法(KNN)和支持向量机(SVM)

线性模型的代价函数(lossfunction)往往涉及到距离的计算,计算预测值和真实值之间的差别,这容易导致对缺失值敏感

神经网络对缺失值不是非常敏感

贝叶斯对缺失值也比较稳定,数据量小的时候推荐

总结来看,对于有缺失值的数据在经过缺失值处理后:

数据量很小,用朴素贝叶斯

数据量适中或者较大,用树模型,优先xgboost

数据量较大,也可以用神经网络

避免使用距离度量相关的模型,如KNN和SVM

26.京东仓库中对某种商品进行合格性检验,已知这种商品的不合格率为0.,即件商品中会有一件次品。现有现有一种快速检验商品方法,它的准确率是0.99,即在商品确实是次品的情况下,它有99%的可能抽检显示红色。它的误报率是5%,即在商品不是次品情况下,它有5%的可能抽检显示红色。现有有一件商品检验结果为红色,请问这件商品是次品的可能性有多大?

A.0.01

B.0.02

C.0.03

D.0.04

正确答案:B

贝叶斯公式

已知:P(次品)=0.,P(红

次品)=0.99,P(红

正品)=0.05.则:

P(正品)=1-0.=0.,

P(红色且次品)=P(红

次品)xP(次品)

P(红色且正品)=P(红

正品)xP(正品)

P(红)=P(红色且次品)+P(红色且正品)=0.99x0.+0.05x0.=0.94

根据贝叶斯公式:

P(次品

红)=P(红

次品)xP(次品)/P(红)=0.99x0./0.94=0.02

27.一批商品,甲乙合作生产需要10天完成,乙丙两人合作生产需要12天。现在油甲丙合作生产4天,剩下的交由乙单独生产,还需要12天才能完成。如果该批商品由乙单独完成,需要多少天?

A.15

B.18

C.20

D.25

正确答案:A

题目解析

设甲乙丙单独完成分别需要x,y,z天,则

10*(1/x+1/y)=1

12*(1/y+1/z)=1

4*(1/x+1/z)+12/y=1

联立方程组,解得y=15

28.下图显示的是年某产品在五个区域的经营状况,请问年哪个地区的产品产值最高?

A.东北

B.华北

C.华中

D.华南

E.西南

正确答案:C

增长率

倒推去年的产值,例如,东北=.5/1.=.67,以此类推计算。

29.下表为我国某产品下半年的进口额情况,请问6-12月当中,其中有几个月的增长率是超过了10%的?

A.4

B.3

C.2

D.1

官方答案:B

民间答案:A

增长率

6-7月份增长率=/-1=0.,以此类推计算。

End.

作者:圣洁不吃冰淇淋

来源:CSDN




转载请注明:http://www.92nongye.com/hxjs/hxjs/204623670.html

  • 上一篇文章:
  •   
  • 下一篇文章: