2021 年 4 月下旬,百度机器学习 / 数据挖掘 /NLP 算法工程师面试 8 道题

本贴最后更新于 1243 天前,其中的信息可能已经物是人非

文末彩蛋:七月在线干货组最新升级的《名企 AI 面试 100 题》免费送!

问题 1:编程题旋转有序数组,查找元素是否存在

思路:

1、暴力破解:遍历整个数组,查找元素是否存在;

2、二分查找:旋转后局部数组依然是有序的,所以此时依然可以使用二分查找算法;

参考代码:

问题 2:实现余弦相似度计算

余弦相似度:用两个向量夹角判断其相似程度;

向量夹角越大,距离越远,最大距离就是两个向量夹角 180°;

向量夹角越小,距离越近,最小距离就是两个向量夹角 0°,完全重合。

所以余弦相似度越大,向量越相似;

计算公式:

求余弦相似度方法:

Numpy:

Pytorch:

Sklearn:

问题 3:验证二叉搜索树(BST)

二叉搜索树具有如下特征:

节点的左子树只包含小于当前节点的数。节点的右子树只包含大于当前节点的数。

所有左子树和右子树自身必须也是二叉搜索树。

思路:

根据二叉搜索树的特征可知︰如果二叉树的左子树不为空,则左子树上所有节点的值均小于它根节点的值;若它的右子树不空,则右子树上所有节点的值均大于它根节点的值;并且它的左右子树也为二叉搜索树。

可以设计一个递归函数 check(root, max_num, min_num),函数表示考虑以 root 为根的子树,判断子树中所有节点的值是否都在(max_num, min_num)的范围内。如果 root 节点的值 val 不在(max_num, min_num)的范围内说明不满足条件直接返回 False,否则继续递归,检查它的左右子树是否满足,都满足则说明这是一棵二叉搜索树。

注意 ∶

在递归调用左子树时,需要把上界 max_num 改为 root.val;递归调用右子树时,需要把下界 min_num 改为 root.val.

函数递归调用的入口为 check(root, float("inf"), -float("inf")), float("inf")表示一个无穷大的值。

参考代码︰

问题 4:用 randomInt(5)实现 randomInt(7),只用讲思路

randomInt(5):等概率生成整数[1,2,3,4,5]

randomInt(7):等概率生成整数[1,2,3,4,5,6,7]

思路:

1、用(randomInt(5)- 1)构造等概率整数数组:[o,1,2 ,3,4]

2、用(randomInt(5) - 1)*5 构造整数数组︰[0,5,10,15,20]

3、上面的两个整数组可以构造等概率的新数组:[0,1,2,3,4,5,6,7,... , 24];(如果第 2 个数组选择 2 倍或者 3 倍,4 倍则无法构造新的等概率数组)

4、选择新数组[o,1,2,3....,20]21 个元组即可构造等概率的数组[1,2,3,4,5,6,7]

参考代码:

问题 5:编程题:分割链表问题

分割链表︰

给定一个链表的头节点 head 和一个特定值 ×,然后对链表进行分隔,使得所有小于 x 的节点都出现在大于或等于 x 的节点之前。同时保留两个分区中每个节点的初始相对位置。

如下图所示:

思路:

需维护两个链表 small 和 large,small 链表按顺序存储所有小于 x 的节点,large 链表按顺序存储所有大于等于 x 的节点。遍历完原链表后,我们只要将 small 链表尾节点指向 large 链表的头节点即能完成对链表的分隔。

参考代码:

问题 6:怎么解决过拟合?怎么做图像增广?

常见缓解过拟合的方法:

1、降低模型复杂度

2、增加更多的训练数据:使用更大的数据集训练模型

3、数据增强

4、正则化:L1、L2、添加 BN 层

5、添加 Dropout 策略

6、Early Stopping

7、重新清洗数据︰把明显异常的数据剔除

8、使用集成学习方法︰把多个模型集成在一起,降低单个模型的过拟合风险

常见的数据增广方法:

1、水平/垂直翻转

2、随机旋转

3、随机缩放

4、随机剪切

5、颜色、对比度增强

6、cutOut

7、CutMix

8、Mixup

9、Mosaic

10、Random Erasing

问题 7:梯度下降方法有哪些?

梯度下降算法有如下 3 种:

1、随机梯度下降法:SGD

2、批量梯度下降法:BGD

3、min-batch 小批量梯度下降法:MBGD

问题 8:sigmoid 有哪些特性?激活函数了解多少?

Sigmod 函数性质:

1、定义域:( -oo , +oo );

2、值域:(-1 ,1);

3、函数在定义域内为连续光滑函数;

4、处处可导,导数为:

5、函数的取值在 О 到 1 之间,在 0.5 处呈中心对称,且越靠近 x=0 的取值斜率越大。

常见激活函数:

1、Sigmoid

2、Tanh

3、Relu . Leaky Relu、P-Relu (Parametric ReLU)

4、Elu、Gelu

5、Swich

6、Selu

评论有奖:评论区回复“100 题”,免费领取最新升级版《名企 AI 面试 100 题》电子书!

  • 推广
    156 引用 • 495 回帖 • 6 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...