介绍

machine-learning-interview一个GitHub的仓库,主要是关于算法工程师-机器学习面试题总结,整理的笔记详细,属于超纲内容,A姐不好评论,我贴个前小部分目录,有兴趣的可以去看看是否合适。


部分目录

1、基本概念

  • 1-1 简述解决一个机器学习问题时,你的流程是怎样的?

  • 1-2 损失函数是什么,如何定义合理的损失函数?

  • 1-3 回归模型和分类模型常用损失函数有哪些?各有什么优缺点

  • 1-4 什么是结构误差和经验误差?训练模型的时候如何判断已经达到最优?

  • 1-5 模型的“泛化”能力是指?如何提升模型泛化能力?

  • 1-6 如何选择合适的模型评估指标?AUC、精准度、召回率、F1值都是什么?如何计算?有什么优缺点?

  • 1-7 什么是混淆矩阵?

  • 1-8 ROC曲线如何绘制?相比P-R曲线有什么特点?

  • 1-9 如何评判模型是过拟合还是欠拟合?遇到过拟合或欠拟合时,你是如何解决?

  • 1-10 你是如何针对应用场景选择合适的模型?

  • 1-11 如何选择模型中的超参数?有什么方法,并说说其优劣点

  • 1-12 误差分析是什么?你是如何进行误差分析?

  • 1-13 你是如何理解模型的偏差和方差?什么样的情况是高偏差,什么情况是高方差?

  • 1-14 出现高偏差或者高方差的时候你有什么优化策略?

  • 1-15 奥卡姆剃刀定律是什么?对机器学习模型优化有何启发?举例说明

  • 1-16 线性模型和非线性模型的区别?哪些模型是线性模型,哪些模型是非线性模型?

  • 1-17 生成式模型和判别式模型的区别?哪些模型是生成式模型,哪些模型是判别式模型?

2、经典机器学习

  • 2-1-1 你是怎样理解“特征”?

  • 2-1-2 给定场景和问题,你如何设计特征?(特征工程方法论)

  • 2-1-3 开发特征时候做如何做数据探索,怎样选择有用的特征?

  • 2-1-4 你是如何做数据清洗的?举例说明

  • 2-1-5 如何发现数据中的异常值,你是如何处理?

  • 2-1-6 缺失值如何处理?

  • 2-1-7 对于数值类型数据,你会怎样处理?为什么要做归一化?归一化有哪些方法?离散些方法,离散化和归一化有哪些优缺点?

  • 2-1-8 标准化和归一化异同?

  • 2-1-9 你是如何处理CTR类特征?

  • 2-1-10 讲解贝叶斯平滑原理?以及如何训练得到平滑参数

  • 2-1-11 类别型数据你是如何处理的?比如游戏品类,地域,设备

  • 2-1-12 序号编码、one-hot编码、二进制编码都是什么?适合怎样的类别型数据?

  • 2-1-13 时间类型数据你的处理方法是什么?原因?

  • 2-1-14 你怎样理解组合特征?举个例子,并说明它和单特征有啥区别

  • 2-1-15 如何处理高维组合特征?比如用户ID和内容ID?

  • 2-1-16 如何理解笛卡尔积、外积、内积?

  • 2-1-17 文本数据你会如何处理?

  • 2-1-18 文本特征表示有哪些模型?他们的优缺点都是什么?

  • 2-1-19 讲解TFF原理,它有什么优点和缺点?针对它的缺点,你有什么优化思路?

  • 2-1-20 N-gram算法是什么?有什么优缺点?

  • 2-1-21 讲解一下word2vec工作原理?损失函数是什么?

  • 2-1-22 讲解一下LDA模型原理和训练过程?

  • 2-1-23 Word2vec和LDA两个模型有什么区别和联系?

  • 2-1-24 Skin-gram和cbow有何异同?

  • 2-1-25 图像数据如何处理?有哪些常用的图像特征提取方法

  • 2-1-26 你是怎样做特征选择的?卡方检验、信息值(IV)、VOE都是如何计算?

  • 2-1-27 计算特征之间的相关性方法有哪些?有什么优缺点


算法工程师-机器学习面试题总结地址

machine-learning-interview:

https://github.com/zhengjingwei/machine-learning-interview