前言
写这个主要是对我已有笔记的整理,和对《动手学深度学习》的知识点的一部分记录,学艺不精,估计会出现用词不严谨、概念偏差、理解错误等多种问题,谨慎观看。
第一章 引言
机器学习与深度学习的认识
在书中的第一章前言,我主要关注了一个问题:
机器学习和深度学习有什么不同?为什么深度学习能单独开宗立派?
想回答这个先需要看看什么是机器学习。
机器学习的关键组件
1. 数据(一般是假设是独立同分布的,当然不是也行后面RNN就是搞这个的)
2. 模型
3. 目标函数
4. 优化算法
机器学习在某种意义上就是在用数据进行编程,利用输入数据和输出结果,对中间的模型采用以优化算法逼近目标函数的方式进行编辑。在预测时使用中间模型和输入获得结果。
结合阅读和AI,我对深度学习和机器学习的认识为:深度学习本身还是机器学习下的分支,机器学习的本质就是建立特征(输入)和结果(输出)之间的映射关系,深度学习并没有脱离这个框架。但相较于传统的机器学习算法,例如识别一只猫,需要人为给出猫的特征(体长、耳朵特点、体重等),而深度学习可以自己提取特征(尽管人可能看不懂),但是确实能获得好结果。
机器学习的分类
机器学习主要可以分为三大类:监督学习、无监督学习、强化学习。在我看了三者主要差别在于输入的数据。
监督学习:需要输入的是带有标签的数据,例如猫和狗的图片并且标出这个图是猫那个图是狗,经过训练之后,可以对二者进行识别。
无监督学习:输入数据但是不带标签,例如给猫和狗的照片,但是不知道哪个是猫哪个是狗,识别它俩是无从谈起,但是却可以根据二者之间的差异划分开,假设识别出来的标签一个是A一个是B,那么最后猫狗会分开,分成A和B,但是谁是A,谁是B是不确定的。
强化学习:这个主要相较于前面两个,其最大的区别是数据来自于环境,是随环境和操作进行变化的,当然这也就要求了环境必须是可观测的。这个不能用猫狗举例子了。例如游戏吃豆人,吃豆人会根据自己和豆子的位置进行计算,获得下一步动作。
一些零碎的点
分布偏移:使用的数据分布(训练集)和实际应用时的数据分布(测试集或真实场景)不一致
协变量≈特征
课后题
(1)你当前正在编写的代码的哪些部分可以“学习”,即通过学习和自动确定代码中所做的设计选择来改进?你的代码是否包含启发式设计选择?
作为地球物理专业的学生,这个最先想到的是反演,反演参数可能可以通过学习优化,或者反演本身就可以通过学习来实现。以及深度学习的层数、卷积大小等本身也是启发式的,能不能也通过机器学习学习(套娃)。
(2)你遇到的哪些问题有许多解决它们的样本,但没有具体的自动化方法?这些可能是使用深度学习的主要候选者。
电法中地下异常体的勘察?虽然通过反演图,人可以大致看出哪有异常体,但是并不完全准确,毕竟有假异常或者非目标体影响,画出真异常是需要经验的。
(3)如果把人工智能的发展看作一场新的工业革命,那么算法和数据之间的关系是什么?它类似于蒸汽机和煤吗?根本区别是什么?
这个类别挺有道理的,算法就像蒸汽机主要是为更好的利用数据,而数据则是算法运行的动力,没有数据的训练,算法是没有作用的。但是还是有区别的,算法和数据是同等重要的,甚至数据更重要,高质量数据才能有好结果,且数据能反复使用。
(4)你还可以在哪里应用端到端的训练方法,比如下图 、物理、工程和计量经济学?

地球物理反演过程。
Comments NOTHING