AI 摘要

"深度学习如何突破传统机器学习的局限?从猫狗识别到地球物理反演,探索AI自动提取特征的奥秘。本文拆解机器学习三大类型,揭示数据与算法的共生关系,并思考深度学习在专业领域的应用可能。附赠课后思考:你的工作中有哪些问题正等待深度学习解决?"

前言

写这个主要是对我已有笔记的整理,和对《动手学深度学习》的知识点的一部分记录,学艺不精,估计会出现用词不严谨、概念偏差、理解错误等多种问题,谨慎观看。

第一章 引言

机器学习与深度学习的认识

在书中的第一章前言,我主要关注了一个问题:

机器学习和深度学习有什么不同?为什么深度学习能单独开宗立派?

想回答这个先需要看看什么是机器学习。

机器学习的关键组件
1. 数据(一般是假设是独立同分布的,当然不是也行后面RNN就是搞这个的)
2. 模型
3. 目标函数
4. 优化算法

机器学习在某种意义上就是在用数据进行编程,利用输入数据和输出结果,对中间的模型采用以优化算法逼近目标函数的方式进行编辑。在预测时使用中间模型和输入获得结果。

结合阅读和AI,我对深度学习和机器学习的认识为:深度学习本身还是机器学习下的分支,机器学习的本质就是建立特征(输入)和结果(输出)之间的映射关系,深度学习并没有脱离这个框架。但相较于传统的机器学习算法,例如识别一只猫,需要人为给出猫的特征(体长、耳朵特点、体重等),而深度学习可以自己提取特征(尽管人可能看不懂),但是确实能获得好结果。

机器学习的分类

机器学习主要可以分为三大类:监督学习、无监督学习、强化学习。在我看了三者主要差别在于输入的数据。

监督学习:需要输入的是带有标签的数据,例如猫和狗的图片并且标出这个图是猫那个图是狗,经过训练之后,可以对二者进行识别。

无监督学习:输入数据但是不带标签,例如给猫和狗的照片,但是不知道哪个是猫哪个是狗,识别它俩是无从谈起,但是却可以根据二者之间的差异划分开,假设识别出来的标签一个是A一个是B,那么最后猫狗会分开,分成A和B,但是谁是A,谁是B是不确定的。

强化学习:这个主要相较于前面两个,其最大的区别是数据来自于环境,是随环境和操作进行变化的,当然这也就要求了环境必须是可观测的。这个不能用猫狗举例子了。例如游戏吃豆人,吃豆人会根据自己和豆子的位置进行计算,获得下一步动作。

一些零碎的点

分布偏移:使用的数据分布(训练集)和实际应用时的数据分布(测试集或真实场景)不一致

协变量≈特征

课后题

(1)你当前正在编写的代码的哪些部分可以“学习”,即通过学习和自动确定代码中所做的设计选择来改进?你的代码是否包含启发式设计选择?

作为地球物理专业的学生,这个最先想到的是反演,反演参数可能可以通过学习优化,或者反演本身就可以通过学习来实现。以及深度学习的层数、卷积大小等本身也是启发式的,能不能也通过机器学习学习(套娃)。

(2)你遇到的哪些问题有许多解决它们的样本,但没有具体的自动化方法?这些可能是使用深度学习的主要候选者。

电法中地下异常体的勘察?虽然通过反演图,人可以大致看出哪有异常体,但是并不完全准确,毕竟有假异常或者非目标体影响,画出真异常是需要经验的。

(3)如果把人工智能的发展看作一场新的工业革命,那么算法和数据之间的关系是什么?它类似于蒸汽机和煤吗?根本区别是什么?

这个类别挺有道理的,算法就像蒸汽机主要是为更好的利用数据,而数据则是算法运行的动力,没有数据的训练,算法是没有作用的。但是还是有区别的,算法和数据是同等重要的,甚至数据更重要,高质量数据才能有好结果,且数据能反复使用。

(4)你还可以在哪里应用端到端的训练方法,比如下图 、物理、工程和计量经济学?

地球物理反演过程。