英文原书致谢
如果没有他人的贡献,这本书将不可能完成。我们感谢为本书提出建议和帮助组织内容结构的人:Guillaume Alain、Kyunghyun Cho、Çağlar Gülçehre、David Krueger、Hugo Larochelle、Razvan Pascanu和Thomas Rohée。
我们感谢为本书内容提供反馈的人。其中一些人对许多章都给出了建议:Martín Abadi、Guillaume Alain、Ion Androutsopoulos、Fred Bertsch、Olexa Bilaniuk、Ufuk Can Biçici、Matko Bošnjak、John Boersma、Greg Brockman、Alexandre de Brébisson、Pierre Luc Carrier、Sarath Chandar、Pawel Chilinski、Mark Daoust、Oleg Dashevskii、Laurent Dinh、Stephan Dreseitl、Jim Fan、Miao Fan、Meire Fortunato、Frédéric Francis、Nando de Freitas、Çağlar Gülçehre、Jurgen Van Gael、Javier Alonso García、Jonathan Hunt、Gopi Jeyaram、Chingiz Kabytayev、Lukasz Kaiser、Varun Kanade、Asifullah Khan、Akiel Khan、John King、Diederik P.Kingma、Yann Le-Cun、Rudolf Mathey、Matías Mattamala、Abhinav Maurya、Kevin Murphy、Oleg Mürk、Roman Novak、Augustus Q.Odena、Simon Pavlik、Karl Pichotta、Eddie Pierce、Kari Pulli、Roussel Rahman、Tapani Raiko、Anurag Ranjan、Johannes Roith、Mihaela Rosca、Halis Sak、César Salgado、Grigory Sapunov、Yoshinori Sasaki、Mike Schuster、Julian Serban、Nir Shabat、Ken Shirriff、Andre Simpelo、Scott Stanley、David Sussillo、Ilya Sutskever、Carles Gelada Sáez、Graham Taylor、Valentin Tolmer、Massimiliano Tomassoli、An Tran、Shubhendu Trivedi、Alexey Umnov、Vincent Vanhoucke、Marco Visentini-Scarzanella、Martin Vita、David Warde-Farley、Dustin Webb、Kelvin Xu、Wei Xue、Ke Yang、Li Yao、Zygmunt Zajc和Ozan Çağlayan。
我们也要感谢对单个章节提供有效反馈的人。
数学符号:Zhang Yuanhang。
第1章(引言):Yusuf Akgul、Sebastien Bratieres、Samira Ebrahimi、Charlie Gorichanaz、Brendan Loudermilk、Eric Morris、Cosmin Parvulescu和Alfredo Solano。
第2章(线性代数):Amjad Almahairi、Nikola Banić、Kevin Bennett、Philippe Cas-tonguay、Oscar Chang、Eric Fosler-Lussier、Andrey Khalyavin、Sergey Oreshkov、István Petrás、Dennis Prangle、Thomas Rohée、Gitanjali Gulve Sehgal、Colby Toland、Alessan-dro Vitale和Bob Welland。
第3章(概率与信息论):John Philip Anderson、Kai Arulkumaran、Vincent Dumoulin、Rui Fa、Stephan Gouws、Artem Oboturov、Antti Rasmus、Alexey Surkov和Volker Tresp。
第4章(数值计算):Tran Lam AnIan Fischer和Hu Yuhuang。
第5章(机器学习基础):Dzmitry Bahdanau、Justin Domingue、Nikhil Garg、Makoto Otsuka、Bob Pepin、Philip Popien、Emmanuel Rayner、Peter Shepard、Kee-Bong Song、Zheng Sun和Andy Wu。
第6章(深度前馈网络):Uriel Berdugo、Fabrizio Bottarel、Elizabeth Burl、Ishan Durugkar、Jeff Hlywa、Jong Wook Kim、David Krueger和Aditya Kumar Praharaj。
第7章(深度学习中的正则化):Morten Kolbæk、Kshitij Lauria、Inkyu Lee、Sunil Mohan、Hai Phong Phan和Joshua Salisbury。
第8章(深度模型中的优化):Marcel Ackermann、Peter Armitage、Rowel Atienza、Andrew Brock、Tegan Maharaj、James Martens、Kashif Rasul、Klaus Strobl和Nicholas Turner。
第9章(卷积网络):Martín Arjovsky、Eugene Brevdo、Konstantin Divilov、Eric Jensen、Mehdi Mirza、Alex Paino、Marjorie Sayer、Ryan Stout和Wentao Wu。
第10章(序列建模:循环和递归网络):Gökçen Eraslan、Steven Hickson、Razvan Pascanu、Lorenzo von Ritter、Rui Rodrigues、Dmitriy Serdyuk、Dongyu Shi和Kaiyu Yang。
第11章(实践方法论):Daniel Beckstein。
第12章(应用):George Dahl、Vladimir Nekrasov和Ribana Roscher。
第13章(线性因子模型):Jayanth Koushik。
第15章(表示学习):Kunal Ghosh。
第16章(深度学习中的结构化概率模型):Minh Lê和Anton Varfolom。
第18章(直面配分函数):Sam Bowman。
第19章(近似推断):Yujia Bao。
第20章(深度生成模型):Nicolas Chapados、Daniel Galvez、Wenming Ma、Fady Med-hat、Shakir Mohamed和Grégoire Montavon。
参考文献:Lukas Michelbacher和Leslie N.Smith。
我们还要感谢那些允许我们引用他们的出版物中的图片、数据的人。我们在图片标题的文字中注明了他们的贡献。
我们还要感谢Lu Wang为我们写了pdf2htmlEX,我们用它来制作这本书的网页版本,Lu Wang还帮助我们改进了生成的HTML的质量。
我们还要感谢Ian的妻子Daniela Flori Goodfellow在Ian的写作过程中的耐心支持和检查。
我们还要感谢Google Brain团队提供了学术环境,从而使得Ian能够花费大量时间写作本书并接受同行的反馈和指导。我们特别感谢Ian的前任经理Greg Corrado和他的现任经理Samy Bengio对这项工作的支持。最后我们还要感谢Geoffrey Hinton在写作困难时的鼓励。
数学符号
下面简要介绍本书所使用的数学符号。我们在第2∼4章中描述大多数数学概念,如果你不熟悉任何相应的数学概念,可以参考对应的章节。
数和数组
a 标量(整数或实数)
a 向量
A 矩阵
张量
In n行n列的单位矩阵
I 维度蕴含于上下文的单位矩阵
e(i) 标准基向量[0,···,0,1,0,···,0],其中索引i处值为1
diag(a) 对角方阵,其中对角元素由a给定
a 标量随机变量
a 向量随机变量
A 矩阵随机变量
集合和图
集合
实数集
{0,1} 包含0和1的集合
{0,1,···,n} 包含0和n之间所有整数的集合
[a,b] 包含a和b的实数区间
(a,b] 不包含a但包含b的实数区间
差集,即其元素包含于但不包含于
图
图中xi的父节点
索引
ai 向量a的第i个元素,其中索引从1开始
a−i 除了第i个元素,a的所有元素
Ai,j 矩阵A的i,j元素
Ai,: 矩阵A的第i行
A:,i 矩阵A的第i列
Ai,j,k 3维张量A的(i,j,k)元素
A:,:,i 3维张量的2维切片
ai 随机向量a的第i个元素
线性代数中的操作
矩阵A的转置
A+ A的Moore-Penrose伪逆
A和B的逐元素乘积(Hadamard乘积)
det(A) A的行列式
微积分
y关于x的导数
y关于x的偏导
y关于x的梯度
y关于X的矩阵导数
y关于X求导后的张量
的Jacobian矩阵
f在点x处的Hessian矩阵
x整个域上的定积分
集合上关于x的定积分
概率和信息论
a⊥b a和b相互独立的随机变量
a⊥b|c 给定c后条件独立
P(a) 离散变量上的概率分布
p(a) 连续变量(或变量类型未指定时)上的概率分布
a∼P 具有分布P的随机变量a
f(x)关于P(x)的期望
Var(f(x)) f(x)在分布P(x)下的方差
Cov(f(x),g(x)) f(x)和g(x)在分布P(x)下的协方差
H(x) 随机变量x的香浓熵
P和Q的KL散度
均值为µ,协方差为Σ,x上的高斯分布
函数
定义域为值域为的函数f
f◦g f和g的组合
f(x;θ) 由θ参数化,关于x的函数(有时为简化表示,我们忽略θ而记为f(x))
log x x的自然对数
σ(x) Logistic sigmoid,
ζ(x) Softplus,log(1+exp(x))
x的Lp范数
x的L2范数
x+ x的正数部分,即max(0,x)
1condition 如果条件为真则为1,否则为0
有时候我们使用函数f,它的参数是一个标量,但应用到一个向量、矩阵或张量:f(x)、。这表示逐元素地将f应用于数组。例如,,则对于所有合法的i、j和k,。
数据集和分布
数据生成分布
由训练集定义的经验分布
训练样本的集合
数据集的第i个样本(输入)
监督学习中与关联的目标
m×n的矩阵,其中行为输入样本x(i)