英文原书致谢

书籍名:《深度学习》作者：伊恩.古德费洛

如果没有他人的贡献，这本书将不可能完成。我们感谢为本书提出建议和帮助组织内容结构的人：Guillaume  Alain、Kyunghyun  Cho、Çağlar  Gülçehre、David  Krueger、Hugo  Larochelle、Razvan  Pascanu和Thomas  Rohée。

我们感谢为本书内容提供反馈的人。其中一些人对许多章都给出了建议：Martín  Abadi、Guillaume  Alain、Ion  Androutsopoulos、Fred  Bertsch、Olexa  Bilaniuk、Ufuk  Can  Biçici、Matko  Bošnjak、John  Boersma、Greg  Brockman、Alexandre  de  Brébisson、Pierre  Luc  Carrier、Sarath  Chandar、Pawel  Chilinski、Mark  Daoust、Oleg  Dashevskii、Laurent  Dinh、Stephan  Dreseitl、Jim  Fan、Miao  Fan、Meire  Fortunato、Frédéric  Francis、Nando  de  Freitas、Çağlar  Gülçehre、Jurgen  Van  Gael、Javier  Alonso  García、Jonathan  Hunt、Gopi  Jeyaram、Chingiz  Kabytayev、Lukasz  Kaiser、Varun  Kanade、Asifullah  Khan、Akiel  Khan、John  King、Diederik  P．Kingma、Yann  Le-Cun、Rudolf  Mathey、Matías  Mattamala、Abhinav  Maurya、Kevin  Murphy、Oleg  Mürk、Roman  Novak、Augustus  Q．Odena、Simon  Pavlik、Karl  Pichotta、Eddie  Pierce、Kari  Pulli、Roussel  Rahman、Tapani  Raiko、Anurag  Ranjan、Johannes  Roith、Mihaela  Rosca、Halis  Sak、César  Salgado、Grigory  Sapunov、Yoshinori  Sasaki、Mike  Schuster、Julian  Serban、Nir  Shabat、Ken  Shirriff、Andre  Simpelo、Scott  Stanley、David  Sussillo、Ilya  Sutskever、Carles  Gelada  Sáez、Graham  Taylor、Valentin  Tolmer、Massimiliano  Tomassoli、An  Tran、Shubhendu  Trivedi、Alexey  Umnov、Vincent  Vanhoucke、Marco  Visentini-Scarzanella、Martin  Vita、David  Warde-Farley、Dustin  Webb、Kelvin  Xu、Wei  Xue、Ke  Yang、Li  Yao、Zygmunt  Zajc和Ozan  Çağlayan。

我们也要感谢对单个章节提供有效反馈的人。

数学符号：Zhang  Yuanhang。

第1章（引言）：Yusuf  Akgul、Sebastien  Bratieres、Samira  Ebrahimi、Charlie  Gorichanaz、Brendan  Loudermilk、Eric  Morris、Cosmin  Parvulescu和Alfredo  Solano。

第2章（线性代数）：Amjad  Almahairi、Nikola  Banić、Kevin  Bennett、Philippe  Cas-tonguay、Oscar  Chang、Eric  Fosler-Lussier、Andrey  Khalyavin、Sergey  Oreshkov、István  Petrás、Dennis  Prangle、Thomas  Rohée、Gitanjali  Gulve  Sehgal、Colby  Toland、Alessan-dro  Vitale和Bob  Welland。

第3章（概率与信息论）：John  Philip  Anderson、Kai  Arulkumaran、Vincent  Dumoulin、Rui  Fa、Stephan  Gouws、Artem  Oboturov、Antti  Rasmus、Alexey  Surkov和Volker  Tresp。

第4章（数值计算）：Tran  Lam  AnIan  Fischer和Hu  Yuhuang。

第5章（机器学习基础）：Dzmitry  Bahdanau、Justin  Domingue、Nikhil  Garg、Makoto  Otsuka、Bob  Pepin、Philip  Popien、Emmanuel  Rayner、Peter  Shepard、Kee-Bong  Song、Zheng  Sun和Andy  Wu。

第6章（深度前馈网络）：Uriel  Berdugo、Fabrizio  Bottarel、Elizabeth  Burl、Ishan  Durugkar、Jeff  Hlywa、Jong  Wook  Kim、David  Krueger和Aditya  Kumar  Praharaj。

第7章（深度学习中的正则化）：Morten  Kolbæk、Kshitij  Lauria、Inkyu  Lee、Sunil  Mohan、Hai  Phong  Phan和Joshua  Salisbury。

第8章（深度模型中的优化）：Marcel  Ackermann、Peter  Armitage、Rowel  Atienza、Andrew  Brock、Tegan  Maharaj、James  Martens、Kashif  Rasul、Klaus  Strobl和Nicholas  Turner。

第9章（卷积网络）：Martín  Arjovsky、Eugene  Brevdo、Konstantin  Divilov、Eric  Jensen、Mehdi  Mirza、Alex  Paino、Marjorie  Sayer、Ryan  Stout和Wentao  Wu。

第10章（序列建模：循环和递归网络）：Gökçen  Eraslan、Steven  Hickson、Razvan  Pascanu、Lorenzo  von  Ritter、Rui  Rodrigues、Dmitriy  Serdyuk、Dongyu  Shi和Kaiyu  Yang。

第11章（实践方法论）：Daniel  Beckstein。

第12章（应用）：George  Dahl、Vladimir  Nekrasov和Ribana  Roscher。

第13章（线性因子模型）：Jayanth  Koushik。

第15章（表示学习）：Kunal  Ghosh。

第16章（深度学习中的结构化概率模型）：Minh  Lê和Anton  Varfolom。

第18章（直面配分函数）：Sam  Bowman。

第19章（近似推断）：Yujia  Bao。

第20章（深度生成模型）：Nicolas  Chapados、Daniel  Galvez、Wenming  Ma、Fady  Med-hat、Shakir  Mohamed和Grégoire  Montavon。

参考文献：Lukas  Michelbacher和Leslie  N．Smith。

我们还要感谢那些允许我们引用他们的出版物中的图片、数据的人。我们在图片标题的文字中注明了他们的贡献。

我们还要感谢Lu  Wang为我们写了pdf2htmlEX，我们用它来制作这本书的网页版本，Lu  Wang还帮助我们改进了生成的HTML的质量。

我们还要感谢Ian的妻子Daniela  Flori  Goodfellow在Ian的写作过程中的耐心支持和检查。

我们还要感谢Google  Brain团队提供了学术环境，从而使得Ian能够花费大量时间写作本书并接受同行的反馈和指导。我们特别感谢Ian的前任经理Greg  Corrado和他的现任经理Samy  Bengio对这项工作的支持。最后我们还要感谢Geoffrey  Hinton在写作困难时的鼓励。

数学符号

下面简要介绍本书所使用的数学符号。我们在第2∼4章中描述大多数数学概念，如果你不熟悉任何相应的数学概念，可以参考对应的章节。

数和数组

a  标量（整数或实数）

a  向量

A  矩阵

张量

In  n行n列的单位矩阵

I  维度蕴含于上下文的单位矩阵

e(i)  标准基向量［0,···,0,1,0,···,0］，其中索引i处值为1

diag(a)  对角方阵，其中对角元素由a给定

a  标量随机变量

a  向量随机变量

A  矩阵随机变量

集合和图

集合

实数集

{0，1}  包含0和1的集合

{0，1，···，n}  包含0和n之间所有整数的集合

［a，b］  包含a和b的实数区间

（a，b］  不包含a但包含b的实数区间

差集，即其元素包含于但不包含于

图

图中xi的父节点

索引

ai  向量a的第i个元素，其中索引从1开始

a−i  除了第i个元素，a的所有元素

Ai,j  矩阵A的i，j元素

Ai，：  矩阵A的第i行

A：，i  矩阵A的第i列

Ai,j,k  3维张量A的（i,j,k）元素

A：，：，i  3维张量的2维切片

ai  随机向量a的第i个元素

线性代数中的操作

矩阵A的转置

A+  A的Moore-Penrose伪逆

A和B的逐元素乘积（Hadamard乘积）

det（A）  A的行列式

微积分

y关于x的导数

y关于x的偏导

y关于x的梯度

y关于X的矩阵导数

y关于X求导后的张量

的Jacobian矩阵

f在点x处的Hessian矩阵

x整个域上的定积分

集合上关于x的定积分

概率和信息论

a⊥b  a和b相互独立的随机变量

a⊥b｜c  给定c后条件独立

P(a)  离散变量上的概率分布

p(a)  连续变量（或变量类型未指定时）上的概率分布

a∼P  具有分布P的随机变量a

f(x)关于P(x)的期望

Var(f(x))  f(x)在分布P(x)下的方差

Cov(f(x)，g(x))  f(x)和g(x)在分布P(x)下的协方差

H(x)  随机变量x的香浓熵

P和Q的KL散度

均值为µ，协方差为Σ，x上的高斯分布

函数

定义域为值域为的函数f

f◦g  f和g的组合

f(x;θ)  由θ参数化，关于x的函数（有时为简化表示，我们忽略θ而记为f(x)）

log  x  x的自然对数

σ(x)  Logistic  sigmoid，

ζ(x)  Softplus，log(1+exp(x))

x的Lp范数

x的L2范数

x+  x的正数部分，即max(0,x)

1condition  如果条件为真则为1，否则为0

有时候我们使用函数f，它的参数是一个标量，但应用到一个向量、矩阵或张量：f(x)、。这表示逐元素地将f应用于数组。例如，，则对于所有合法的i、j和k，。

数据集和分布

数据生成分布

由训练集定义的经验分布

训练样本的集合

数据集的第i个样本（输入）

监督学习中与关联的目标

m×n的矩阵，其中行为输入样本x(i)