上一节中我们介绍了一种估计分布中未知参数的方法:矩估计。而本节中,我们将讨论统计学理论中另一个极其重要的参数估计方法:极大似然估计(Maximum Likelihood Estimation, MLE)。在正式学习这个概念前,你需要先了解一个事实。那就是,对于同一个参数,可能存在很多甚至无穷多个不同的估计量。还是以正态分布为例,假设有 个独立同分布的随机变量 ,请问应该如何估计均值 呢?根据前一节的讨论,我们可以用样本均值 来估计 ,这是一个典型的矩估计。但是,聪明的你也许可以再考虑一下,同样是样本均值,为什么非要用这么多样本呢?如果我只用两个样本(例如:第一个和第二个样本),也可以获得一个简化版的样本均值,记作 。请问:哪一个估计量更好?我想你一定会脱口而出:显然第一个好。为什么?因为第一个采用的样本更多。但是,如果我再追问:样本量多就好吗?好在哪里?你也许会说:更多的样本会让估计量更加精确。很好,你提到一个关键词叫做:精确。也就是说,我们会认为更加精确的估计量是一个更好的估计量。但是,面对带有随机性的估计量,如何评价它的估计精度是我们首先要讨论的问题。