离散无记忆信源是最简单的离散
信源,可以用完备的离散型概率空间来描述,其主要特点是离散和无记忆。离散指的是信源可能输出的消息的种类是有限的或者是可数的。消息的样本空间R是一个离散集合。由于信源的每一次输出都是按照消息发生的概率输出R中的一种消息,因此信源输出的消息可以用离散随机变量X表示。无记忆是指不同的信源输出消息之间相互独立。
数学模型
定义 若
信源X发出n个不同的符号 ,分别代表n种不同的消息,发出各个符号的概率分别是 这些符号间彼此互不相关,且满足
称这种信源为离散无记忆信源。
离散无记忆信源是最简单也是最基本的一类信源,可以用完备的离散型概率空间来描述,其数学模型可表示为
其中n可以是有限正整数,也可以是可数无限大整数。信源输出的消息只可能是符号集 中的任何一个,而且每次必定选取其中一个。可见,若信源给定,其相应的概率空间就已给定;反之,若概率空间给定,也就表示相应的信源给定。所以,概率空间能够表征离散信源的统计特性。
【例1】在一个箱子中,有红、黄、蓝、白四种不同颜色的彩球,大小和重量完全一样,其中红球16个,黄球8个,蓝球和白球各4个,若把从箱子中任意摸出一个球的颜色的种类作为信源,试建立其数学模型。
解:表示摸出红球, 表示摸出黄球, 表示摸出蓝球, 表示摸出白球,则
信源的数学模型为
在讨论了信源的数学模型,即信源输出的数学描述问题后,很自然地接着会提出这样一个问题:信源发出某一符号(或某一消息)后,它输出多少信息量?整个信源能输出多少信息?这就是信息的度量问题。
信息度量
我们知道可以用概率大小来描述含有不确定性的事件。事件发生的概率越小,此事件含有的信息量就越大,获得了信息也就消除了不确定度。随机事件的不确定度,在数量上等于它的自信息量。因此,当信源发出的消息不确定性越大,此消息含有的信息量就越大。一旦消息发出,并为接收者收到后.消除的不确定性也越大,获得的信息也越多。离散信源可以用离散随机变量来描述,所以我们可以用信源输出消息符号的不确定性作为信源输出信息的度量。
信息量
信源X发出某一消息符号 能提供的信息量,即 的
自信息量(简称
自信息)为
自信息量 是指某一信源发出某一消息符号 后所提供的信息量。自信息量 的大小随着信源发出符号的不同而变化,不是一个确定的值,是一个随机变量,因此不能用它作为整个信源的信息测度。而在实际中,常常需要对某个信源进行整体分析,这就要求用一个确定的值来描述信源的总体统计特征,因此定义自信息的数学期望为信源的平均信息量,或者称为信源的
信息熵。
信源熵
信源各个符号的自信息的数学期望定义为信源的平均信息量,即
信源熵,记为
信源熵是从平均意义上来表征信源的总体特性的一个量,它描述了信源的统计平均不确定性。信源熵有以下几种物理含义。
(1)在信源输出前,信源熵表示信源的平均不确定性。
(2)在信源输出后,信源熵表示一个信源符号所提供的平均信息量。
(3)表示信源随机性大小,信息熵越大,随机性越大。
应该注意的是:信源熵是信源的平均不确定度的描述。一般情况下它并不等于平均获得的信息量。只有在无噪情况下,接收者才能正确无误地接收到信源所发出的消息,消除 大小的平均不确定性,所以获得的平均信息量就等于 。在一般情况下获得的信息量是两熵之差,并不是信源熵本身。
例题解析
【例2】投掷一枚质量均匀的硬币,观察正反面出现的情况,求信源熵。
解:用表示“出现正面”,表示“出现反面”,概率空间为
(bit/符号)
【例3】 计算等概率英文信源的信息熵。
解: 设26个字母和空格共27个符号等概率出现,每个符号的概率为1/27。信源熵为
(bit/符号)
或者可以直接应用
最大离散熵定理,等概率分布信源的熵为
(bit/符号)
【例 4】 在一个箱子中,有红、黄、蓝、白四种不同颜色的彩球,大小和质量完全一样,其中红球16个,黄球8个,蓝球和白球各4个,若把从箱子中任意摸出一个球的颜色的种类作为信源,求这个信源的熵。
解: 由题意知此信源的数学模型为
(bit/符号)
【例5] 讨论一种极端的情况,二进制信源只发送一种消息,即永远只发送1或者只发送0,求这个信源的熵。
解: 此信源发0的概率为1则发1的概率为0,或者发1的概率为1则发0的概率为0,由熵的定义式出发求得H(X)=0。
这是一个确定信源,要么发0要么发1,发出的符号是确定的,不存在不确定性。也就是说,这样的信源,我们不能从中获取任何信息,信源的不确定性为0。
由以上4道例题我们可以总结出以下结论。
(1)信源的熵值大小与其概率空间的消息数和消息的概率分布有关系。
(2)信源的消息为等概率分布时,不确定度最大,熵值最大。
(3)信源的消息为等概率分布,且其消息数目越多,其不确定度越大,熵值越大。
(4)只发送一个消息的信源,其不确定度为0,不能提供任何信息,熵值也就为0。