Entropie und Information

Ordnungszustände in einem System entsprechen einer zusätzlichen, spezifischen Aussage über dieses System. Eine Zunahme an Information entspricht einer Abnahme der Entropie des Systems. Es erhebt sich nun die Frage, ob sich eine quantitative Beziehung zwischen Entropie und Information erhalten läßt. Ein erster Schritt in dieser Richtung ist das quantitative Maß für die Information, wie es durch die Informationstheorie von WEAVER und SHANNON geliefert wird.

Eine Information wird oft mit Hilfe eines binären Codes übertragen, in einem Computer z. B. mit einem Schaltelement, das entweder eingeschaltet (1) oder ausgeschaltet ist (0). Wenn eine Nachricht n solcher Systeme enthält, würde es N = 2n Möglichkeiten für die Anordnung dieser Symbole geben. Wir definieren die gewonnene Information durch
 

I = n = log2

wobei log2 den Logarithmus zur Basis 2 darstellt. Die so definierte Einheit der Information nennt man ein bit. Diese Bezeichnung ist aus dem englischen Begriff binary digit (=Binärziffer) entstanden. Als Beispiel wählen wir wieder einen Satz Karten, in dem wir eine Karte kennzeichnen. Für die dadurch gegebene Information gilt I = log232 = 5 (es ist 25 = 32). Die Kennzeichnung der Karte erfordert also fünf Informationsbits. Der logarithmische Zusammenhang in dieser Beziehung ist notwendig, um aus der Information eine additive Eigenschaft zu machen. Wenn wir z. B. zwei Kartenspiele mit N1 gleich wahrscheinlichen Ereignissen für das erste und N2 gleich wahrscheinlichen Ereignissen für das zweite haben, dann ist die Gesamtzahl der möglichen Ereignisse N = N1N2 ; jede Karte des ersten Kartenspiels kann ja mit jeder der N2 Karten des zweiten kombiniert werden. Es ist daher:
 

I = log2( N1·N2 ) = log2( N1) + log2( N2 ) = I1 + I2

Wir brauchen also 10 bits, um die Möglichkeiten für beide Kartenspiele zu kennzeichnen.

In der Informationstheorie definiert man den Informationsgehalt einer Nachricht als die kleinste Anzahl von Bits, mit der sich alle möglichen Bedeutungen dieser Nachricht ausdrücken lassen (unter der Annahme, dass alle Nachrichten gleich wahrscheinlich sind). Zum Beispiel enthält das Wort "Wochentag'' in einer Datenbank nur 3 Bit an Informationen:
000= Sonntag
001=Montag
...
110=Samstag
111 wird nicht benutzt

Würde man diese Information als Zeichenketten speichern, so würde man zwar mehr Speicherplatz verwenden, allerdings nicht mehr Informationen ausdrücken. Entsprechend wird in einer Datenbank zum Beispiel das Feld "Geschlecht'' in einem Bit dargestellt, obwohl man auch männlich oder weiblich schreiben könnte.

Der Informationsgehalt einer Nachricht M wird allgemein durch deren Entropie ausgedrückt. In der Nachrichtentechnik hat sich dafür der Buchstabe H eingebürgert (nicht zu verwechseln mit der Enthalpie in der Thermodynamik). Die Entropie einer Nachricht, die das Geschlecht angibt, beträgt 1 Bit. Die Entropie einer Nachricht, die den Wochentag angibt, beträgt etwas weniger als 3 Bit (111 bleibt ungenutzt). Exakt sind es 2,8073549 Bit.

Man geht bei der obigen Definition, H = log2N, davon aus, dass alle N gleich wahrscheinlich sind, d.h. p(N)=1/N, also H = log2(1/p) = - log2p. Wenn die einzelnen i Wahrscheinlichkeiten pi unterschiedlich sind, dann erweitert man die Definition zu H = - <log2 pi>, wobei die <> Klammer, den Mittelwert bezeichnet. Anders ausgedrückt definieren wir nun die Entropie im Rahmen der Informationstheorie:
 

H = Σi pi log2 p

Außerdem ist die Entropie ein Maß für die Unsicherheit einer Nachricht. Sie gibt die Anzahl von Klartextbits an, die man wiederherstellen muss, um eine Nachricht zu verstehen. Hat eine Nachricht eine Entropie von 1, muss man lediglich 1 Bit entschlüsseln, um die gesamte Nachricht zu rekonstruieren.

Die obige Gleichung kann man auch nutzen, um experimentelle Werte pi an theoretische Werte qi anzupassen, indem man die Funktion
Σi pi log2 pi /qminimiert. D. h. man geht analog zur Summe der Fehlerquadrate vor, wo  Σi(pi - qi )² minimiert wird, nur minimiert man die relative Entropie Σi pi log2 pi /qi .



Auf diesem Webangebot gilt die Datenschutzerklärung der TU Braunschweig mit Ausnahme der Abschnitte VI, VII und VIII.