シャノン

情報理論におけるエントロピーの直接の導入は1948年のクロード・シャノンによる。 1920年代後半ごろ、ハリー・ナイキストとラルフ・ハートレーは様々な情報転送に関する基本概念を生み出した。特に通信システムとして電報を対象としていた。当時、それらの概念は強力なブレークスルーではあったが、理論として体系化されるまでには至らなかった。1940年代、クロード・シャノンはナイキストやハートレーの業績に基づいて通信路容量の概念を生み出し、情報理論として体系化した。

  • その著書『通信の数学的理論』でエントロピーの概念を情報理論に応用した[シャノン自身は統計力学でこの概念と関連する概念がすでに使われていることを知らずにこの定義に到達したが、その名称を考えていたとき同僚フォン・ノイマン(数学)が、統計力学のエントロピーに似ていることを指摘し「統計エントロピーが何なのかを理解してる人は少ないから議論になったときに君が有利であろう」と語ったことを受けて、シャノンはエントロピーと名付けた。

情報量

事象Eが起こる確率をP(E)とするとき、 事象 E が起こったことを知らされたとき受け取る(選択)情報量I(E) を

  • 情報量 I(E)= -log P(E) で表わす
  • 上式中の対数 (log) の底として何を選んでも、情報量の値が定数倍変わるだけなので、本質的な差はないものの、底としては2を選ぶことが多い。

ビット:情報量の単位

  • 底が2の場合、1 / 2^nの確率で起こる事象の情報量はnである。nビットである。
  • 情報量は本来無次元の量である
    • 対数の底として何を用いたかによって値が異なるので,単位を付けて区別している。情報量は確率の逆数の桁数の期待値なので、単位も桁数のそれを流用する。この為、対数の底として2、e、10を選んだときの情報量の単位は、それぞれビット(bit)、ナット(nat)、ディット(dit)である*平均
  • ビットとは、コンピュータが扱う情報の最小単位。2つの選択肢から1つを特定するのに必要な情報量が1ビット。一般に、nビットの情報量では2のn乗個までの選択肢からなる情報を表現することができる。例えば、アルファベット26文字を表現するのに必要な情報量は5ビット(16<26<32なため)である。

情報量(エントロピー):シャノン情報量

  • Ω上の確率分布 Pが与えられたとき、各事象の選択情報量 − logP(A)の期待値をエントロピーとよぶ。
    • 一般にすべての事象(できごと)が等確率になるときにエントロピーが最大になる。
    • 情報理論の父と呼ばれるクロード・シャノンは、確率分布 H(p) = −∑ pi log pi をエントロピーと呼んだ。最大エントロピー原理ではこれを尺度として確率分布をランク分けする。すなわち、情報の符号化に最も偏向の少ない分布を用いることでシャノンのエントロピー H(p) が最大化され、情報の一貫性も保たれる。
  • ある確率分布から発生する各文字に決まった符号を割り当てるとする. このとき, その確率分布のエントロピーが平均符号長の限界を与える.

コイン投げのケース

  • コインを投げたときに表が出る確率を p、裏が出る確率を 1 - p とする。このコインを投げたときに得られる平均情報量(エントロピー)は、H(p) = − plogp − (1 − p)log(1 − p)であり、これをエントロピー関数と呼ぶ。
  • エントロピーを最大にするpは、1/2である。最少になると、確実に表ばかり(あるいは裏ばかり)が出現するような状態になる。

通信容量とは

  • 情報理論は、1948年、クロード・シャノンが Bell System Technical Journal に投稿した論文 "A Mathematical Theory of Communication"(通信の数学的理論)を始まりとする。古典的情報理論の中心パラダイムは、ノイズの多い伝送路上で情報を転送する際の技術的問題であった。最も基本的な成果はシャノンの情報源符号化理論であり、ある事象を表現するために必要となる平均「ビット」数はその情報エントロピーであるとされた。また、シャノンの伝送路符号化理論では、ノイズの多い伝送路で信頼できる通信を行えることが示され、その際の転送レートの上限を伝送路容量と称した。実際の通信速度を伝送路容量に近づけるには、適切な符号化が必要となる。

エントロピー符号

エントロピー符号とは情報源アルファベットのシンボルに対し符号語を割り当てる概念の一つで、シンボル毎の出現確率に基づき異なる長さの符号語長を用いることで、情報源を効率的に符号化することを目的としたもの。具体的な例としてハフマン符号や算術符号などがあり、データ圧縮に広く用いられている。

  • 符号アルファベットの要素数をn、任意のシンボルsの出現確率をpsとすると、 − log(ps)(ただしnが底)の長さの符号語を割り当てた時に最短の符号が得られることが知られている。当然、任意の情報源に対してこれらの最適な符号語長は整数にはならない。ハフマン符号では、ハフマン木を用いて各符号語長が整数になるように近似している
  • デジタル符号化されたデータの圧縮の歴史は意外と古く、1830年代に発明されたモールス信号に用いられるモールス符号も圧縮符号の一種である。これは、文字通信の中で比較的出現頻度の高いアルファベットに短い符号を割り当て、出現頻度の低いものには長い符号を割り当てることで、通信に要する手間を省いている。

トップ   差分 バックアップ リロード   一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2009-07-04 (土) 13:02:00 (3305d)