客の来店する時間間隔が指数分布になる直感的な理由と、分布の導出方法
はじめに
何らかのイベントがランダムに発生する(ポアソン過程という)とき、その発生間隔は「指数分布」という確率分布に従うことが知られています。
例えば、1分あたりに2人の客が来る店においては、来客の時間間隔が平均1/2 [分]の指数分布に従います。
でもどうしてそんな分布になるのでしょうか?
数式をほとんど使わず、ゆるふわな説明によって直感的に理解してみましょう。
後半ではもう少し真面目になり、発生間隔が厳密に指数分布になることを示します。
実は、「ランダムなイベントの発生はポアソン過程と呼ばれ、その発生頻度はポアソン分布に従う」ことを知らずとも、「イベントの発生の仕方が時間的に一様である」という条件だけから指数分布が導けてしまうのです!
統計の教科書にもあまり書かれていないことが多いので、ここに紹介します。
ゆるふわな説明
まずは、ほとんど数式を使わずに、イベントの発生間隔(例:ある店への来客の時間間隔)が指数分布っぽくなることをイメージできるようになりましょう。
そのために、指数分布とはどんなものか最低限理解しておく必要があります。
指数分布とはなにか
指数分布とは、正のパラメータλに対して確率密度関数が
と表されるものです。
例えば、1分あたり0.5人の来客がある場合はλ=0.5となり、来客と次の来客との時間間隔がa分とb分の間に収まる(a<b)確率は
を計算することにより
と求めることができます。
確率密度関数は以下のグラフのようになっています。
図1↓
CC 表示-継承 3.0, https://commons.wikimedia.org/w/index.php?curid=73793
なぜイベントの発生間隔が指数分布っぽくなるのか
さて、指数分布なるものは図1のグラフのような形をしていることが分かりました。
ここで、指数分布の式を知らなくても「図1っぽくなるはずだ」と考えられるのです。
ゆるふわな説明のまとめ
ここまでの説明から、イベントの発生間隔(例:ある店への来客の時間間隔)は以下のグラフのように指数分布っぽくなることが直感的に分かりました。
以上の思考過程を経ずにこのグラフをイメージするのは難しいのではないでしょうか。というのも、f(x)がx=(平均時間間隔)でピークになるのではなく、時間間隔が短いほど確率が大きくなるというグラフになっているのですから。
ただ、現時点では直感的に指数分布っぽくなるというだけで、他の関数形である可能性も残されています。
次章では、厳密に指数分布であることを示します。
真面目な説明
「はじめに」に書いたように、「イベントの発生の仕方が時間的に一様である」という条件(*)だけから指数分布が導けます。
この条件(*)は無記憶性と呼ばれ、「ある時間幅Δxにイベントが発生する確率は、過去がどうであったかに関わらず一定である」と言い換えることが可能です。この条件を数式に落とし込み、指数分布が現れることを確認しましょう。
無記憶性を持つなら指数分布である
以下では、イベントの発生間隔の確率密度関数をf(x), 累積分布関数をF(x)とします。F(x)を微分するとf(x)になり、f(x)を積分するとF(x)が得られます。これらのf(x)、F(x)の関数形を得ることが目的です。
もとになる事実と無記憶性の条件
まず、以下の事実に注意しましょう。
イベントが発生した後、次に初めて発生するまでの時間間隔が x〜x+Δx の間に収まるということは、次のイベントが0〜xの間には発生せず、x〜x+Δx の間に発生するということである。
これを確率の言葉に直すとこうなります↓
イベントが発生した後、次に初めて発生するまでの時間間隔が x〜x+Δx の間に収まる確率は、
(次のイベントが0〜xの間に発生しない確率) × (次のイベントが x〜x+Δx の間に発生する確率)に等しい。
ここで、無記憶性の条件「ある時間幅Δxにイベントが発生する確率は、過去がどうであったかに関わらず一定である」から、上記の (次のイベントが x〜x+Δx の間に発生する確率)は (次のイベントが 0〜Δx の間に発生する確率)と等しくならなければなりません。
したがって、以下のように言い換えます。
イベントが発生した後、次に初めて発生するまでの時間間隔が x〜x+Δx の間に収まる確率は、
(次のイベントが0〜xの間に発生しない確率) × (次のイベントが 0〜Δx の間に発生する確率)に等しい。
数式による表現
上記の事実を数式で表現しましょう。
累積分布関数F(x)が意味するのは
「イベント発生の時間間隔がx以下となる確率」
すなわち
「イベントが発生した後、次に初めて発生するまでの時間間隔がx以下となる確率」
であることを利用し、上記事実は
と表すことができます。
まとめ・おわりに
- 何らかのイベントがランダムに発生するとき、その発生間隔の分布は単調減少かつx軸に漸近するべきであることから、指数分布っぽくなるはずである。
- 「イベントの発生の仕方が時間的に一様である」ことを意味する無記憶性の仮定のみから指数分布の累積分布関数・確率密度関数を導くことができる。
ということを紹介しました。
教科書などではしばしば天下り的に与えられることですが、これでちゃんと理解できるのではないかと思います。
式の展開は自分で計算したので、誤りがあればご指摘ください。
- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1991/07/09
- メディア: 単行本
- 購入: 158人 クリック: 3,604回
- この商品を含むブログ (82件) を見る
- 作者: 桐山光弘
- 出版社/メーカー: 日刊工業新聞社
- 発売日: 1997/09
- メディア: 単行本
- 購入: 2人 クリック: 11回
- この商品を含むブログ (3件) を見る