二項分布

二項分布

いまから、あなたはギャンブルを企画します。

ルーレットやカードなどいろいろな方法がありますが、準備がたいへんなのでコインを投げて裏か表かをあてるギャンブルにします。

ただ、一回投げて裏か表かでは面白くないので、10回投げて何回表が出るかという方式にします。

 

さて、この際、疑問に思うのは、表がk回出る確率はどうなるのだろうという点です。

 

では、この問題を解いてみましょう。

まず、一回も表が出ない確率は

 \displaystyle\left(\frac{1}{2}\right)^{10}

となります。10回表が出る確率も同様です。

 

では、2回表が出る確率はどうなるでしょうか?

●を裏、○を表とすれば

○○●●● ●●●●●

●●○●● ●○●●●

など様々な場合が考えられます。これは、10このうち2つ選ぶ場合の数なので

 _{10}C_{2}

となります。また、裏が出る確率も表が出る確率も1/2です。よって、2回表が出る確率は

 \displaystyle_{10}C_{2}\left(\frac{1}{2}\right)^{2}\left(\frac{1}{2}\right)^{8}

となります。

 

同様の考え方をすれば、k回表が出る確率は

 \displaystyle_{10}C_{k}\left(\frac{1}{2}\right)^{k}\left(\frac{1}{2}\right)^{10-k}

となります。この式より確率を計算して、グラフにまとめたのが以下の図です。

二項分布

5回でる確率が最も高いことがわかりますね。

この計算した確率に応じて、賞金を設定すればよさそうです。

この賞金設定の値を意図的に調整して、7・3回がもっとも期待値が高いように設定することも可能です。

このようなギャンブルに参加する際にはかならず事前に確率を計算して、有利な条件を探すようにしましょう。

二項分布

以上のことを少し拡張してみましょう。

まず、コインの裏表が出る確率をそれぞれp,qとすれば

 _{10}C_{k}p^{k}q^{10-k}

となります。

 

さらに、10回コインを投げるのではなく、n回に拡張します。すると

 B(n,p)=_{n}C_{k}p^{k}q^{n-k}

が得られます。このB(n,p)二項分布と呼びます。ここで、

 q=1-p

です。

二項分布の平均と分散

では二項分布の基本的な統計量を計算します。まずは平均値です。

 \displaystyle\mu=\sum_{k=0}^{n}k_{n}C_{k}p^{k}(1-p)^{n-k}\\=\sum_{k=1}^{n}k\frac{n!}{k!(n-k)!}p^{k}(1-p)^{n-k}\\=np\sum_{k=1}^{n}\frac{(n-1)!}{(k-1)!(n-1-(k-1))!}p^{k-1}(1-p)^{n-1-(k-1)}

ここで、

 \displaystyle(x+y)^{n}=\sum_{k=0}^{n}\ _{n}C_{k}x^{k}y^{n-k}

を利用すると

 \displaystyle\mu=np(p+(1-p))^{n-1}=np

が得られます。投げる回数が多いほどよく、表がでる確率が高いほうがいいどいう当たり前の結果ですね。

 

次に、分散を計算します。

 \displaystyle\sigma^{2}=\sum_{k=0}^{n}(k-\mu)^{2}_{n}C_{k}p^{k}(1-p)^{n-k}\\=\sum_{k=0}^{n}(k^{2}-2k\mu+\mu^{2})_{n}C_{k}p^{k}(1-p)^{n-k}\\=\left(\sum_{k=0}^{n}k^{2}_{n}C_{k}p^{k}(1-p)^{n-k}\right)-2\mu\left(\sum_{k=0}^{n}k_{n}C_{k}p^{k}(1-p)^{n-k}\right)+\mu^{2}\left(\sum_{k=0}^{n}\ _{n}C_{k}p^{k}(1-p)^{n-k}\right)\\=\left(\sum_{k=0}^{n}k^{2}_{n}C_{k}p^{k}(1-p)^{n-k}\right)-2\mu^{2}+\mu^{2}\left(\sum_{k=0}^{n}\ _{n}C_{k}p^{k}(1-p)^{n-k}\right)\\=\left(\sum_{k=0}^{n}k^{2}_{n}C_{k}p^{k}(1-p)^{n-k}\right)-\mu^{2}

ここで第一項を計算すると

 \displaystyle\sigma^{2}=\sum_{k=0}^{n}k^{2}_{n}C_{k}p^{k}(1-p)^{n-k}\\=\sum_{k=1}^{n}(k(k-1)+k)\frac{n!}{k!(n-k)!}p^{k}(1-p)^{n-k}\\=\sum_{k=2}^{n}(k(k-1))\frac{n!}{k!(n-k)!}p^{k}(1-p)^{n-k}+\sum_{k=1}^{n}k\frac{n!}{k!(n-k)!}p^{k}(1-p)^{n-k}\\=n(n-1)p^{2}\sum_{k=2}^{n}\frac{(n-2)!}{(k-2)!(n-2-(k-2))!}p^{k-2}(1-p)^{n-2-(k-2)}\\\ +np\sum_{k=1}^{n}\frac{(n-1)!}{(k-1)!(n-1-(k-1))!}p^{k-1}(1-p)^{n-1-(k-1)}\\=n(n-1)p^{2}+np

となるので

 \displaystyle\sigma^{2}=n(n-1)p^{2}+np-\mu^{2}\\=n(n-1)p^{2}+np-n^{2}p^{2}\\=-np^{2}+np\\=np(1-p)

が得られます。pに関する二次関数であり、下に凸なので

 p=1/2

のとき分散は最小に抑えることができます。

著者:安井 真人(やすい まさと)