2019年3月14日木曜日

最上位の数字はどのような割合で現れるか?

 ネットから大きさを表す数をたくさん拾って、最上位の数の個数を数えてみましょう。最上位の数というのは、たとえば日本の人口1億2千万人なら「1」で、バチカン市国の人口798人なら「7」で、日本の面積38万平方キロなら「3」です。 拾う数は最低でも100個以上、できれば1000個、あるいは10000個くらいある方が望ましい。最上位の数字は 1~9 のいずれかですが、それぞれどれくらいの割合で出てくるでしょうか?

 ぜひ実際にネットで数を拾って、エクセルで集計してみてください。たくさんの数を探すには、総務省統計局のサイトなどからエクセル・ファイルをダウンロードするのが手っ取り早いでしょう。国別の人口でも面積でもGDP(国内総生産)でもいいですし、人口を面積で割って「人口密度」の数を作ったり、GDPを人口で割って「一人当たりのGDP」の数を作ったりすれば、たくさんの数ができますね。
 次にエクセルの関数を使って、最上位の数の個数をカウントしましょう。「ある数の最上位の数」だけを抜き出すには LEFT 関数を、「1~9 の個数を数え上げる」には COUNTIF 関数を使ってみてください。
 ところで、1行目に書いたように、拾う数は「大きさを表す数」です。つまり、日付・時間・順序・比率・割合を表す数は除きます。



さて、世界各国の人口をネットで拾って、最上位の数字を数えてみました。同じように、各国の面積とGDP(国内総生産)も集計してみました。 その結果は右表のとおりです。1 から 9 までの数字がまんべんなく出てくるかと思いきや、数字 1 の個数が最も多く、数字が大きくなるにつれて個数が少なくなっていきます。数字 1 の個数が全体のほぼ30%を占め、1 と 2 と 3 を合わせると全体の約60%に達します。反対に 7 と 8 と 9 を合わせても全体の20%に及びません。
 この傾向は、他の数値、たとえば「今日の東証株価の終値」でやっても「通貨の交換レート」でやっても「都道府県別の大根の出荷数」でやっても同じになります。

なぜでしょうか? そのわけは、数は直線的に変化するのではなく、指数関数的に変化する からです。(ただし、日付・時間・比率・割合に関する数についてはその限りでない。でも、大きさを表す数では確かにそうなんです)
 そして、実はそれぞれの数が現れる確率には理論値があるんです。表の右端に書いた数値です。上のデータ数はたかだか574個ですが、全部で10000個くらい数字を集めれば、たぶんもっと理論値に近づくんだろうと思います。
 おヒマな方は、新聞でも広げてそこに出てくる数の上1ケタの数字をひたすらカウントしてみてください。あるいは、総務省統計局のサイトなどからエクセル・ファイルをダウンロードして、集計してみてください。
 ところで、この理論値とやらは何者なのか? 最上位の数字が n である確率は「log10 (n+1)-log10 n」で求められます。log というのは対数ですね。(高校数学でやったはずですが、覚えてますか?)
 ところで、どうしてこんなところで対数が登場するのか? そのわけは、指数関数の逆関数が対数関数 だからです。右のグラフは、指数関数 y=10x のグラフです。まぁそういう(どういう?)わけです。
 ウソだと思うんでしたら、エクセルでやってみてください。



0 件のコメント:

コメントを投稿