感じる科学、味わう数学: 最上位の数字はどのような割合で現れるか？

　ネットから大きさを表す数をたくさん拾って、最上位の数の個数を数えてみましょう。最上位の数というのは、たとえば日本の人口1億2千万人なら「1」で、バチカン市国の人口798人なら「7」で、日本の面積38万平方キロなら「3」です。拾う数は最低でも100個以上、できれば1000個、あるいは10000個くらいある方が望ましい。最上位の数字は 1～9 のいずれかですが、それぞれどれくらいの割合で出てくるでしょうか？

　ぜひ実際にネットで数を拾って、エクセルで集計してみてください。たくさんの数を探すには、総務省統計局のサイトなどからエクセル・ファイルをダウンロードするのが手っ取り早いでしょう。国別の人口でも面積でもＧＤＰ（国内総生産）でもいいですし、人口を面積で割って「人口密度」の数を作ったり、ＧＤＰを人口で割って「一人当たりのＧＤＰ」の数を作ったりすれば、たくさんの数ができますね。
　次にエクセルの関数を使って、最上位の数の個数をカウントしましょう。「ある数の最上位の数」だけを抜き出すには LEFT 関数を、「1～9 の個数を数え上げる」には COUNTIF 関数を使ってみてください。
　ところで、１行目に書いたように、拾う数は「大きさを表す数」です。つまり、日付・時間・順序・比率・割合を表す数は除きます。

さて、世界各国の人口をネットで拾って、最上位の数字を数えてみました。同じように、各国の面積とＧＤＰ（国内総生産）も集計してみました。その結果は右表のとおりです。1 から 9 までの数字がまんべんなく出てくるかと思いきや、数字 1 の個数が最も多く、数字が大きくなるにつれて個数が少なくなっていきます。数字 1 の個数が全体のほぼ30％を占め、1 と 2 と 3 を合わせると全体の約60％に達します。反対に 7 と 8 と 9 を合わせても全体の20％に及びません。
　この傾向は、他の数値、たとえば「今日の東証株価の終値」でやっても「通貨の交換レート」でやっても「都道府県別の大根の出荷数」でやっても同じになります。

なぜでしょうか？そのわけは、数は直線的に変化するのではなく、指数関数的に変化するからです。（ただし、日付・時間・比率・割合に関する数についてはその限りでない。でも、大きさを表す数では確かにそうなんです）
　そして、実はそれぞれの数が現れる確率には理論値があるんです。表の右端に書いた数値です。上のデータ数はたかだか574個ですが、全部で10000個くらい数字を集めれば、たぶんもっと理論値に近づくんだろうと思います。
　おヒマな方は、新聞でも広げてそこに出てくる数の上１ケタの数字をひたすらカウントしてみてください。あるいは、総務省統計局のサイトなどからエクセル・ファイルをダウンロードして、集計してみてください。
　ところで、この理論値とやらは何者なのか？最上位の数字が n である確率は「log₁₀ (n+1)－log₁₀ n」で求められます。log というのは対数ですね。（高校数学でやったはずですが、覚えてますか？）
　ところで、どうしてこんなところで対数が登場するのか？そのわけは、指数関数の逆関数が対数関数だからです。右のグラフは、指数関数 y＝10^x のグラフです。まぁそういう（どういう？）わけです。
　ウソだと思うんでしたら、エクセルでやってみてください。

ありふれた偶然　　最上位の数はどのような割合で現れるか？　　席替えしたのにまた同じ席になっちゃう確率

感じる科学、味わう数学

ラベル

2019年3月14日木曜日

最上位の数字はどのような割合で現れるか？

0 件のコメント:

コメントを投稿