バケツをまとめる

FAQ に新しい項目が追加されたので、翻訳。バケツをひとつにまとめる

単純に考えると、それぞれのバケツの単語数を足しあわせればいいのではないかと思うのだけど、話はそう単純ではないようだ。以下に、足し合わせではうまくいかないことを説明してみる。

A,B,C のバケツにそれぞれ 100 単語ずつが入っていて、X という単語が、A には 1 個、B には 5 個、C には 4 個入っているとする。

この場合、A,B,C のそれぞれから適当に単語を取り出したときにその単語が X である確率は、1/100、5/100、4/100 で、ベイズの定理により、X が

A から取り出したものである確率 1/10
B から取り出したものである確率 5/10
C から取り出したものである確率 4/10

で、バケツ B の確率が最も高い。

ここで、A と B の二つのバケツをまとめて A' というバケツを作った場合、単純に単語数を足しあわせれば、このバケツに含まれる単語数は 200 で、単語 X は 6 個含まれることになる。

すると、A' から単語を取り出したときにその単語が X である確率は、6/200 = 3/100。先ほどと同じように、ベイズの定理により、X が

A' から取り出したものである確率 3/7
C から取り出したものである確率 4/7

となり、今度はバケツ C の確率が最も高くなってしまう。

本来は、A から取り出したもの、あるいは B から取り出したものである確率と同じになるべきだから、バケツ A' から取り出したものである確率は 6/10 にならなくてはならないはず。ということは、A' から単語を取り出したときにその単語が X である確率は、6/100 でなければならないということだ。要は、単語数ではなくて、確率を足しあわせなければいけないということだ。

では、確率を足しあわせるということが現実にできるのかというと、これが実は不可能なのだ。バケツ A から取り出した単語が X1 である確率、バケツ B から取り出した単語が X1 である確率、バケツ A から取り出した単語が X2 である確率、……をすべて足しあわせると、2 になってしまう。すべての事象の確率を足しあわせて 2 になることはあり得ない。

ということで、単語数をやりくりして、もとと同じ状態を維持するということは不可能。やはり、ドキュメントに書かれているように、リセットして最初からやりなおすというのがいい方法のようだ。