Bờ-nốc bình dân

Giản dị như gió, nhẹ nhàng như mây…

Category Archives: Probability-Statistic

Vote poll estimation

Bài toán: 2012 là năm bầu cử tổng thống Pháp. Tháng 2/2011 anh em điều tra tham khảo ý kiến quần chúng. Dominique Strauss Kahn (SKD), đương nhiệm vị trí chủ tịch quỹ tiền tệ quốc tế được, anh em dánh giá cao mặc dù thí sinh này chưa tuyên bố rõ ràng ý định tham gia. Điều tra trên 1000 dân đen thì có 515 người tuyên bố ủng hộ nhiệt liệt SKD. Bây giờ anh em mới phân vân nếu quần chúng vẫn giữ nguyên thái độ thì đến hôm bầu cử thí sinh SDK có đỗ hay không?

Đây là bài toán liên quan đến ước lượng trong thống kê. Trước hết ta thấy SDK đỗ tổng thống khi số phiếu bầu cho thí sinh này chiếm trên 50% tổng số người đi bầu. Ta cần tính xem với niềm tin là bao nhiêu thì SDK sẽ đỗ, nghĩa là ta cần tính confidence interval cho khả năng tỉ lệ phiếu thuận lớn hơn 50%.

Giả sử X là biến ngẫu nhiên theo luật Bernoulli tham số p (nghĩa là X=1 với xác suất pX=0 với xác suất 1-p). Ta coi X như là mô hình hóa quyết định bầu của quần chúng đối với SKD : giả sử rằng quyết định bầu cho SDK của mỗi người là hoàn toàn độc lập nhau và ta coi p như là xác suất để người dân bất kỳ bầu cho SDK. Thế thì tỉ lệ phiếu thuận dành cho SDK ngày bầu cử sẽ là kì vọng của X, tức là p.

Ta cần phải ước lượng khoảng tin cậy để cho p>0.5.

Vào ngày điều tra, ta có n=1000 và giá trị trung bình của của kết quả điều tra là

\hat{p}=\frac{X_1+X_2+\cdots+X_{1000}}{1000}=51.5\%

Kết quả điều tra được coi như sampling của kết quả thật. Dựa vào phương pháp tối đa tương đồng (maximum likelihood), \hat{p} và variance \sigma^2 của X được ước lượng bởi :

p\approx\hat{p}\sigma^2\approx \hat{p}(1-\hat{p})

Với số lượng người đi bầu ngày 07/05/2012( ngày bầu cử) lớn (n lớn), định lý Moivre-Laplace nói rằng phân bố của

\bar{X_n}=\frac{X_1+X_2+\cdots+X_{n}}{n}

sẽ xấp xỉ phân bố chuẩn với trung bình \hat{p} và variance \sigma^2/n, \bar{X_n}\approx \mathcal{N}(p,\sigma^2/n). Khi đó ta có:

\mathbf{P}\left(\frac{\bar{X_n}-p}{\sigma/\sqrt{n}}<c\right )=\Phi(c) với mọi c>0

ở đó \Phi là hàm phân bố của biến ngẫu nhiên chuẩn \mathcal{N}(0,1). Hay ta có thể viết

\mathbf{P}(\bar{X_n} - c\sigma/\sqrt{n})<p)=\Phi(c)

Dựa vào kết quả điều tra ta có : n=1000, X_1000=0.515\sigma^2\approx \hat{p}(1-\hat{p}) = 0.2497. SDK thắng cử khi p>0.5. Muốn xác định khả năng này, ta cần tìm c để :

0.5 = \bar{X_{1000}}-c\sqrt{ \sigma^2/{n}} = 0.515 - c\sqrt{0.515(1-0.515)/{1000}}

tức c=0.9491. Khi đó, khả năng cho sự kiện SDS đẩy Sarkozy vào dĩ vãng sẽ là

\mathbf{P}(0.5<p) =\Phi(c) = 0.8287

Tức 82.87% là SDK sẽ làm tổng thống từ năm 2012, dựa vào điều tra của tháng 2 năm 2011.

Các luật xác suất thông thường (1)

Đây là các luật thường thấy nhiều nhất trong đời sống. Nó thuộc phạm trù xác suất vị nhân sinh. Ta xét ở đây X là biến cố nẫu nhiên trên không gian xác suất (\Omega,\mathcal{B},\mathbf{P})

1. Luật Bernoulli: X\sim B(1,p). X theo luật Bernoulli nếu :

X=\left\{ \begin{array}{l}1\text{ voi xac suat }p\\ 0\text{ voi xac suat }1-p\end{array}\right.

Dễ dàng tính được : \mathbf{E}[X]=p\text{Var}[X]=p(1-p)

2. Luật binomial: Luật này miêu tả số kết quả mong muốn trong tổng số $n$ lần thử. Đây là tổng của nhiều luật Bernoulli độc lập và có cùng tham số : X\sim B(n,p) tương đương với :

X=X_1+X_2+\cdots+X_n với X_i\sim B(1,p) và các X_i độc lập

Các tính chất của luật Binomial :

\left.\begin{array}{rcl}\mathbf{P}(X=k)&=&C^k_np^k(1-p)^{n-k}\ \ 0\le k\le n\\ \mathbf{E}[X]&=&n\mathbf{E}[X_1]=np\\ \text{Var}[X]&=&n\text{Var}[X_1]=np(1-p) \text{ vi cac }X_i\text{ doc lap}\end{array}\right.

Ví dụ : Tung xúc sắc 10 lần. Gọi X là số lần xuất hiện nhót (tức 1) là một biên cố ngẫu nhiên theo luật Bernoulli.

Bài toán 1: Tí, Sửu, Dần, Mão, Thìn, và Tị 6 thanh niên làng Tín mê trò vui chơi có thưởng ngày xuân mới bẹn tụ tập lại chơi trò xúc sắc chăn heo. Mỗi anh nhận một con số khác nhau từ 1 đến 6. Để tiểu tiện ta có thể giả sử anh Tí là 1, anh Sửu là 2, vân vân, đến anh Tị là 6. 6 anh mỗi anh bỏ ra 1000 đóng vào heo. Luật chơi như sau: mỗi lần tung, quân xúc sắc đổ ra số của anh nào là anh đấy được thêm 1 điểm. Chơi đến khi có anh đạt ngưỡng 10 điểm đầu tiên phát là dừng và anh đó cuỗm heo về nhà. Đang chơi máu thì tự nhiên công anh xã sổ ra khiến các anh bán sống bán chết chạy hết cả nhưng vẫn không quên vơ heo theo. Ngày hôm sau họp chợ 6 anh này gặp lại và quyết định chia heo dựa trên số điểm mỗi anh đang có từ hôm trước. Kết quả là anh Tí được 3 điểm, Sửu 2 điểm, Dần 4 điểm, Mão 2 điểm và Tị được có mỗi 1 điểm. Thế là anh Dần bảo tao sắp thắng rồi nên tao lấy hết. Tất nhiên 5 anh kia ai chịu. Anh Tị lạc quan bảo: nhơ đâu chơi tiếp tao thắng 5 phát liên tục thì sao?, Sửu bảo : “tao chỉ cần 4 thôi”, Tí nói cơ hội còn lớn hơn Dần,… Rốt cuộc là chẳng ai chịu ai, chưa biết chia chác thế nào thì cụ đồ Bống xuất hiện, cười nham hiểm và lí luận một hồi. 6 anh nghe mắt sáng bừng tấm tắc: “Chí lí chí lí, thế có phải công bằng không” rồi vui vẻ chia heo như cách của cụ Bống bày cho.

Hỏi: Cụ Bống chia thế nào?

3. Luật hình học : Một sự kiện A có xác sất xảy ra là p. Ta thực hiện các phép thử (một cách độc lập) cho đến khi nào A xảy ra. Số lượng phép thử cần thiết được môt tả bằng luật hình học. Ta kí hiệu X\sim G(p) là luật hình học theo tham số p

\mathbf {P}(X=k)=(1-p)^{k-1}p với k=1?2,\cdots

Luật này được gọi là hình học(1-p)^{k-1}p như là các số hạng thành phần trong chuỗi tổng hình học sau:

\sum_{k=1}^{\infty}\mathbf {P}(X=k)= \sum_{k=1}^{\infty}(1-p)^{k-1}p= 1

Các tính chất :

\left.\begin{array}{rcl}\mathbf{E}[X]&=&\frac{1}{p}\\ \text{Var}[X]&=&\frac{1}{p^2}\end{array}\right.

Như vậy, luật bionomial chỉ tần số xảy ra sự kiện A trong n lần thử thì luật hình học chỉ số thử cần thiết để xuất hiện A. Do đó ta có thể coi luật hình học như là nghịc đảo của luật Binomial.

4. Luật Poisson : Đây là luật mô tả số lần xảy ra sự kiện A trong một khoảng thời gian cố định (ví dụ số người vào toilette trong một nhà hàng từ 8h-9h tối, số thanh niên vượt đèn đỏ từ 5h-6h chiều ở ngã tư Trại Lính,….). Ông Tây nói rằng X tuân theo luật Poisson, viết X\sim\mathcal{P}(\lambda), nếu phân bố của P có dang sau:

\mathbf{P}(X=k) = \frac{\lambda^k e^{-\lambda}}{k!} với k=0,1,2\cdots

Các tính chất :

\mathbf{E}[X]=\text{Var}[X]=\lambda

5. Luật lũy thừa : Đây là luật mô tả khoảng thời gian giữa 2 lần xảy ra liên tiếp một sự kiện nào đó. Ta nó X tuân theo lụat lũy thừa tham số \lambda nếu phân phố của X thỏa mãn

\mathbf{P}(X\le t)= 1-e^{-\lambda t}

hay hàm mật độ của X : f_{\lambda}(x)=\lambda e^{-\lambda x} với x\ge 0f(x)=0 nếu x<0

Các tính chất :

\left.\begin{array}{rcl}\mathbf{E}[X]&=&\frac{1}{\lambda}\\ \text{Var}[X]&=&\frac{1}{\lambda^2}\end{array}\right..

Luật lũy thừa có thể coi như nghịch đảo của luật Poisson như được thấy ở cuối bài này.

Mối liên hệ giữa các luật xác suất thông thường:

1. Phân bố Poisson là giới hạn của phân bố binomial:

Giả sử \lambda=np là hằng số. Thế thì khi n\rightarrow +\infty, phân bố của luật binomial B(n,p) tiến tới phân bố của luật Poisson \mathcal{P}(\lambda):

C_n^kp^k(1-p)^{n-k} \rightarrow \frac{\lambda^ke^{-\lambda}}{k!} với np=\lambda,~~n\rightarrow+\infty

Như vậy, bằng trực giác, ta thấy kì vọng của luật Binomial là np nên kì vọng của luật Poisson cũng bằng np=\lambda (đúng là như thế :D). Variance của luật binomial là np(1-p)=\lambda-\lambda^2/n\rightarrow \lambda khi n\rightarrow\infty nên variance của Poisson cũng bằng \lambda (cũng đúng :D).

2. Luật Poisson mô tả số lần xảy ra sự kiện trong một khoảng thời gian cố định.

Giữa khoảng thời gian 8-9h tối  quán ăn nọ có số lượng rất lớn n khách nhưng không phải khách nào cũng đi toilette ngay ở đó nên có thể giả sử xác suất mỗi khách hàng vào toilette là p rất nhỏ. Giả sử thêm nữa là các vị khách không bắt chiếc nhau ở cái việc đi toilette (tức là việc ông A vào toilette độc lập với hành động bà B nhịn về tận nhà). Thế thì số lượng khách đi vào toilette, X có phân bố binomial B(n,p). Như thế khi p khá nhỏ thì phân bố này có thể ấp xỉ bởi phân bố Poisson tham số \lambda=np.

Thông thường ta không biết số lượng khách vào quán n cũng như xác suất toilette p nhưng nếu ta biết lượng khách đi toilette trung bình giữa 8 và 9h tối là ta có thể xác định được phân bố của số người vào toilette. Chính vì điều này mà phân bố Poisson được dùng để mô hình hóa số lần xẩy ra của một hiện tượng trong khoảng thơi gian cho trước với tham số là lượng xảy ra trung bình đó.

Ví dụ: Sơn công an giao thông ở ngã tư trại lính. Sơn từng là tiền đạo dự bị hạng sang của đội bóng Công An Hải Phòng nên Sơn rất cừ khôi, chú nào vượt đèn đỏ Sơn đều tóm gọn và đều được nộp phạt một khoản đút túi riêng. Thu nhập Sơn ổn định bỗng nhiên có thằng mả mẹ nào chạy ra cà bẩn :”Sơn, một ngày mày kiếm bao nhiêu? “, “Khoảng triệu “Nhiều nhỉ! Thế mày có dám cá với tao là khả năng mày hôm nay kiếm được nhỏ hơn 990 000 là đại lượng nhỏ hơn một nửa không”. Sơn bật ngay “chơi, tưởng bố mày sợ à. cá bao nhiêu?”, “triệu”,”chơi”. Thế là Sơn mất toi triệu bạc.

Vì sao? Giả sử mỗi lần phạt Sơn thu về một khoản bằng nhau, ví dụ như 20 000. Thế thì trung bình một ngày Sơn túyt 50 chú vượt đèn đỏ. Số chú vượt đèn đỏ mà Sơn túyt trong 1 ngày do đó phân bố theo luật Poisson tham số 50. Để Sơn kiếm ít hơn 990000 tức là Sơn túyt ít hơn hoặc banừg 49 chú. Xác suất này bằng:

P(X\le 49)=\sum_{k=0}^{49}\frac{50^k\cdot e^{-50}}{k!}=0.4811<0.5

tức là Sơn thua cái thằng mả mẹ kia rồi.

3. Tổng của 2 luật Poisson độc lập. Giả sử X\sim\mathcal{P}(\lambda_1)Y\sim\mathcal{P}(\lambda_2). Như thế có thể coi X,Y như là số lần xảy ra sự kiện A trong khoảng thời gian nào đó với số lượng xảy ra trung bình làn lượt là \lambda_1,\lambda_2 đối với X,Y. Thế thì X+Y cũngmô tả số lần xảy ra A với số lượng trung bình \lambda_1+\lambda_2. Tức là X+Y\sim\mathcal{P}(\lambda_1+\lambda_2)

4. Quá trình Poisson: Ta gọi X(t) tuân theo quá trình Poisson theo tham số \lambda nếu với mỗi t>0, X(t), được coi như số lần xảy ra(một sự kiện nào đó) trong khoảng thời gian t, tuân theo luật Poisson tham số \lambda.

Quá trình Poisson có tính dừng, nghĩa là số lượng xảy ra sự kiện A trong khoảng thời gian t chỉ phụ thuộc vào t chứ không phụ thuộc vào thời gian đó bắt đầu từ khi nào:

X(t+s) - X(s) = X(t)

5. Quan hệ giữa luật Poisson và lũy thừa : Giả sử X(t) là quá trình Poisson tham số \lambda mô tả số lần xảy ra sự kiện A trong khoảng thời gian t. Giả sử s là một thời điểm nào đó. Gọi T là thời gian kể từ s để sự kiện A xảy ra lần đầu tiên. Thế thì T tuân theo luật lũy thừa tham số \lambda

Như vậy, khoảng thời gian trung binh để xảy ra sự kiện A\mathbf{E}[T]=\frac{1}{\lambda}. Nói cách khác, nếu coi Poisson như tần số xảy của sự kiện A thì lũy thừa chỉ tốc độ xảy ra sự kiện này. Quan hệ này cũng giống như quan hệ giữa luật Binomial và luật hình học.

Ví dụ: Lượt đi classico mùa bóng 2010-2011 kết thúc với két quả bẽ bàng cho các chú kền kền. 5-0 cho Blaugrana. 17/4 tới anh em chời đợi Real trả hận. Vậy Mou và tùy tùng có làm đựoc không?

Để đưa ra một câu trả lời ít cảm tính và mang tính định lượng nhất có thể, ta giả sử rằng mọi điều kiện đều được tròn trịa để ta có thể áp dụng lý thuyết ngon lành :D. Theo thông kê thì trong 162 trận clasico từ trước đến nay kết quả thế này:

Real Madrid wins 68
FC Barcelona wins 64
Draws 30
Real Madrid goals 262
FC Barcelona goals 254
Total matches 162

nguồn :wiki

Như vậy, số bàn thắng (X_bX_r) trung bình Barca và Real ghi được trong mỗi trận classico lần lượt là : \bar{X_b}=1.56\bar{X_r}=1.61. Ta có thể giải sử X_bX_r tuân theo luật Poisson:

X_b\sim\mathcal{P}(1.56)X_r=\sim\mathcal{P}(1.61)

Để Mou có thể trả hận, X_r>X_b. Xác suất này bằng :

\left.\begin{array}{ll}\mathcal{P}(\text{Real thang Barca}) &= \mathcal{P}(X_r>X_b)=\sum_{k=1}^{+\infty}\mathcal{P}(X_b< k)\mathcal{P}(X_r=k)\\ &=\sum_{k=1}^{+\infty}\left(\sum_{j=0}^{k-1}\frac{1.56^{j}e^{-1.56}}{j!}\right)\frac{1.61^ke^{-1.61}}{k!}\approx 0.7183\end{array}\right.

Như vậy, chỉ dựa vào số liệu đối đầu giữa hai đội trong lịch sử thì Real có đến 71.83% thắng Barca ngày 17/4 tới.

Tuy nhiên kết quả này hơi khiên cưỡng vì nó không bao hàm trong nó phong độ hiện tại mà chỉ dựa vào hào quang quá khứ. Ta có thể tính khả năng chiến thắng của kền kền thông qua phong độ hiện tại như số bàn thắng trung bính; số bàn thua, …