חוק המספרים הגדולים עושה אותך כזה קטן

הפנו אותי אל מאמר מתוך "דה-מרקר" שבתורו נלקח, לא פחות, מה"ניו-יורק טיימס". המאמר מתהדר בכותרת "סיבה לדאגה לאפל? "חוק המספרים הגדולים יוביל לנפילתה"" ובכותרת המשנה "החוק שהוכיח מתמטיקאי שווייצי בן המאה ה-17 עשוי לבשר על כך שגורלה של אפל יהיה זהה לזה של חברות ענק קודמות" – וזה, מה נאמר, כמו דם במים בשביל כריש.

בואו נתחיל מהטקסט. הוא נפתח בלספר כי אפל היא החברה הגדולה ביותר בעולם כיום ואז מביא נתונים שמראים שאפל מרוויחה בוחטות ונמצאת בעליה מתמדת. ואז מגיע הפאנץ':

אך כאן גם טמונה בדיוק הבעיה של אפל: החברה הפכה לכל כך גדולה כך שחוק המספרים הגדולים החל לפעול נגדה. חוק המספרים הגדולים, שאותו הוכיח המתמטיקאי השווייצי בן המאה ה-17 יעקב ברנולי, קובע כי כל משתנה ילך ויתקרב לממוצע ככל שמדגם התוצאות גדול יותר. במקרה של חברות גדולות, משמעות החוק היא כי ככל שחברות הולכות וגדלות, צפויה האטה בצמיחה החדה ברווחיהן ובעלייה החדה במחיר מניותיהן.

מה כן נכון: קיים משפט מתמטי בשם "חוק המספרים הגדולים". מקרה פרטי בסיסי של חוק המספרים הגדולים אכן הוכח על ידי יעקב ברנולי במאה ה-17 ובכך זיכה את ברנולי, ובצדק, בתואר של אחד ממייסדי תורת ההסתברות. כל השאר שגוי – גם ניסוח המשפט (טוב, זה לא מפתיע) וגם כל הסקת המסקנות ממנו. כמובן, ייתכן מאוד שקיימת תופעה שבה ככל שחברות הולכות וגדלות צפויה האטה בצמיחתן; אבל קשר לחוק המספרים הגדולים – נייט.

הפסקה הבאה קצת שופכת אור על זה:

האנליסט רוברט סירה מחברת אוורקור פרטנרס, המכסה את מניית אפל, אמר השבוע כי חוק המספרים הגדולים כפי שהוא חל על אפל "מהווה מקור לדאגה כבר שנים. עם זאת, בשנתיים האחרונות נרשמה, למעשה, האצה בצמיחת הכנסות החברה, אבל זה לא יכול להימשך לנצח. אם הולכים קדימה עם התחזיות מספיק רחוק, כדי להמשיך לצמוח באותו הקצב תצטרך אפל למכור אייפון לכל גבר, אשה, ילד, בעלי חיים ואבן על פני כדור הארץ".

שימו לב שאותו רוברט סירה לא הזכיר את חוק המספרים הגדולים אפילו ברמז. במקום זה הוא נותן נימוק סביר לכך שהאטה בצמיחה של אפל היא בלתי נמנעת – השוק שלה קטן דווקא בגלל שהיא מצליחה למכור כל כך הרבה. לי אישית זה מעלה בראש משוואות דיפרנציאליות ואת מודל טורף-נטרף ואפילו שמעתי לא מזמן הרצאה יפה של פרופ' דניאל הרשקוביץ (שכרגע מחלטר כשר המדע) שנתנה את שוק הפלאפונים בדיוק כדוגמה לעניינים הללו. מה שזה לא מזכיר לי זה את חוק המספרים הגדולים.

אבל!

חוק המספרים הגדולים של ברנולי כבר חזה, כך נדמה, את נפילתן של חברות אחרות שהחזיקו בתואר החברה הגדולה בעולם במונחי שווי שוק. שווי השוק של סיסקו זינק ל-557 מיליארד דולר – יותר משווי השוק הנוכחי של אפל – בשיאה של בועת ההייטק בחודש מארס 2000. כיום, שווי השוק של סיסקו הוא כ-100 מיליארד דולר, ומחיר מנייתה נמוך בכמעט 80% מהשיא אליו הגיע במארס 2000. שווי השוק של חברות אחרות שהחזיקו בבכורה, דוגמת ג'נרל אלקטריק, מיקרוסופט ואקסון מוביל, נמוך אף הוא כעת משהיה בתקופה בה החזיקו בבכורה.

ובכן: היו חברות שהיו הגדולות ביותר. עכשיו, מטבע הדברים, הן כבר לא. מסקנה: חוק המספרים הגדולים חזה את זה. איכשהו.

וזה מופיע בניו-יורק טיימס? באמת?

טוב, בואו נדבר על "מה כן" במקום על "מה לא" כל הזמן. בניסוח הכי לא פורמלי שאני יכול לתת, מה שחוק המספרים הגדולים כן אומר הוא שאם תטילו קוביה הרבה מאוד פעמים ותנהלו רישום של התוצאה הממוצעת שקיבלתם (כלומר, תחלקו את סכום התוצאות שהיו עד כה במספר ההטלות שהיו עד כה), אז ככל שמספר ההטלות יגדל, כך הממוצע שרשום אצלכם יתקרב לממוצע התיאורטי שאפשר לחזות רק מתוך היכרות עם הקוביה: לממוצע התיאורטי הזה יש שם מתמטי – תוחלת. מה שחוק המספרים הגדולים אומר הוא בעצם שמושג התוחלת עובד. בדוגמה הקונקרטית של קוביה, אותו ממוצע תיאורטי צפוי הוא \(3.5\) (ואסביר עוד מעט בדיוק למה), ואכן אם תכתבו תוכנית מחשב שמטילה לה קוביות וירטואליות ומבצעת את חישוב הממוצע תראו – בודאות! אני מבטיח! – שהממוצע הזה הולך ומתקבע לו בסביבת \(3.5\) ככל שהחישוב מתמשך. בויקיפדיה האנגלית אפילו יש להם גרף יפה שמתאר בדיוק את זה.

כמובן, חוק המספרים הגדולים לא מדבר רק על הטלות קוביה. "הטלת קוביה" כאן היא מטאפורה לכל ניסוי הסתברותי שיש לו כמה תוצאות מספריות אפשריות. לדבר כזה קוראים משתנה מקרי. אפרט עוד קצת בהמשך.

למה זה לא קשור לאפל? ובכן, קודם כל יש את הבעיה הכללית של החלת מודלים מתמטיים על המציאות המבולגנת שלנו: חוק המספרים הגדולים דורש שניקח את הממוצע של חזרה שוב ושוב על אותה הגרלה של אותו משתנה מקרי. לא ברור מהי אותה הטלת קוביה במקרה של חברות – האם לכל חברה יש בדיוק אותם סיכויי הצלחה? וכשמדברים ספציפית על אפל, האם אפל עצמה מטילה קוביה כל יום? חודש? שנה? והאם מותו של סטיב ג'ובס לא שינה את הקוביה שהיא מטילה? האם גם הוא שוקלל פנימה איכשהו? כמו שאתם רואים, אין לנו ברירה אלא לנטוש את המודל המתמטי הפשוט והיפה. מה שאנחנו עדיין יכולים לקוות לו הוא שהמודל המתמטי הפשוט הוא קירוב טוב למה שקורה במציאות, אבל זה מאלץ אותנו להיות זהירים שבעתיים בהסקת המסקנות שלנו מהמודל. אל תסיקו ממה שאמרתי שמודלים סטטיסטיים הם לא שימושיים בעולם האמיתי – ברור שהם שימושיים. אבל להפעיל מודל סטטיסטי בפיזיקה על קבוצה גדולה של חלקיקים שכל אחד מהם זהה לאחרים ולכן אפשר לחשוב עליהם במובן מסויים בתור הטלה שוב ושוב של אותה הקוביה – או אפילו לנתח את הרווחים שיהיו לקזינו משולחן רולטה – שונה מאוד מאשר להפעיל אותה על שוק החברות העולמי.

אבל, זו אפילו לא הבעיה האמיתית עם השימוש בחוק כאן, אלא רק משנה הזהירות שצריך תמיד לנקוט בו. הבעיה האמיתית היא שהחוק מדבר על ממוצע, והמאמר מנסה להסיק ממנו מידע על מקרה בודד.

למרבה הצער, המאמר לא ממש מסביר על מה הוא מפעיל את חוק המספרים הגדולים, ולכן יש שתי אפשרויות שנראות לי טבעיות באותה מידה: או שהוא מפעיל את החוק על השוק כולו, או שהוא מפעיל אותו על אפל ספציפית. נתחיל דווקא מהמקרה השני, שבו אני מניח שהכוונה היא שאפל מטילה קוביה שוב ושוב. חוק המספרים הגדולים אכן אומר שממוצע ההטלות של אפל אכן ישאף לתוחלת; אבל מהי התוחלת הזו? האם אנחנו בכלל יודעים שהיא סופית? האם לא ייתכן שהיא כן משתנה עם הזמן? ויותר מכך – מכיוון שאנחנו מתעניינים רק בממוצע ההטלות, האם לא ייתכן שמדי פעם יתקבלו הטלות גרועות ממש, שיאזנו את ההטלות החיוביות? המאמר מנסה איכשהו להסיק שההטלות של אפל יהפכו להיות קרובות לממוצע – כלומר, שהחל משלב מסויים, כל הטלת קוביה תהיה 3 או 4 כי אלו הערכים שקרובים ל-\(3.5\). זה ממש לא נכון.

ונניח שמדובר כאן על השוק כולו. כאן המצב הוא עוד יותר גרוע. אמנם, יותר סביר להניח במקרה זה שיש איזו "תוחלת שוק" סבירה וקבועה, אבל למה שדווקא אפל תשאף אליה? כל עוד יש מספיק חברות כושלות אחרות שמאזנות את הממוצע, אפל יכולה לנסוק כמה שרק מתחשק לה. במילים אחרות, כל עוד אנחנו מקבלים 1 מספיק פעמים בקוביה אין בעיה שנקבל גם 6 – עדיין נקבל ממוצע \(3.5\).

אני רק רוצה להבהיר – מה שהמאמר מדבר עליו בפועל – האטה בצמיחה של אפל – הוא כנראה משהו שיקרה בפועל, ומשהו מאוד סביר, וגם נתנו לו הסבר סביר בגוף המאמר. אני רק מתקומם על הנסיון לדחוף פנימה באופן בלתי קשור בעליל משפט מתמטי יפהפה. בעצם, כנראה שמה שהכי מפריע לי כאן הוא הנסיון של הכותב לשכנע בצדקתו על ידי שליפת כוח עליון – המתמטיקה – שרוב הקוראים לא יעזו להתווכח איתו. פוי.

לסיום אני רוצה לומר מה המשפט כן אומר, באופן מדויק. לא אוכיח אותו כאן כי ההוכחה לא בהכרח קצרה (תלוי איזו גרסה של המשפט מוכיחים) ובכל מקרה דורשת קצת עבודת הכנה. אבל לנסח אפשר.

ובכן, מבחינה מתמטית יש לנו ברקע של ניסוי הסתברותי תמיד משהו שנקרא מרחב מדגם. על מרחב המדגם הזה מוגדרים משתנים מקריים. ההגדרה של כל אלו לא טריוויאלית באופן כללי, אבל במקרה הפשוט שבו המשתנה המקרי יכול לקבל רק אחד מבין מספר סופי של ערכים, אפשר לתמצת את הסיטואציה לכך: אם \(X\) הוא משתנה מקרי, נסמן ב-\(\mbox{P}\left[X=a\right]\) את ההסתברות (מספר בין 0 ל-1) ש-\(X\) יקבל את הערך \(a\) בהגרלה שאנחנו מבצעים, ומתקיים \(\sum\mbox{P}\left[X=a\right]=1\), כשהסכום נלקח על אותם \(a\)-ים שיש ל-\(X\) הסתברות חיובית לקבל. כעת נגדיר את התוחלת של \(X\) להיות הממוצע המשוקלל של הערכים שלו – משוקלל בהסתברויות שהם יתקבלו. כלומר, \(\mbox{E}\left[X\right]=\sum a\cdot\mbox{P}\left[X=a\right]\). עבור קוביה הערכים האפשריים הם המספרים מ-1 עד 6 וההסתברות לכל אחד מהם היא \(\frac{1}{6}\) ולכן \(\mbox{E}\left[X\right]=\frac{1+2+3+4+5+6}{6}=\frac{21}{6}=3.5\), כמובטח.

כעת בואו נניח שיש לנו לא משתנה מקרי אחד אלא סדרה אינסופית שלהם: \(X_{1},X_{2},X_{3},\dots\). עוד נניח שכולם מתפלגים באותו האופן, ושהם בלתי תלויים אחד בשני (כל אחד מייצג הטלה שונה של אותה הקוביה). בפרט, יש לכולם את אותה תוחלת שנהוג לסמן ב-\(\mbox{E}\left[X_{i}\right]=\mu\) עכשיו נגדיר מהם משתנים חדשים שמייצגים את "הממוצע של כל המשתנים עד כאן", כלומר \(\overline{X}_{n}=\frac{\sum_{i=1}^{n}X_{i}}{n}\). מה שחוק המספרים הגדולים אומר הוא שהסדרה \(\overline{X}_{n}\) מתכנסת ל-\(\mu\). בחשבון אינפיניטסימלי יש לנו מושג מדויק שמתאר התכנסות של סדרות לערכים – מושג הגבול, אבל כאן הסיטואציה קצת יותר בעייתית כי \(\overline{X}_{n}\) היא סדרה של משתנים מקריים; זה אומר שהיא לא סתם סדרה של ערכים קבועים, אלא מייצגת התפלגות כלשהי על סדרות כאלו. לכן צריך גם לתת הגדרות של התכנסות שמביאות את זה בחשבון. יש כמה הגדרות שונות שאפשר לתת, ואנחנו מתפצלים לשתי גרסאות שונות של חוק המספרים הגדולים עבור שתי הגדרות שונות להתכנסות – החוק החלש של המספרים הגדולים, והחוק החזק של המספרים הגדולים. הם נקראים כך כי ניתן להסיק את החוק החלש מתוך החוק החזק, אבל כאמור – שניהם מטפלים בשני סוגי התכנסות שונים.

החוק החלש מטפל במה שנקרא "התכנסות בהסתברות". לא אציג את המושג הכללי אלא רק את משמעותו בהקשר של חוק המספרים הגדולים: לכל \(\varepsilon>0\) מתקיים ש-\(\lim_{n\to\infty}\mbox{P}\left[\left|\overline{X}_{n}-\mu\right|<\varepsilon\right]=1\). מה זה אומר? לכל \(n\) טבעי, נשאל את עצמנו "מה הסיכוי שאם אני מסתכל על הממוצע של \(n\) המשתנים הראשונים, הוא יהיה קרוב לתוחלת עד כדי \(\varepsilon\)?". הסיכוי הזה לא יהיה 1, חלילה; תמיד יש איזה שהוא סיכוי לחריגה אלא במקרים פשוטים ביותר. אבל, ככל שנגדיל את \(n\), כך גם הסיכוי ילך ויתקרב ל-1 במובן הסטנדרטי של שאיפה לגבול.

החוק החזק מטפל במה שנקרא "התכנסות כמעט בודאות". הניסוח כאן יותר פשוט , בלי אפסילונים: \(\mbox{P}\left[\lim_{n\to\infty}\overline{X}_{n}=\mu\right]=1\). במילים אחרות, אם אני מגריל סדרת ממוצעים כלשהי ומסתכל על הגבול של אותה סדרת ממוצעים, הגבול הזה יהיה \(\mu\) כמעט בכל המקרים (הסתברות 1 לא תמיד אומרת "בכל המקרים בודאות", אבל גם זו פינה אפלה שאני לא אכנס אליה כעת). שימו לב להבדל – בחוק החלש הגבול היה על סדרת ההסתברויות, וכאן הגבול הוא של סדרת המשתנים עצמה. זה החוק החזק שאנו חושבים עליו כשאנו אומרים שמושג התוחלת "עובד" – זה אומר שלמעט אולי בכמה מקרים חריגים וזניחים, סדרת הממוצעים שואפת לתוחלת, נקודה.

יעקב ברנולי, למיטב ידיעתי, הוכיח רק את המשפט החלש, וגם זה רק למקרה פרטי של משתנים שמקבלים או 0 או 1 (משתני ברנולי). גם זה היה הישג אדיר בתקופתו, בהתחשב בכך שתורת ההסתברות עוד לא הייתה קיימת וכך גם התשתית שבה משתמשים כדי להוכיח את המשפטים כיום; את הגרסה הכללית ביותר (המשפט החזק, ועבור משתנים מקריים כלשהם) הוכיח מתמטיקאי רוסי – קינצ'ין – רק במאה ה-20. למי מגיע הקרדיט על גרירת החוק לענייני כלכלה אני לא יודע, ואולי טוב שכך.

דיון שאינו חסר תוחלת במשתנים מקריים

בואו נדבר על כסף. רולטה. נניח שאני מהמר בשיטת כך-וכך, בכמה אני זוכה? מכיוון שרולטה היא עסק הסתברותי ובכל משחק אני זוכה או מפסיד משהו שונה, עדיף לשאול שאלה יותר מדוייקת – בכמה בממוצע אני זוכה? נניח שאני משחק אלף סיבובים ומרוויח בסך הכל אלף ש"ח, אפשר לומר שבממוצע, זכיתי בש"ח אחד לסיבוב (אפילו אם מה שקרה בפועל הוא שבכל סיבוב הרווחתי מאה ש"ח או הפסדתי מאה ש"ח).

שאלות מהסוג הזה מעבירות אותנו לשלב הבא בדיון שלנו על הסתברות, ונותנות לנו מוטיבציה להכנסה של מה שהוא אולי המושג המרכזי בהסתברות – המשתנה המקרי. הרעיון במשתנים מקריים הוא להוסיף לנו רמת אבסטרקציה "מעל" מרחב המדגם שמאפשרת לנו לשאול בנוחות שאלות יותר כלליות מאשר "מה הייתה תוצאת ההגרלה?". הדרך הפשוטה ביותר להסביר זאת היא באמצעות דוגמת הרולטה: בהימור רולטה מרחב המדגם שלנו הוא פשוט יחסית – יש 38 (או 37, תלוי ברולטה) תוצאות אפשריות, וכולן (תיאורטית) שוות הסתברות. לעומת זאת, הסכום שבו אני זוכה (או מפסיד) בסיבוב של הימור הוא כבר מספר שונה לגמרי, שמחושב בצורה מתוחכמת למדי מתוך תוצאת הרולטה (ותלוי, כמובן, גם באופן שבו אני מהמר). לא אכנס כאן לחוקי הזכייה המדוייקים כי אני בכלל לא יודע אותם; אבל לצורך פשטות אפשר להניח משהו מפגר כזה – שאם התקבל ברולטה מספר זוגי אני זוכה ב-5 ש"ח, ואם התקבל מספר אי זוגי אני מפסיד 5 ש"ח.

כעת אפשר למדל את הסיטואציה באופן הסתברותי על ידי שינוי של מרחב המדגם – במקום לדבר על מרחב המדגם של הרולטה נדבר על מרחב מדגם פשוט יותר, שאבריו הם הזכיות האפשריות שלי, ו-\(5\) הוא בעל הסתברות חצי בו, וגם \(-5\) הוא בעל הסתברות חצי בו, וחסל; אלא ששיטת עבודה שכזו, של שינוי מרחב המדגם, היא מסורבלת למדי באופן כללי, ובעייתית מאוד אם אנחנו רוצים לשאול שאלות מורכבות יותר – למשל, "בהינתן שבהטלת שתי קוביות סכום ערכי הקוביות הוא זוגי, מה ההסתברות שגם מכפלתן זוגית?". לכן משתלם להוסיף למשחק את המושג הפשוט של משתנה מקרי. פורמלית, משתנה מקרי הוא פשוט פונקציה ממרחב המדגם אל המספרים הממשיים (כמובן שאפשר גם יותר מכך אבל אני לא נכנס לזה פה), שמייצגת את ה"ערך" של כל תוצאה אפשרית. מסמנים משתנים מקריים לרוב באותיות לטיניות גדולות, ובפרט ב-\(X\). אפשר לחשוב על משתנה מקרי כאילו הוא מקבל ערכים באופן הבא: ראשית מבצעים את ההגרלה הבסיסית של מרחב המדגם, ולאחר מכן מחשבים את הפונקציה על תוצאת ההגרלה, וזהו ערכו של \(X\). לכן השאלה הבסיסית שאפשר לשאול על משתנה מקרי הוא "באיזו הסתברות אתה מקבל את הערך הזה והזה?". אנחנו נסמן \(\mbox{P}\left(X=a\right)\) בתור ההסתברות ש-\(X\) קיבל את הערך \(a\). זה כל הבסיס ההגדרתי שאנחנו צריכים כאן.

בואו ניקח דוגמה פשוטה. נניח שאנחנו מטילים שתי קוביות משחק רגילות, ומגדירים משתנה מקרי \(X\) בתור סכומן. מה ההסתברויות לערכים שונים ומשונים ש-\(X\) עשוי לקבל? ברור, למשל, ש-\(\mbox{\mbox{P}}\left(X=1\right)=0\) כי הסכום הוא בין 2 ל-12 (ולכן בעצם \(\mbox{P}\left(X=a\right)=0\) לכל \(a\) שאינו מספר טבעי בין 2 ל-12). כדי לדעת את ההסתברויות לערכים אחרים, כדאי לחשוב קצת על מרחב המדגם שלנו – הוא כולל את כל הזוגות מהצורה \(\left(a,b\right)\) כאשר \(a,b\) בין 1 ל-6. סך הכל ישנם \(6\cdot6=36\) זוגות אפשריים (עקרון הכפל הקומבינטורי). מכיוון שכל זוג הוא שווה-הסתברות, ההסתברות שלו הוא \(\frac{1}{36}\) (עקרון ה"הסתברות במרחב סופי היא אחד חלקי קומבי") ולכן כדי לדעת מה ההסתברות לקבל \(5\), למשל, צריך לספור את כל הזוגות שנותנים בדיוק 5. זוגות אלו הם \(\left(1,4\right),\left(2,3\right),\left(3,2\right)\left(4,1\right)\); שימו לב שיש חשיבות לסדר ו-\(\left(1,4\right)\) ו-\(\left(4,1\right)\) הם זוגות שונים (כי הראשון אומר "בהטלה הראשונה קיבלנו 1 ובשנייה 4" והשני אומר "בהטלה הראשונה קיבלנו 4 ובשנייה 1"). לכן ההסתברות לקבל 5 היא \(\frac{4}{36}=\frac{1}{9}\). את אותו חישוב אפשר לעשות לכל מספר; לא קשה לראות שההסתברות הגדולה ביותר היא לקבל 7, והיא \(\frac{6}{36}=\frac{1}{6}\) ואת ההסתברות הנמוכה ביותר חולקים 2 ו-12, עם הסתברות של \(\frac{1}{36}\). בקיצור, המשתנה האקראי הזה מקבל ערכים בהסתברויות מאוד לא אחידות, למרות שמרחב המדגם המקורי היה מאוד אחיד. אני רוצה להכניס כאן לשימוש מילה חדשה – התפלגות; התפלגות של משתנה מקרי היא בסך הכל שם מקוצר ל"הערכים שהמשתנה המקרי עשוי לקבל וההסתברויות שבהם הוא עשוי לקבל אותן". אז במקרה הזה אני יכול לומר שהתפלגותו של \(X\) היא מאוד לא אחידה.

הבה נעבור למשתנה מקרי מעניין יותר וחשוב הרבה יותר. נניח שאנחנו מטילים מטבע \(n\) פעמים, אבל לא מדובר על מטבע הוגנת בהכרח – ההסתברות שהיא תיפול על "עץ" היא בדיוק \(p\), כאשר \(0\le p\le1\). מה ההסתברות שהמטבע תיפול בדיוק \(k\) פעמים על עץ? כדי למדל את השאלה הזו אנו מגדירים משתנה מקרי \(X\) ש"סופר" את מספר ההטלות שבהן התקבל עץ בהטלה, והשאלה שלנו היא מהו \(\mbox{P}\left(X=k\right)\) לכל \(0\le k\le n\) טבעי (ברור שלערכים אחרים ההסתברות היא 0 – מדוע?)

מפתה לומר עכשיו משהו בסגנון "ההסתברות ש-\(X\) ייפול על עץ היא \(p\), אז מעקרון הכפל עולה שההסתברות שהוא ייפול על עץ בדיוק \(k\) פעמים היא \(p^{k}\)". זו חשיבה בכיוון הנכון, אבל היא שגויה כי היא מתעלמת מגורם נוסף – \(n\), שהוזכר בתנאי השאלה ומאוד לא סביר שלא ישפיע כלל על הפתרון (זו דרך חשיבה נכונה לחיים באופן כללי – אם פתרתם תרגיל מבלי להשתמש בכל הנתונים, זה מצריך חשיבה נוספת – אם כי, כמובן, לפעמים באמת לא צריך את כל הנתונים והעובדה שהתוצאה אינה תלויה בנתון מסויים שעל פניו נראה הכרחי היא יפה). העניין הוא בכך שאנחנו רוצים שהמטבע יפול על עץ בדיוק \(k\) פעמים; ב-\(n-k\) ההטלות הנותרות אנחנו רוצים לקבל פלי. ההסתברות לקבל פלי היא \(1-p\) (כי מקבלים או עץ או פלי, וסכום ההסתברויות לקבלת שניהם יחד צריך להיות 1), ולכן ההסתברות לקבל \(k\) פעמים עץ וביתר הפעמים פלי היא \(p^{k}\left(1-p\right)^{n-k}\). כדי לפשט טיפה את הסימון נהוג להגדיר \(q=1-p\) ואז אפשר לכתוב את ההסתברות הזו בתור \(p^{k}q^{n-k}\).

אבל רגע, גם זה לא נכון! כי שוב, התעלמנו כאן ממשהו. הדרך הטובה לראות זאת היא לבדוק מקרים פרטיים קטנים. נניח ש-\(n=2\) ו-\(k=1\) והמטבע הוגן, כלומר \(p=\frac{1}{2}\). אז הצבה בנוסחה נותנת לנו \(\left(\frac{1}{2}\right)^{1}\cdot\left(\frac{1}{2}\right)^{1}=\frac{1}{4}\), כלומר שההסתברות לקבל עץ באחת משתי הטלות היא רבע. אבל בואו נכתוב רגע את מרחב המדגם באופן מפורש, כש-1 הוא תוצאה של עץ ו-0 היא תוצאה של פלי: \(\left\{ \left(0,0\right),\left(1,0\right),\left(0,1\right),\left(1,1\right)\right\} \). קל לראות שבדיוק בשתיים מארבע התוצאות מקבלים פעם אחת עץ, כלומר ההסתברות צריכה להיות חצי. מה השתבש?

מה שקרה הוא שהתעלמנו מכך שעץ יכול להתקבל פעם אחת בכמה אופנים שונים. במקרה הפשוט שלנו, אפשר לקבל פעם אחת עץ בהטלה הראשונה (ואז בשניה יהיה פלי), או שאפשר לקבל עץ פעם אחת בהטלה השניה (ואז בראשונה יהיה פלי). זה לא בא לידי ביטוי בספירה שלנו. באופן כללי, התשובה \(p^{k}q^{n-k}\) איננה התשובה הנכונה לשאלה "מה ההסתברות שעץ יתקבל בדיוק \(k\) פעמים" אלא לשאלה "מה ההסתברות שעץ יתקבל בדיוק ב-\(k\) המקומות הספציפיים הבאים…". למשל, מה ההסתברות שעץ יתקבל בדיוק ב-\(k\) ההטלות הראשונות, או ב-\(k\) ההטלות האחרונות, וכדומה. לכל בחירה אפשרית של \(k\) מקומות שבהם יתקבל עץ, ההסתברות שדווקא הסיטואציה הזו תתקיים היא \(p^{k}q^{n-k}\); אבל יש הרבה בחירות אפשריות כאלו. כמה יש? ובכן, כשדיברנו על קומבינטוריקה כיסינו בדיוק את השאלה הזו – יש \({n \choose k}\) בחירות אפשריות שכאלו, ולכן \(\mbox{P}\left(X=k\right)={n \choose k}p^{k}q^{n-k}\). נראה מוכר? אכן, \({n \choose k}p^{k}q^{n-k}\) היה בדיוק האיבר הכללי בנוסחת הבינום של ניוטון; ולכן ההתפלגות של \(X\) שלנו מכונה "התפלגות בינומית". מכיוון שההתפלגות הבינומית תלויה בשני ערכים – מספר החזרות \(n\) וההסתברות להצלחה בכל חזרה \(p\), נהוג לכתוב \(X\sim\mbox{Bin}\left(n,p\right)\) (קרי: "\(X\) מתפלג בינומית עם פרמטרים \(n,p\)") כדי לתאר באופן מקוצר את ההתפלגות הזו.

בדיקת השפיות שיש לעשות לאחר חישוב התפלגות של משתנה מקרי כלשהי היא לסכום את הסתברות כל הערכים ש-\(X\) יכול לקבל ולוודא שקיבלנו 1. במקרה שלנו, פירוש הדבר הוא לבדוק שהסכום \(\sum_{k=0}^{n}{n \choose k}p^{k}q^{n-k}\) הוא 1. כאן נחלץ הבינום של ניוטון לעזרתנו – הסכום הזה שווה, על פי הבינום של ניוטון, ל-\(\left(p+q\right)^{n}\); אבל \(p+q=1\) ולכן הסכום אכן שווה ל-1, כנדרש. שימו לב שכאן אנחנו משתמשים בנוסחת הבינום בכיוון שהוא לכאורה ההפוך – במקום "לפתוח" את הסוגריים אנחנו דווקא מצמצמים סכום "אל תוך" הסוגריים. זה שימוש שיותר נדיר לראות כשאתה תיכוניסט ופותר תרגילים טכניים, אבל הוא כנראה יותר נפוץ בעולם המתמטי האמיתי.

בואו נעבור עכשיו לשאלה של תחילת הפוסט – מהו "הערך הממוצע" שמקבל משתנה מקרי. הערך הזה מכונה תוחלת, ונהוג לסמן אותו ב-\(\mbox{E}\left[X\right]\) (E מהמילה Expectation). כדי לראות איך מחשבים אותו, בואו ונתבונן בדוגמה פשוטה – שוב הטלת מטבע עם הסתברות \(p\) לקבלת עץ. נניח שכשיוצא עץ אנחנו מרוויחים 2 ש"ח, וכשיוצא פלי אנחנו מפסידים 3 ש"ח – עבור איזו הסתברות \(p\) נוכל בממוצע להרוויח? די ברור ש-\(p\) צריך להיות גדול מחצי כי המשחק אינו הוגן, אבל כמה?

בואו נניח שאנחנו משחקים \(n\) משחקים, ומתוכם ב-\(a\) משחקים קיבלנו עץ, וב-\(b\) משחקים קיבלנו פלי. אז הרווח הממוצע שלנו הוא \(\frac{2a-3b}{n}\) – זהו בעצם ממוצע משוקלל שבו המשקולת של התוצאה \(2\) היא מספר הפעמים הצפוי שהיא תצוץ בו, וכך עבור התוצאה \(-3\). את הממוצע המשוקלל הזה אפשר לכתוב גם כ-\(2\frac{a}{n}-3\frac{b}{n}\). ככל ש-\(n\) גדול יותר כך אנו מצפים שהערכים \(\frac{a}{n}\) ו-\(\frac{b}{n}\) ילכו ויתייצבו – אנו מצפים ש-\(\frac{a}{n}\) יישאף ל-\(p\) (ולכן ש-\(\frac{b}{n}\) יישאף ל-\(q\)). זהו כמובן נפנוף ידיים, אבל חשוב לזכור שאי אפשר להוכיח מתמטית את הטענה הזו, שהיא בסופו של דבר טענה אמפירית, ואפילו הגדרתית; הרי איך אנחנו מפרשים את "ההסתברות שהאירוע יקרה היא \(p\)" אם לא בתור "כשנחזור על אותו ניסוי מספר רב של פעמים הפרופורציה של הפעמים שבהן נקבל את התוצאה הזו תשאף ל-\(p\)"? (ובכן, כן, יש דרכים שונות לגשת לכך, אבל זה כבר עניין לפוסט נפרד).

אם כן, הרווח הממוצע שלנו שואף ל-\(p\cdot2+q\cdot\left(-3\right)\). ושוב, הדרך הנכונה לחשוב על כך היא כעל שקלול של הערכים האפשריים ש-\(X\) יכול לקבל, כשהמשקולת של כל ערך היא ההסתברות שנקבל אותו. אם נציב \(q=1-p\) נקבל \(\mbox{E}\left[X\right]=2p-3\left(1-p\right)=5p-3\), ולכן כאשר \(p=\frac{3}{5}\) התוחלת היא אפס (כלומר, אנחנו לא מצפים לא להרוויח ולא להפסיד מהמשחק בטווח הארוך) וכמובן שעבור ערכי \(p\) גדולים יותר היא תהיה חיובית.

באופן יותר כללי ופורמלי התוחלת מוגדרת כך: \(\mbox{E}\left[X\right]=\sum a\cdot\mbox{P}\left[X=a\right]\), כשהסכום נלקח על פני כל הערכים \(a\) שהמשתנה \(X\) בכלל יכול לקבל. אתם עשויים לשאול מה יקרה אם \(X\) יכול לקבל אינסוף ערכים שונים; במקרה זה אכן מקבלים סכום אינסופי וצריך לטפל בו בכלים המתאימים לסכומים אינסופיים – חומר שחורג ממה שנלמד בתיכון, אך הוא סטנדרטי למדי במתמטיקה אוניברסיטאית.

לעת עתה, הבה ונבצע חישוב שהוא סופי, אך גם כן אינו פשוט לגמרי – נניח כי \(X\sim\mbox{Bin}\left(n,p\right)\), מהי \(\mbox{E}\left[X\right]\)? הבה ונבצע את החישוב באופן ישיר, על פי ההגדרה: \(\mbox{E}\left[X\right]=\sum_{k=0}^{n}k\cdot{n \choose k}p^{k}q^{n-k}\). אוי ווי. מבט אחד בסכום ובא לבכות. איך בכל זאת מטפלים בסכומים כאלו? ובכן, יש תעלולים שמשתמשים בחשבון דיפרנציאלי בסיסי ומאפשרים לחשב אותו במדוייק, אך זה דורש פוסט משל עצמו ואני מעדיף לא להיכנס לכך כעת. במקום זאת אציג גישה שונה לגמרי לחישוב התוחלת, שתהפוך את פתרון השאלה הזו לטריוויאלי, ובתקווה תתחיל להמחיש עד כמה הדיבורים על משתנים מקריים מועילים לנו.

בואו נדבר לרגע על בעיה שלכאורה בלתי קשורה בעליל לבעיה שלנו – נניח שיש לנו מרחב הסתברות ומעליו אנו מגדירים שני משתנים מקריים שונים \(X,Y\) (למשל – \(X\) הוא סכום הערכים בהטלת שתי קוביות ו-\(Y\) הוא מכפלתם). כעת אנו מסוגלים להגדיר באמצעותם משתנים מקריים נוספים, למשל \(Z=X+Y\). האם ניתן לתאר את \(\mbox{E}\left[Z\right]\) באופן פשוט באמצעות \(\mbox{E}\left[X\right]\) ו-\(\mbox{E}\left[Y\right]\)? למשל, האם אפשר לקוות למשוואה יפה כמו \(\mbox{E}\left[Z\right]=\mbox{E}\left[X\right]+\mbox{E}\left[Y\right]\)? התשובה חיובית. למעשה, למרות שזה אולי לא נראה כך, זו תשובה מפתיעה למדי למי שכבר השתפשף קצת, שכן היא נכונה בלי קשר לשאלה האם יש תלות בין \(X,Y\) או אין. איכשהו אנחנו מצליחים לחשב את תוחלת \(Z\) על ידי הסתכלות על \(X\) ו-\(Y\) בנפרד, למרות שכל ערך ש-\(Z\) מקבל תלוי בתוצאה של שניהם יחד (עם זאת, לעתים התלות כן חשובה – למשל, \(\mbox{E}\left[XY\right]=\mbox{E}\left[X\right]\mbox{E}\left[Y\right]\) לא מתקיים תמיד, אבל כן מתקיים בודאות אם הם בלתי תלויים). ההוכחה של הטענה הזו אינה כה קשה אך היא דורשת הכנסת עוד מושג אחד לתמונה (התפלגות משותפת של משתנים מקריים) ולא אכנס לכך כעת.

כעת הבה ונסתכל על המשתנה הבינומי באופן קצת שונה. נגדיר משתנים \(X_{1},X_{2},\dots,X_{n}\) כך ש-\(X_{k}\) הוא המשתנה שמקבל 1 אם בהטלת המטבע ה-\(k\)-ית התקבל עץ, ו-0 אם התקבל פלי. למשתנה כזה, שמקבל או 0 או 1, קוראים "אינדיקטור", ואחד היתרונות שבו הוא שחישוב התוחלת שלו טריוויאלי: על פי הגדרה, \(\mbox{E}\left[X_{i}\right]=p\cdot1+q\cdot0=p\), כלומר התוחלת של אינדיקטור שווה להסתברות שהוא יקבל 1.

כעת, \(X=\sum_{k=0}^{n}X_{k}\) – לכל סדרת הטלות במרחב המדגם, מספר ההטלות שבהן התקבל עץ באותה סדרה שווה למספר האינדיקטורים שקיבלו 1 עבור סדרה זו. על פי נוסחת התוחלת שלמעלה (שניתנה עבור שני משתנים אבל נכונה באותה המידה גם עבור \(n\) או כל סכום סופי אחר של משתנים), החישוב הוא כעת טריוויאלי:

\(\mbox{E}\left[X\right]=\mbox{E}\left[\sum_{k=0}^{n}X_{k}\right]=\sum_{k=0}^{n}\mbox{E}\left[X_{k}\right]=\sum_{k=0}^{n}p=np\)

וזוהי אכן התוחלת של משתנה שמתפלג בינומית עם פרמטרים \(n,p\) – וגם אינטואיטיבית תוצאה זו די ברורה (אם למשל \(p=\frac{1}{2}\), אנחנו מצפים שבערך בחצי מההטלות נקבל עץ, כלומר ב-\(n\cdot\frac{1}{2}\)). עם זאת, ברור שהחישוב שנתתי כעת קל מהחישוב הטכני שהיינו צריכים לבצע אם היינו משתמשים ישירות בהגדרה. כמו שאוהבים לומר, מתמטיקאים הם עצלנים, ולכן התוצאות התיאורטיות שהם מוכיחים נועדות (לפעמים…) לעשות את החישובים המעצבנים לקלים יותר.

נו, תשאלו בעצבנות, אז מה עם הרולטה? בכמה בממוצע אני זוכה אם אני משחק ברולטה? ובכן, אין לי מושג – זה סתם חישובים טכניים מעצבנים. אבל אני יכול להבטיח לכם שבשורה התחתונה, אתם מפסידים. הקזינו לא טמבל.

בהינתן שאנחנו יודעים הסתברות בסיסית, כמה קל להבין הסתברות מותנית?

בפוסט הקודם התחלתי לדבר על הסתברות בסיסית והצגתי כמה רעיונות בסיסיים. אמרתי שאנחנו ממדלים סיטואציה הסתברותית עם מרחב הסתברות שכולל קבוצה \(X\) (מרחב המדגם) של כל התוצאות האפשריות של הסיטואציה ההסתברותית, כך שלכל \(a\in X\) (לכל תוצאה \(a\) אפשרית ששייכת לקבוצה \(X\)) מותאם גם מספר \(P\left(a\right)\) בין 0 ל-1 שאומר מה ההסתברות של התוצאה הזו, וסכום ההסתברויות של כולם הוא 1. כמו כן אמרתי שמה שמעניין אותנו בדרך כלל הוא מאורעות, שהם תת-קבוצות של \(X\) (מסמנים זאת \(A\subseteq X\)) ומהווים אוסף של כמה תוצאות אפשריות בעלות משמעות "דומה". למשל, בהטלת קוביה התוצאות הבסיסיות הן \(1,2,3,4,5,6\) ואילו מאורעות אפשריים הם "הקוביה נפלה על מספר זוגי", "הקוביה נפלה על מספר גדול מ-4", "הקוביה נפלה על 2, או על 3, או על 5"וכדומה. ההסתברות של מאורע, שסימנתי \(P\left(A\right)\), הייתה פשוט סכום ההסתברויות של איבריו.

בואו נעבור עכשיו לשאלה יותר מורכבת: "בהינתן שידוע שהקוביה נפלה על מספר זוגי, מה ההסתברות שהיא נפלה על 2?". איך מתמודדים עם שאלה שכזו?

האינטואיציה היא בערך כך: אם נפלתי על מספר זוגית אז ההסתברות שנפלתי על 1,3,5 היא אפס – הם יצאו מהמשחק. כלומר, נפלתי או על 2, או על 4, או על 6. מכיוון שקודם ההסתברות שלי ליפול על כל אחד מהם הייתה זהה, והמידע החדש לא מסייע לי להבדיל ביניהם, גם עכשיו ההסתברות שלי ליפול על כל אחד מהם היא זהה, ומכיוון שסכומם צריך להיות 1, ההסתברות של כל אחד מהם היא \(\frac{1}{3}\). לכן ההסתברות של 2 היא \(\frac{1}{3}\) וזו התשובה. אכן, אם תעשו סימולציה ממוחשבת של הטלת קובייה ותבדקו באיזה אחוז מהמקרים מקבלים 2 אם בהטלת הקוביה התקבל מספר זוגי (ואחרת פשוט מתעלמים מהטלת הקוביה הזו), תקבלו בערך \(\frac{1}{3}\). אז איך אפשר להצדיק את הקסם הזה פורמלית ולטפל בסיטואציות יותר מורכבות?

הרעיון הבסיסי של הסתברות מותנית הוא שינוי מרחב ההסתברות שלנו. אם יש לנו מרחב מדגם \(X\) ומאורע \(B\) ואומרים לנו שהמאורע \(B\) התרחש, זה אומר שאפשר לשכוח מהקבוצה \(X\) המקורית ולהגדיר מרחב הסתברות חדש שבו מרחב המדגם הוא \(B\). יש "לתקן" את ההסתברויות בהתאם, כדי שסכום ההסתברויות של התוצאות שנמצאות ב-\(B\) יהיה 1; לפעולה הזו קוראים נורמליזציה והיא נפוצה למדי במתמטיקה. מה שעושים הוא פשוט לחשב את סכום כל התוצאות שב-\(B\) (שהוא פשוט \(P\left(B\right)\)) ואז לחלק את ההסתברות של כל איבר ב-\(B\) במספר זה. כעת ברור שסכום כל ההסתברויות החדשות של אברי \(B\) יסתכם ל-1. אם נסמן ב-\(P^{\prime}\) את ההסתברות החדשה שנתנו לכל איבר של \(B\) אז \(P^{\prime}\left(a\right)=\frac{P\left(a\right)}{P\left(B\right)}\) לכל \(a\in B\), ועל כן

\(\sum_{a\in B}P^{\prime}\left(a\right)=\sum_{a\in B}\frac{P\left(a\right)}{P\left(B\right)}=\frac{1}{P\left(B\right)}\sum_{a\in B}P\left(a\right)=\frac{P\left(B\right)}{P\left(B\right)}=1\)

כך שפורמלית השגנו את המטרה שלנו.

מהדבר הזה נובעת נוסחה פשוטה יחסית: אם \(A,B\subseteq X\) הם מאורעות כלשהם במרחב המדגם המקורי, ואנחנו רוצים לדעת מה ההסתברות ש-\(A\) יתקיים אם ידוע ש-\(B\) התקיים, אז מפתה לכתוב שהסתברות זו היא \(\frac{P\left(A\right)}{P\left(B\right)}\). לרוע המזל, זה לא נכון כי ייתכן שחלק מאברי \(A\) בכלל לא נמצאים ב-\(B\). אם \(A=X\) עצמו, אז נקבל את התוצאה הלא הגיונית שההסתברות שהקוביה תיפול על משהו (שהיא כמובן 1) הופכת פתאום ל-\(\frac{1}{3}\) כשאנחנו יודעים שהתקבל מספר זוגי. לכן צריך לתקן קצת את הנוסחה – מה שבמונה צריך להתייחס רק לאיברים של \(A\) שהם גם איברים של \(B\). מסמנים את קבוצת האיברים המשותפים של \(A,B\) כ-\(A\cap B\) (החיתוך של \(A\) ו-\(B\)), ולכן הנוסחה הנכונה היא \(\frac{P\left(A\cap B\right)}{P\left(B\right)}\). לצורך פשטות נהוג לסמן זאת כ-\(P\left(A|B\right)=\frac{P\left(A\cap B\right)}{P\left(B\right)}\) (כלומר, \(P\left(A|B\right)\) הוא ההסתברות של "\(A\) בהינתן \(B\)"). אגב, שימו לב שאם \(P\left(B\right)=0\) הנוסחה אינה חוקית כי קיבלתי חלוקה באפס; ואכן, אין ממש הגיון בלשאול מה ההסתברות ש-\(A\) יתרחש אם נתון שהתרחש \(B\) למרות של-\(B\) אין שום סיכוי לקרות.

דרך אחרת ונחמדה לכתוב את הנוסחה הזו היא \(P\left(B\right)\cdot P\left(A|B\right)=P\left(A\cap B\right)\). כלומר, ההסתברות שגם \(A\) וגם \(B\) יתרחשו ניתנת לחישוב כתהליך דו שלבי – קודם מחשבים מה ההסתברות ש-\(B\) יתקיים, ואז מחשבים מה ההסתברות ש-\(A\) יתקיים בהינתן ש-\(B\) מתקיים. לעתים קרובות חישוב מותנה שכזה קל לביצוע באופן ישיר ואז אופן החישוב הזה חוסך לנו עבודה. עוד דבר שנראה בבירור בנוסחה הזו הוא הסימטריה שלה – באותו האופן בדיוק אני יכול לכתוב \(P\left(A\right)\cdot P\left(B|A\right)=P\left(A\cap B\right)\), ואז לקבל את השוויון \(P\left(B\right)\cdot P\left(A|B\right)=P\left(A\right)\cdot P\left(B|A\right)\). על ידי העברת אגפים קלה מקבלים את הנוסחה הבאה, שהיא חשובה ביותר:

\(P\left(A|B\right)=\frac{P\left(A\right)}{P\left(B\right)}P\left(B|A\right)\)

הנוסחה הזו מכונה "נוסחת בייס", והיא מאפשרת לנו לחשב הסתברות מותנית שנדמית "הפוכה" בעזרת הכרה של ההסתברות של שני המאורעות בנפרד ושל ההסתברות המותנית "ההגיונית". כאן המקום לזרוק לפח את דוגמת הקוביה ולעבור לתאר סיטואציות יותר מעניינות שבהן ה"מוזרות" שבנוסחת בייס בולטת הרבה יותר. עיקר החוכמה היא בבחירה של מאורעות \(A,B\) כך שכלל לא נראה ש-\(B\) גורר את \(A\) בצורה כלשהי, אלא ההפך. יוסי לוי השתמש בבלוג שלו בדוגמה של בדיקת סמים לספורטאי; אצלו \(A\) היה "השחקן משתמש בסמים" ו-\(B\) היה "בבדיקה התגלו סמים". כאן נראה ש-\(A\) הוא זה שמשפיע על \(B\) ולא להפך – אם יודעים משהו על איכות בדיקת הסמים אפשר לחשוב באופן ישיר מה ההסתברות שהיא תצליח בהינתן שהשחקן באמת משתמש בסמים – אך איך אפשר להסיק מכך את ההפך? בניסוח קצת חרטטני – אם הסתברות מותנית נראית לנו במבט ראשון ככלי שבו אנחנו מסיקים מידע לגבי ההשפעה של העבר על העתיד ("השחקן השתמש בסמים וכתוצאה מכך הוא נכשל בבדיקה"), נוסחת בייס מראה לנו שגם ניתן להסיק מהעתיד על העבר.

דוגמאות סטנדרטיות לתיאור נוסחת בייס מדברות למשל על בדיקת מחלות וסמים וכדומה. אנסה לתת דוגמה קצת פחות קודרת, שמבוססת על סיפור אמיתי. במקצוע קשה מסויים בטכניון מרבית הסטודנטים כשלו וקיבלו ציונים נמוכים. לכעסם הרב התברר להם שלא היה פקטור בבחינה (הגדלה מלאכותית של הציונים שמיועדת לתקן את הממוצע או לפצות על מבחן קשה). כשהסטודנטים באו להתלונן למרצה הוא לא הבין על מה הם מדברים וטען שהמבחן היה קל – עובדה, היה סטודנט שקיבל 103, ואם הוא הצליח, כל אחד יכול.

הסטודנטים הזועמים רוצים לדעת מי דפק להם את הפקטור. ליתר דיוק, האם הוא עתודאי או לא (העתודאים הם דופקי פקטורים ידועים לשמצה ובשל כך – בין היתר – נחשבים למעמד התחתון בהיררכיית המזון האוניברסיטאית). איזה חישוב עליהם לעשות? ובכן, \(A\) יהיה המאורע "הסטודנט הוא עתודאי" ו-\(B\) יהיה המאורע "הסטודנט קיבל 103 במבחן הבלתי אפשרי", ואנחנו רוצים לדעת מהו \(P\left(A|B\right)\). שימו לב שכדי לדעת זאת אנחנו צריכים לדעת שלושה פרטים: \(P\left(A\right)\), שהוא ההסתברות לכך שסטודנט יהיה עתודאי; \(P\left(B\right)\) שהוא ההסתברות שסטודנט כלשהו יקבל 103 במבחן הבלתי אפשרי; ו-\(P\left(B|A\right)\), שהיא ההסתברות שעתודאי יקבל 103 במבחן הבלתי אפשרי. מכיוון שלא מדובר בבעיה מתמטית מופשטת ברור שאין לנו דרך אמיתית לקבל את הנתונים הללו, אבל אפשר להעריך אותם סטטיסטית.

ובכן, נניח שמספר הסטודנטים הכולל בטכניון הוא 10,000 ומתוכם יש 50 עתודאים. אז מה ההסתברות שסטודנט אקראי יהיה עתודאי? \(P\left(A\right)=\frac{50}{10000}=\frac{1}{200}\).

הנתון לגבי ההסתברות לקבל 103 במבחן הבלתי אפשרי הוא הרבה יותר קשה לחילוץ, שהרי המבחן הזה ניתן רק פעם אחת, ועל קבוצה יחסית קטנה של סטודנטים. אבל כאמור, אנחנו לא רציניים כאן לגמרי. אז בואו נסתכל על מה שקורה "בדרך כלל" במבחנים קשים ונעשה מיצוע לאורך זמן. נניח שהתוצאה מראה לנו שבדרך כלל סטודנט אחד ממאה מצליח לקבל ציון שכזה – כלומר, ההסתברות לסטודנט גנרי כלשהו לקבל 103 במבחן הבלתי אפשרי היא \(P\left(B\right)=\frac{1}{100}\).

ועכשיו, מה ההסתברות של עתודאי לקבל 103 במבחן הבלתי אפשרי? מכיוון שעתודאים הם צורת חיים חדשה ומתקדמת אפשר להניח שההסתברות שלהם להצליח היא לא פחות מ-\(P\left(B|A\right)=\frac{99}{100}\). עכשיו בואו ונדחוף את כל הנתונים לנוסחה ונראה מה נקבל: \(P\left(A|B\right)=\frac{P\left(A\right)}{P\left(B\right)}P\left(B|A\right)=\frac{1/200}{1/100}\frac{99}{100}=\frac{100}{200}\frac{99}{100}=\frac{99}{200}\). כלומר, קיבלנו הסתברות של כמעט חמישים אחוז. מצד אחד, זה הרבה. מצד שני, אולי זה לא הרבה כפי שציפינו. תחשבו על הפער האדיר הזה: אם ניקח סטודנט מהרחוב, ההסתברות שלו לקבל 103 במבחן היא אפסית – \(\frac{1}{100}\). מצד שני, לעתודאי ההבטחה כמעט מוצלחת – \(\frac{99}{100}\). ועם זאת, ההסתברות שמי שקלקל את המבחן היה סתם סטודנט ולא עתודאי היא הגדולה יותר. למה זה קרה? בגלל הנתון (הלא ריאליסטי, המהונדס לצרכי השאלה – אבל כך גם ה-\(\frac{99}{100}\) של העתודאי להצליח במבחן) שרק אחד מכל מאתיים סטודנטים הוא עתודאי.

במאמר ב-Ynet מראה ישראל בנימיני עד כמה התופעה הזו יכולה להיות מבלבלת, בהקשר העגום של בדיקת מחלות. אציג את מה שהמאמר הציג בצורה קצת מפושטת ובנוסף אשתיל פנימה טעות מזעזעת (שאתייחס אליה אחר כך) ונראה אם תגלו מהי. ובכן, נניח שיש לנו בדיקה מעולה לגילוי מחלה מסויימת, שעל 100 אחוז מהאנשים החולים מחזירה תוצאה חיובית, ורק על אחוז אחד מהאנשים הבריאים מחזירה תוצאה חיובית. כמו כן ידוע לנו ששיעור המחלה באוכלוסיה הוא אחד מאלף אנשים. אם נסמן ב-\(A\) את "האדם חולה" וב-\(B\) את "תוצאת הבדיקה חיובית", הרי ש-\(P\left(B|A\right)=1\), \(P\left(A\right)=\frac{1}{1000}\) ו-\(P\left(B\right)=\frac{1}{100}\). נוסחת בייס נותנת לנו כאן מייד ש-\(P\left(A|B\right)=\frac{1}{10}\), תוצאה שנראית מפתיעה ביותר ממבט ראשון – למרות שהבדיקה כל כך טובה ומדוייקת (לכאורה…), רק עשרה אחוז מהאנשים שמקבלים תשובה חיובית אכן חולים במחלה! זו אחת מהנקודות שחשוב לזכור גם בחיי היום יום שלנו: גם אם מבחן נראה לנו טוב במדד של "ההסתברות שהוא טועה היא נמוכה" זה עדיין לא אומר שהוא טוב גם במובן שחשוב לנו באמת, של "כשמפעילים את המבחן שוב ושוב, כמעט ולא יהיו טעויות". כך הדבר בבדיקת מחלות, או בבדיקה האם הודעות הן דואר זבל, או בבדיקה האם מוצר שיצא מקו ייצור הוא פגום, וכדומה. נוסחת בייס היא השיעור הראשון בסקפטיות שיש ללמוד כשבאים להתייחס לתוצאות סטטיסטיות.

הבה נביא עוד דוגמה אחת (אולי קצת יותר קשה למי שחסר נסיון במתמטיקה, אז לא להתייאש אם לא מבינים) – דיברתי בעבר על מבחן מילר-רבין לבדיקת ראשוניות. זהו מבחן הסתברותי, במובן זה שאם מפעילים אותו על מספר ראשוני הוא תמיד יענה נכון, אבל אם מפעילים אותו על מספר שאינו ראשוני יש סיכוי כלשהו שהוא יטען שהמספר כן ראשוני (מה שעשוי להביא לתוצאות הרסניות). הכוח של מילר-רבין הוא בכך שאפשר לצמצם את גודל השגיאה שלו כרצוננו, במחיר כמה הפעלות נוספות שלו, אבל נשאלת השאלה – כמה זה "מספיק"? המבחן משמש אותנו כשאנחנו רוצים להגריל מספר ראשוני; דרך העבודה הסטנדרטית היא להגריל מספר גדול כלשהו, ואז להפעיל עליו את מילר-רבין. צריך לשפוט את הביטחון שמילר-רבין מספק לנו לאור התהליך הזה, ונוסחת בייס היא בדיוק הכלי שבו צריך להשתמש כאן (רק אעיר שאני משקר – בהגרלת ראשוני "אמיתית"ההגרלה לרוב מבוצעת רק על תת-קבוצה מסויימת של מספרים – למשל, אף פעם לא מגרילים זוגיים – וטרם הפעלת מילר-רבין מפעילים עוד מבחנים יותר פשוטים, כך שאני מציג כאן גרסה מפושטת למדי של המציאות).

ובכן, נסמן ב-\(A\) את "המספר ראשוני" וב-\(B\) את "המספר עבר בהצלחה את המבחן". ברור כי \(P\left(B|A\right)=1\). נניח שאנחנו מגרילים מספרים בתחום שבין \(1\) ו-\(n\), אז משפט המספרים הראשוניים מראה כי ההסתברות שלנו לפגוע בראשוני היא \(\frac{1}{\ln n}\). במילים אחרות, \(P\left(A\right)=\frac{1}{\ln n}\). הנעלם בכל הסיפור הזה הוא ההסתברות של מילר-רבין לטעות, ואותה אנחנו מסמנים ב-\(x\). אם כן, \(P\left(B\right)=x\) ו… רגע, רגע, רגע. אי אפשר לעשות את אותה הטעות פעמיים, חייבים כבר להתייחס אליה במפורש. קודם התחמקתי ממנה כדי לא לסבך את הפשטות של ההצגה עם איזו מהומה טכנית, אבל עכשיו אין מנוס מלהוציא את הפרטים המלוכלכים החוצה. \(P\left(B\right)\) אינו יכול להיות שווה ל-\(x\), כי \(x\) מייצג את ההסתברות שהמבחן יגיד "כן" רק על קלטים שהם לא ראשוניים, בעוד ש-\(P\left(B\right)\) מייצג את ההסתברות שהמבחן יגיד כן על קלט כלשהו! אז מה עושים? אין מנוס מלחשב את \(P\left(B\right)\) בצורה קצת יותר רצינית, פשוט על ידי חלוקה למקרים: אם המספר הוא ראשוני, אז ההסתברות שהמבחן יגיד "כן" היא 1; ואם המספר הוא פריק, אז ההסתברות שהמבחן יגיד "כן"היא \(x\). יש לנו כאן סכום של שתי הסתברויות מותנות שונות. אולי תזכרו שבפוסט הקודם אמרתי שאם \(A\) הוא מאורע אז מסמנים ב-\(\overline{A}\) את המאורע ה"משלים" לו וההסתברות שלו היא \(P\left(\overline{A}\right)=1-P\left(A\right)\)? זה בדיוק מה שנשתמש בו כעת. על פי התיאור שנתתי למעלה, \(P\left(B\right)=P\left(A\right)\cdot P\left(B|A\right)+P\left(\overline{A}\right)\cdot P\left(B|\overline{A}\right)\). הנוסחה הזו היא מקרה פרטי של מה שמכונה "נוסחת ההסתברות השלמה", ואתאר אותה במדוייק עוד מעט.

כעת נשתמש בנתונים שידועים לנו ונוכל לחשב בקלות את \(P\left(B\right)\): \(P\left(B\right)=\frac{1}{\ln n}\cdot1+\left(1-\frac{1}{\ln n}\right)\cdot x\). עכשיו נוכל להציב את הכל בנוסחת בייס ולקבל: \(P\left(A|B\right)=\frac{\frac{1}{\ln n}}{\frac{1}{\ln n}+\left(1-\frac{1}{\ln n}\right)x}=\frac{1}{1+\left(\ln n-1\right)x}\). באופן בלתי מפתיע גילינו שההסתברות תלויה גם ב-\(n\) וגם ב-\(x\). אם אנחנו רוצים הסתברות גבוהה להצלחה, אנחנו צריכים ש-\(x\) יהיה קטן דיו כדי לבטל את האפקט של \(\left(\ln n-1\right)\). למשל, אם אנחנו רוצים הצלחה ב-99 אחוז מהמקרים אנחנו רוצים שיתקיים \(\frac{1}{1+\left(\ln n-1\right)x}=\frac{99}{100}\), כלומר \(100=99+99\left(\ln n-1\right)x\), כלומר \(x=\frac{1}{99\left(\ln n-1\right)}\). באופן כללי כדי להשיג הצלחה ב-\(a\) אחוז מהמקרים צריך שיתקיים \(x=\frac{1}{a}\cdot\frac{1}{\ln n-1}\); אפשר לראות כאן היטב כיצד \(x\) מורכב משני מרכיבים – גם ה"קבוע"של \(\frac{1}{a}\) שתלוי רק באחוז ההצלחה שאנו שואפים אליו; אבל גם במידע נוסף של גודל התחום שעליו מתבצעת ההגרלה, שבא לידי ביטוי ב-\(\frac{1}{\ln n-1}\).

הבה נעבור כעת לדבר על נוסחת ההסתברות השלמה. בתחילת הפוסט אמרתי שלעתים קל יותר לחשב את ההסתברות המותנית של משהו מאשר את ההסתברות ה"אמיתית"שלנו וראינו את הדוגמה כרגע, עם חישוב ההסתברות שהמבחן יחזיר תשובה חיובית. הסיבה לכך הייתה שלעתים קרובות ההסתברות ניתנת לתיאור באופן הפשוט ביותר באמצעות חלוקה למקרים, ואז ניתן לטפל בכל מקרה בנפרד. נוסחת ההסתברות השלמה מאפשרת לנו לעשות זאת. נניח שאנחנו מחלקים את מרחב המדגם כולו (את כל \(X\)) לאוסף של מאורעות זרים (זרים פירושו שאין להם תוצאה משותפת) \(B_{1},B_{2},\dots,B_{k}\). אז ההסתברות של מאורע \(A\) כלשהו היא ההסתברות שהוא יתרחש בהינתן ש-\(B_{1}\) יתרחש, כפול ההסתברות ש-\(B_{1}\) יתרחש; ועוד ההסתברות שהוא יתרחש בהינתן ש-\(B_{2}\) יתרחש, כפול ההסתברות ש-\(B_{2}\) יתרחש; וכן הלאה. מכיוון שה-\(B\)-ים תופסים את כל מרחב המדגם, מובטח לנו שלא נפספס אף מקרה. בסיכומו של דבר הנוסחה היא \(P\left(A\right)=\sum_{i=1}^{k}P\left(A|B_{i}\right)P\left(B_{i}\right)\). על פניו היא נראית כמו דרך מסובכת יותר לכתוב את \(P\left(A\right)\), אך כאמור – לעתים קרובות הדרך הנוחה ביותר לחשב את \(P\left(A\right)\) היא על ידי חלוקה למקרים שמיוצגים על ידי ה-\(B_{i}\).

מה שאני עשיתי למעלה היה שימוש בנוסחת ההסתברות השלמה עבור חלוקה פשוטה למדי של מרחב המדגם, לשתי קבוצות שונות – \(B\) והמשלימה שלה. אך כמובן שאפשר לחלק גם ליותר. כתרגיל כדי לראות שהכל ברור תוכלו לנסות ולבדוק מה ההסתברות האמיתית שמי שקיבל תשובה חיובית בבדיקת המחלה שבדוגמה שלמעלה אכן חולה באמת (תגלו שהיא לא שונה במיוחד מהתוצאה שקיבלתי…).

מושג ההסתברות המותנית יכול לשמש אותנו גם להגדרת מושג נוסף שמתאים מאוד לתפיסה האינטואיטיבית שלנו – מאורעות בלתי תלויים. שני מאורעות \(A,B\) הם בלתי תלויים, אינטואיטיבית, אם הידיעה על כך שאחד התרחש לא משפיעה על ההערכה שלנו לגבי ההסתברות שהשני יתרחש. למשל, אם אני מטיל שתי קוביות ומקבל 3 בקוביה הראשונה, זה לא משפיע בכלל על ההסתברות שאקבל מספר זוגי בקוביה השניה, כך שהמאורע "בקוביה הראשונה התקבל 3" והמאורע" בקוביה השניה התקבל מספר זוגי" הם בלתי תלויים. פורמלית זה אומר שמתקיים \(P\left(A|B\right)=P\left(A\right)\) (ההסתברות ש-\(A\) יתקיים, בלי ידע נוסף בעניין, זהה להסתברות ש-\(A\) יתקיים אם ידוע לנו ש-\(B\) יתקיים). על פי הנוסחה שלנו של \(P\left(A|B\right)\) אפשר לראות ש-\(A,B\) הם בלתי תלויים אם ורק אם \(P\left(A\cap B\right)=P\left(A\right)P\left(B\right)\), כלומר אם ההסתברות ששניהם גם יחד יתקיימו היא בדיוק מכפלת ההסתברויות שכל אחד יתקיים בנפרד. למי שזוכר את עקרון הכפל בקומבינטוריקה, זה בדיוק העיקרון הזה, וזה גם ממחיש לנו מתי אי אפשר להשתמש בעקרון הכפל – בדיוק כשיש תלות כלשהי בין שני הדברים שאנו "סופרים".

דוגמה יפה לשימוש במושג זה באה מתחום הקריפטוגרפיה – קלוד שנון, אבי תורת האינפורמציה, עסק גם בשאלה איך ניתן לומר על שיטת הצפנה שהיא "מושלמת". הגדרתו היפה היא פשוטה: נניח שיש התפלגות כלשהי על כל הטקסטים שעשויים להיות מוצפנים באמצעות השיטה (וברור שיש כזו – למשל, התפלגות של כל הטקסטים באנגלית) ונסתכל על התפלגות התוצאות שמקבלים מהצפנות בעזרת השיטה. יהי \(X\) טקסט אפשרי אחד ו-\(Y\) תוצאת הצפנה אפשרית אחת – אז שיטת ההצפנה היא מושלמת אם לכל \(X,Y\) שכאלו מתקיים \(P\left(X|Y\right)=P\left(X\right)\), כלומר אם אנחנו מסתכלים רק על \(Y\), זה לא משפר את הידע שלנו שהטקסט המקורי היה \(X\) – ההסתברות שהטקסט המקורי היה \(X\) זהה בעינינו למה שידענו עליו גם קודם.

בלבול נפוץ אחד הוא בין מאורעות זרים ומאורעות בלתי תלויים. מכיוון שמאורעות זרים מקיימים \(A\cap B=\emptyset\) (קבוצה ריקה) אז \(P\left(A\cap B\right)=0\) ומכאן ש-\(P\left(A\right)=0\) או \(P\left(B\right)=0\) אם הם גם מאורעות בלתי תלויים. מכאן עולה ששני מאורעות בעלי הסתברות חיובית אינם יכולים להיות זרים אם הם בלתי תלויים. בדוגמת הטלת הקוביות שלי, התוצאה \(\left(3,2\right)\) ("בקוביה הראשונה התקבל 3 ובשניה 2") היא משותפת לשני המאורעות כך שברור שהם אינם זרים.

אם כן, לסיכום – הוספנו למשחק ההסתברותי מושג פשוט חדש, שהגדרתו המתמטית כמעט טריוויאלית, וקיבלנו כלי רב עוצמה שמשמש אותנו גם בחישובים אמיתיים ושופך אור פורמלי על מושגים אינטואיטיביים. המתמטיקה בשיא יופייה.

הסתברות בסיסית – אחד חלקי קומבינטוריקה

בפוסטים קודמים תיארתי כמה מושגי בסיס בקומבינטוריקה, וכעת אני רוצה להציג כמה שימושים שלהם; אלא שהמקום הטוב והמעניין ביותר לטעמי להצגת שימושים של המושגים הבסיסיים שהראיתי היא דווקא תורת ההסתברות – שהיא מה שנלמד כיום בבתי הספר, וגם מתקשרת חזק יותר לחיי היום יום שלנו. תורת ההסתברות היא זו שעונה על שאלות כגון "מה הסיכוי שלי לזכות בלוטו?" או "מה הסיכוי של פול התמנון להצליח ולנחש את תוצאות משחקי המונדיאל?" או "מה כדאי לעשות בבעיה של מונטי הול?" אבל, תשאלו, מה הקשר לקומבינטוריקה? ובכן, תורת ההסתברות המתמטית היא תורה רחבה ועשירה מאוד, שמתקשרת לתחומים רבים של המתמטיקה. הרבה מאוד תלוי בשאלה מה בדיוק ההגרלה שאנחנו מבצעים; הגרלות שונות נחקרות בכלים שונים. לא אכנס כרגע לעובי הקורה אלא רק אסתפק בלהגיד שאני הולך לדבר לעת עתה על הגרלות פשוטות מאוד יחסית, שעבורן הקשר לקומבינטוריקה ברור. הקשר הבסיסי הוא זה: אם יש לי קבוצה של \(n\) אובייקטים ואני בוחר אחד מהם באקראי (כשלכל איבר יש הסתברות שווה להיבחר), אז ההסתברות שלי להגריל אובייקט אחד ספציפי היא \(\frac{1}{n}\). אם יש 100 תוצאות אפשריות בלוטו, אז ההסתברות שלי לזכות בלוטו (בהינתן שמילאתי טופס יחיד) היא \(\frac{1}{100}\). באופן כללי כשיש לנו בעיה הסתברותית פשוטה שכזו, אנחנו משתמשים בקומבינטוריקה כדי למצוא כמה אובייקטים קיימים בסך הכל ("כמה תוצאות אפשריות יש בלוטו?") ואז ההסתברות שלנו לזכות היא אחד חלקי המספר שמצאנו.

אלא שכמובן, כמעט שום דבר לא פשוט עד כדי כך, ולכן אציג את תורת ההסתברות באופן שהוא בכל זאת מסודר יותר (אם כי אני מזהיר מראש – אני מחביא מתחת לשטיח פרטים מלוכלכים ומסתפק בהצגת גרסה פרטית – ומעניינת לכשעצמה – של תורת ההסתברות).

תורת ההסתברות מנסה למדל באופן מתמטי סיטואציות "אקראיות". כאן כבר מתחילה הבעיה, שכן אין דרך טובה (מבחינה מתמטית) להגדיר מה זה "אקראי". האם קיום אלוהים הוא אקראי? כלומר, האם ניתן להגיד "בהסתברות \(\frac{1}{3}\) אלוהים קיים"? ודאי שלא, הרי מדובר על משהו שהוא או נכון, או שאינו נכון, כלומר ההסתברות שלו היא 0 או 1. גם אמירה כמו "בהסתברות \(\frac{1}{2}\) ירד מחר גשם" היא בעייתית – אמנם, אנחנו עוד לא יודעים מה יקרה, אבל אנחנו יודעים שאו שירד גשם, או שלא; אם היינו מסוגלים לחזות את העתיד היינו יודעים בהסתברות 1 שלא יירד גשם מחר – ואז, מה ההגיון מאחורי אמירה כמו "בהסתברות \(\frac{1}{2}\) ירד גשם"? לכאורה עולה מכאן שההסתברות תלויה בנקודת המבט שלנו. איך אפשר למדל דבר שכזה?

הדרך האינטואיטיבית לחשוב על הסתברות, אם כן, היא אף פעם לא בתור הסתברות של אירוע בודד, אלא בתור נסיון לענות לשאלה "אם נחזור על אותו ניסוי שוב ושוב באותם תנאים, מה החלק היחסי של המקרים שבהם תתקבל תוצאה כזו וכזו?". אם מטילים קוביה שוב ושוב, אנחנו מצפים שנקבל את התוצאה \(1\) בערך ב-\(\frac{1}{6}\) מהמקרים – מכאן שההסתברות של תוצאה זו היא \(\frac{1}{6}\). אפשר לתאר זאת פורמלית, אבל אפילו זה לא נדרש מבחינה מתמטית – זוהי רק אינטואיציה.

ההגדרה הפורמלית היא של מושג שנקרא "מרחב הסתברות". מרחב הסתברות בא לתאר "ניסוי" שיכולות להיות לו כמה תוצאות שונות אפשריות; הוא כולל את "מרחב המדגם" שהוא קבוצת כל התוצאות האפשריות, ו"מידת הסתברות", שהיא ערך מספרי שמותאם לכל איבר במרחב המדגם. הדרישה היחידה היא שסכום ההסתברויות של כל התוצאות האפשריות יהיה בדיוק 1. כך למשל עבור הטלת קוביה מרחב המדגם הוא הקבוצה \(X=\left\{ 1,2,3,4,5,6\right\} \) (זהו סימון פשוט לקבוצה שאבריה הם המספרים מ-\(1\) עד \(6\)), וההסתברות היא \(p\left(a\right)=\frac{1}{6}\) לכל \(a\in X\). הנחה חשובה אחת שכן אציין במפורש היא שמרחב המדגם \(X\) שלנו הוא סופי; יש רק מספר סופי של תוצאות אפשריות לניסוי. זו דרישה מאוד מגבילה, והסיבה שאני מציין אותה כאן היא שברגע שבו מתירים מרחב מדגם אינסופי התורה מסתבכת פי כמה וכמה. על הסיבוך שמתקבל כשמתירים קבוצה אינסופית "קטנה" (מה שמכונה "קבוצה בת מניה"בניסוח מתמטי יותר מדוייק – קבוצה שאפשר למספר את אבריה ב-\(1,2,3,\dots\) וכן הלאה) אני עוד אוכל לדבר ואעשה זאת בהמשך; אבל הסיבוך שמתקבל ברגע שמרחב המדגם הוא קבוצה אינסופית "גדולה" (למשל, קבוצת כל המספרים הממשיים, שניתן להוכיח שאינה בת מניה) כבר לא אדבר כלל כי התורה הופכת להרבה יותר מורכבת (והרבה יותר מעניינת) בשלב זה, ומפסיקה לחלוטין להיות חומר ברמה תיכונית.

ההסתברות של כל תוצאה במרחב המדגם לא חייבת להיות זהה. אין בעיה להגדיר מרחב מדגם שמייצג קוביה "מוטה": \(X=\left\{ 1,2,3,4,5,6\right\} \) אבל \(p\left(1\right)=\frac{1}{2},p\left(2\right)=\frac{1}{3},p\left(3\right)=\frac{1}{6},p\left(4\right)=p\left(5\right)=p\left(6\right)=0\). כאן ההסתברויות מאוד לא אחידות, והתוצאות 4,5,6 מיותרות לחלוטין – אין שום סיכוי שהן יצאו.

בינתיים כל זה לא נראה מעניין או מחכים במיוחד. זה בסך הכל פורמליזם מתמטי יבש; ואכן, ברמה הזו של המתמטיקה עיקר הקושי הוא בתרגום של בעיה מילולית לבעיה מתמטית עם מרחב מדגם מדוייק. הבה ונסתכל לרגע על הבעיה של מונטי הול – מה מרחב המדגם כאן? כזכור, במונטי הול אנחנו בוחרים דלת אחת מתוך שלוש, כשמאחורי אחת הדלתות רכב ומאחורי השתיים האחרות דחליל, ואז מונטי פותח דלת שלא בחרנו בה ויש מאחוריה דחליל ושואל אם אנחנו רוצים להחליף, ואנו מעוניינים לדעת איך ההסתברות שלנו לזכות תשתנה כתוצאה מכך.

אם כן, מהו מרחב המדגם? מה כאן ההגרלה בכלל? די ברור שהגרלה אחת היא של המיקום של המכונית מאחורי הדלתות – אנחנו מניחים (למרות ששימו לב – זה מעולם לא נאמר במפורש!) שההסתברות היא אחידה לכל אחת מהדלתות. באופן דומה אנחנו מניחים שהבחירה שלנו עצמנו בדלת היא הסתברותית ושלכל דלת אותה הסתברות. לכן אפשר לתאר כל תוצאה במרחב המדגם שלנו כזוג \(\left(a,b\right)\) כאשר \(a,b\) שניהם מספרים בין 1 ל-3, וההסתברות של כל תוצאה \(\left(a,b\right)\) שכזו היא בדיוק \(\frac{1}{9}\).

מהי ההסתברות שהניחוש הראשוני שלנו יהיה נכון ונפגע בדלת הנכונה? פורמלית זהו סכום ההסתברויות של כל התוצאות שבהן הניחוש שלנו זהה לדלת שהוגרלה. במילים אחרות, כל הזוגות \(\left(a,b\right)\) שבהם \(a=b\). דרך אחת לכתוב את הקבוצה הזו היא \(\left\{ \left(a,b\right)|a=b\right\} \) ("זוגות מהצורה \(\left(a,b\right)\) שמקיימים את הקריטריון \(a=b\)). דרך אחרת לכתוב את זה היא בתור \(\left\{ \left(a,a\right)|a=1,\dots,3\right\} \) ("זוגות מהצורה \(\left(a,a\right)\) כאשר \(a\) הוא מספר בין 1 ל-3"). שימו לב שבדרך ההצגה הראשונה בכלל לא טרחתי לציין ש-\(a,b\) הם מספרים בין 1 ל-3 אלא השארתי לקורא להבין את זה מההקשר; בדרך ההצגה השניה ציינתי זאת במפורש כי לא נעים לכתוב רק \(\left\{ \left(a,a\right)\right\} \) שנראה קצר מדי. אני מתעמק על הנקודה הזו כי כך קורה לעתים קרובות במתמטיקה – קבוצות מוגדרות באופנים "מקוצרים" שמשאירים לקורא חלק מההבנה של ההגדרה.

לקבוצה של תוצאות בסיסיות שכאלו קוראים מאורע. מה שאמרתי כרגע הוא שקבוצת הזוגות מהצורה \(\left(a,a\right)\) ניתנת לפרשנות מילולית בתור המאורע "הניחוש ההתחלתי שלנו היה נכון". חלק ניכר מהבעיה עם בעיות מילוליות בהסתברות היא לזהות איזה מאורע מתאים לתיאור מילולי מסויים – לעתים קרובות זה מבלבל הרבה יותר משזה נשמע במבט ראשון.

ההסתברות לכך שמאורע מסויים יתרחש היא בסך הכל סכום ההסתברויות של האיברים שלו. כאן ההסתברות של כל איבר במרחב המדגם היא \(\frac{1}{9}\) ובמאורע שדיברנו עליו יש שלושה איברים, ולכן ההסתברות של המאורע הזה היא \(\frac{1}{9}+\frac{1}{9}+\frac{1}{9}=\frac{1}{3}\), ועל כן זו ההסתברות שנקלע למטרה בנסיון הראשון. מכאן אפשר כבר להסיק את יתר הניתוח של מונטי הול – אם אנחנו מחליפים דלת תמיד, אז ההסתברות שנזכה שווה להסתברות שהניחוש הראשון שלנו יהיה שגוי; ואם ההסתברות לכך שהוא יהיה נכון היא \(\frac{1}{3}\), אז ההסתברות לכך שהוא יהיה שגוי היא \(1-\frac{1}{3}=\frac{2}{3}\) (כאן אנו מסתמכים על כך שסכום ההסתברויות של כל האיברים במרחב המדגם הוא \(1\), ולכן כדי לדעת את ההסתברות של המאורע "הניחוש הראשוני שלנו היה שגוי"מספיק לחסר מ-1 את ההסתברות של כל האיברים של מרחב המדגם שלא שייכים למאורע הזה. מבחינה מתמטית פורמלית מתארים את זה כך: אם מאורע מסומן ב-\(A\), אז ב-\(\overline{A}\) (או לפעמים \(A^{c}\)) מסמנים את המאורע המשלים שלו, של כל אברי מרחב המדגם שאינם ב-\(A\). ואז מתקיימת הנוסחה \(p\left(\overline{A}\right)=1-p\left(A\right)\).

נסכם אם כן את מה שאמרנו עד כה: בהסתברות מגדירים מרחב מדגם שהוא קבוצה \(X\) שמייצגת את התוצאות האפשריות של הגרלה כלשהי, כך שלכל \(a\in X\) מותאם מספר \(0\le p\left(a\right)\le1\) ומתקיים \(\sum_{a\in X}p\left(a\right)=1\) (סכום ההסתברויות של כל אברי \(X\) הוא 1). לתת קבוצות של \(X\), \(A\subseteq X\) קוראים "מאורעות" והסתברותן היא פשוט סכום ההסתברויות של אבריהן: \(p\left(A\right)=\sum_{a\in A}p\left(a\right)\). אפשר גם לדבר על המאורע ה"ריק" שלא מכיל שום איברים – מסמנים זאת בסימן הרגיל שבו מסמנים את הקבוצה הריקה, \(\emptyset\), ומן הסתם \(p\left(\emptyset\right)=0\). זו נקודת המוצא האקסיומטית שמאפשרת דיון מתמטי מדוייק במושגי הסתברות שונים ומשונים שאציג בהמשך. למרות שכל זה פשוט יחסית, האקסיומות הללו הוצעו רק במהלך המאה ה-20 (בעוד שחקר פחות פורמלי של הסתברות בוצע כבר מאות שנים לפני כן).

לסיום אני בכל זאת רוצה לחשוף קצת בעיני הקורא הסקרן את הסיבוך הנוסף שאני מסתיר מתחת לשטיח בדיון הנוכחי. אני מזהיר מראש שלחלק מהקוראים מה שאכתוב כעת עשוי להיות בלתי מובן לחלוטין.

נניח ש-\(X\) אינה קבוצה סופית אלא אינסופית; איך אפשר לדבר על סכום איבריה? הקריטריון \(\sum_{a\in X}p\left(a\right)=1\) נהיה בעייתי לניסוח. כל עוד \(X\) היא בת מניה המצב לא גרוע כל כך כי יש לנו מושג קיים של סכום בן מניה של איברים. אבל אם \(X\) היא לא בת מניה (למשל, \(X=\mathbb{R}\)) כל התורה הזו הולכת לפח; לא קשה להראות שכדי שיתקיים \(\sum_{a\in X}p\left(a\right)=1\) אז בהכרח רק מספר בן מניה של איברים \(a\in X\) יכול לקיים \(p\left(a\right)>0\). כלומר, צריך לזרוק את ההגדרות שאיתן עבדתי עד כה ולהמציא משהו מחוכם יותר. הפתרון הוא לא להגדיר את \(p\) לכל איבר ב-\(X\) בנפרד, אלא להגדיר את \(p\) מראש על תת קבוצות של \(X\); כלומר, להגדיר את \(p\) על מאורעות, ולא סתם על איברים בודדים. למעשה, בהכרח יתקיים שלמרביתם המוחצת של המאורעות שכוללים רק איבר אחד, ההסתברות תהיה 0; זה לא אומר שהאיבר הזה לעולם לא יכול להיבחר, אלא "כמעט אף פעם לא" ייבחר.

כמובן שאי אפשר להגדיר את \(p\) באופן שרירותי אלא נדרש הגיון מסויים (למשל, שאם מאורע אחד מכיל מאורע אחר, הסתברותו תהיה גדולה יותר). לפונקציה שמקיימת את ההגיון הזה קוראים "פונקצית מידה" והיא מופיעה במתמטיקה בהקשרים רבים, לא רק של תורת ההסתברות. אחת מהתוצאות הבסיסיות של תורת המידה (שכבר תיארתי בעבר) היא שלא ניתן להגדיר פונקצית מידה "מוצלחת" על כל אברי הישר הממשי. גם בתורת ההסתברות יש בעיה דומה – לרוב לא ניתן להגדיר הסתברות באופן מוצלח על כל תת הקבוצות של \(X\), ולכן בהגדרת מרחב ההסתברות מציינים מראש במפורש מהן הקבוצות שעליהן כן מוגדרת מידה – אוסף קבוצות זה נקרא "מרחב המאורעות" של המרחב ההסתברותי והוא חלק בלתי נפרד מההגדרה. במקרה של \(X\) הסופי שעליו דיברתי בפוסט הזה כל הקושי הזה נעלם כי כל תת קבוצה של \(X\) ניתנת למדידה באופן שהצגתי (\(p\left(A\right)=\sum_{a\in A}p\left(a\right)\)) ולכן לא נכנסתי לכל הפרטים הללו.

בפוסט הבא בנושא אעבור להראות איך כבר מההגדרות הבסיסיות ניתן לקבל תוצאות מעניינות רעיונית – בפרט, אני הולך לדבר על הסתברות מותנית.