מראה מראה שעל הקיר, למה את מבדילה בין ציר וציר?

הכירו את ונוס החתולה (אמיתית לגמרי, זה לא פוטושופ):

venus

כמו הלהיט הנוכחי Tard the Grumpy Cat (גגלו!) כך גם ונוס הפכה ללהיט אינטרנט אדיר אפילו ביחס לחתולה (חתולים הם שליטי האינטרנט הבלתי מעורערים) בשל הפנים המחולקות באופן מושלם שלה: צד ימין שלהן שחור, וצד שמאל כתום. בהתחלה רציתי לעשות את הפוסט הנוכחי עם דו-פרצוף של באטמן; אחרי מבט במספר תמונות הגעתי למסקנה שחתולה מגניבה עדיפה על הזוועה הדו-פרצופית הקומיקסית. אבל לאיזו מטרה גייסתי את ונוס?

ובכן, נניח שונוס תתבונן במראה. הנה התמונה שהיא תראה:

venus_flipped

כלומר, ונוס תראה במראה חתולה שונה מהונוס שאנחנו מכירים; היא תראה חתולה שצד שמאל של פניה שחור, ואילו צד ימין הוא הכתום. עד כאן אין שום דבר מוזר בעניין – כולנו כנראה נתקלנו אי-אז במראה ולמדנו על התופעה שבה היא הופכת דברים. אבל הנה שאלה שייתכן שחלקכם לא נתקלו בה עד כה: למה המראה הופכת את צד ימין ושמאל של ונוס, אבל לא הופכת אותה גם למעלה-למטה? במילים אחרות, למה התמונה של ונוס היא לא כזו?

venus_double_flipped

יש כאן חוסר סימטריה מוזר בין ימין-שמאל ולמעלה-למטה. הוא בא לידי ביטוי, למשל, באופן שבו יצרתי את התמונה של "ונוס בראי" – בעורך התמונות שלי בחרתי באופציה "Flip horizontally", הפעלתי אותה, וחסל. למה האופציה של "Flip vertically" לא נדרשה כאן? איך הראי יודע "להבדיל" בין ימין-שמאל ובין למעלה-למטה?

התשובה הקצרה היא: המראה לא יודעת לבצע שום הבדלה שכזו, והתחושה שלנו שהמראה מבצעת הבדלה היא שגויה, ונובעת מכך שאפשר לחשוב על מה שהמראה עושה בשלוש דרכים שונות (לפחות): אחת שנותנת "עדיפות" להיפוך מאוזן; אחת שנותנת "עדיפות" להיפוך מאונך, ואחת – שהיא כנראה הדרך הנכונה לחשוב על מה שהמראה מבצעת – שנותנת עדיפות להיפוך בציר השלישי ששמו טרם הוזכר כאן.

מכיוון שזה בלוג מתמטי, אני מתכוון בסופו של דבר להכניס לתמונה נוסחאות ומשוואות ולהוכיח בצורה מדויקת שאכן אין כאן שום בעיה, אבל לפני כן אני רוצה לתת הסבר מילולי לא מדויק לתופעה הזו.

ראשית כל, המושג המרכזי בפוסט הזה הולך להיות שיקוף. שיקוף הוא תמיד ביחס לציר מסוים, אז בואו ניזכר איך נראית מערכת צירים:

axis

ציר ה-\(x\) הוא הציר האופקי, וציר ה-\(y\) הוא הציר האנכי. שיקוף ביחס לציר פירושו לקחת כל נקודה בצד אחד של הציר, למתוח קו מאונך ממנה אל הציר, להמשיך אותו מצדו השני של הציר באותו אורך, ואז להחליף בין שתי נקודות הקצה. זה נראה כך:

reflection

מה שקראתי לו קודם "היפוך מאוזן" הוא בעצם דרך אחרת לומר "שיקוף של התמונה ביחס לציר \(y\) כאשר התמונה משמאל לציר והוא נוגע בקצה הימני שלה". ככה זה נראה (הציר הוא הקו השחור באמצע):

venus-hor-ref

שימו לב שאפשר גם את האפשרות האחרת, "שיקוף של התמונה ביחס לציר \(y\) כאשר התמונה מימין לציר והוא נוגע בקצה השמאלי שלה":

venus-hor-ref2

אפשר היה גם לשקף ביחס לציר \(y\) שעובר באמצע התמונה ואז במקום לקבל שני עותקים היינו פשוט מקבלים את התמונה במהופך.

בשלב הזה אני מקווה שאתם כבר מתחילים לקבל תחושה שמה שקורה במראה הוא לא בדיוק שיקוף ביחס לציר \(y\), למרות שכך יצרתי את התמונה של "מה ונוס רואה במראה". הסיבה לכך היא ששיקוף ביחס לציר \(y\) היה אמור ליצור את הדמות שבמראה ליד ונוס עצמה, ולא מול ונוס. אבל כשאני מדבר על "מול" אני מכניס לתמונה את השחקן שעד כה לא דיברתי עליו – המימד השלישי, ציר \(z\).

3d_axis

אם ציר \(x\) הוא "ימינה/שמאלה" וציר \(y\) הוא "למעלה/למטה" אז ציר \(z\) הוא "קדימה/אחורה". בתלת מימד שיקופים הם כבר לא ביחס לציר, הם ביחס למישור. אפשר לחשוב על מישור כעל קיר: נניח שאתם בחדר ובוהים בקיר. הקיר שמולכם עולה למעלה ויורד למטה, והולך ימינה ושמאלה, ולכן הוא דוגמה למישור שמורכב מהצירים \(xy\); לעומת זאת, הקיר שמימינכם עולה מעלה ויורד למטה, אבל הולך "קדימה" ו"אחורה" (מנקודת מבטכם) ולכן הוא מישור שמורכב מהצירים \(yz\); ואילו התקרה הולכת קדימה ואחורה וימינה ושמאלה אבל לא למעלה-מטה, ולכן היא מישור שמורכב מהצירים \(xz\). הנה קוביה שבה מסומנים המישורים הללו בבירור (ה-xy הוא על הקיר הקדמי/אחורי):

cube

אם כן, כשאנו מתבוננים בראי שעומד מולנו, אנחנו מתבוננים בשיקוף שלנו ביחס למישור \(xy\). מה שקריטי להבין כעת – זו כנראה הנקודה המרכזית בפוסט – הוא שהשיקוף הזה לא הופך את ימין ושמאל! קל מאוד לראות את זה – אם תניפו את היד שבצד ימין שלכם, אז הדמות שבראי תניף את היד שבצד ימין של הראי. אם הראי היה הופך בין ימין ושמאל, היינו מצפים לראות את מה שקורה בצד ימין שלכם משתנה דווקא בצד שמאל של הראי.

אבל רגע, אם זה כל כך פשוט, איך אני מסביר את מה שקורה לונוס? הרי בבירור החתולה מתהפכת כשמשקפים אותה בראי! החלק השחור בפנים שלה עובר מצד ימין לצד שמאל. אם עכשיו החתולה ונוס-שבראי תצא ממנו, היא תהיה שונה מונוס באופן מובחן. אז מה קורה כאן? עכשיו אנחנו מגיעים לחלק המבלבל ביותר של הפוסט: התשובה היא שברגע שמבצעים למישהו שיקוף ביחס למישור כלשהו – וזה לא משנה אם השיקוף הוא ביחס למישור \(xy\), או ביחס למישור \(xz\) או ביחס למישור \(yz\) – אותו מישהו הופך ל"דמות מראה". דמות מראה היא בעלת התכונה שאם נגרום לה להיות זהה לדמות המקורית בשניים מתוך שלושה הצירים האפשריים, היא תהיה הפוכה ממנו בציר השלישי. זה נכון באותה מידה לכל הצירים; הבעיה שגורמת לנו לחשוב שיש פה "שבירת סימטריה" היא שהאינטואיציה שלנו מכשילה אותנו וגורמת לנו לחשוב רק על מקרה אחד מבין השלושה בתור "היפוך".

לא מסכימים? מצוין, אז בואו נשחק את המשחק הבא: נניח שונוס התבוננה בראי ופתאום בדרך קסם אכן הבבואה שלה הוחלפה בחיה בשר ודם, "סונו" שמה. אתם טוענים בפני שונוס וסונו הן לא אותה חיה. אני דורש שתוכיחו. אתם אומרים "החלק השחור של הפנים שלהם בצד הלא נכון!" לכך אני עונה ב"למה? כרגע החלק השחור של הפנים של ונוס הוא בצד ימין שלי (אני עומד מאחורי ונוס, אבל הרי אני זוכר איפה החלק השחור של הפנים שלה) וגם החלק השחור של הפנים של סונו הוא בצד ימין שלי".

אוקיי, ההתחכמות הזו בוודאי מרגיזה אתכם. מן הסתם אם ונוס היא עם הגב אלי ואילו סונו היא עם הפנים אלי אז למרות שהן הפוכות, החלק השחור של הפנים שלהן יהיה באותו הצד. כדי להראות לי שאני טועה ואלו שתי חיות שונות, אתם לוקחים את ונוס ומעמידים אותה ליד סונו, כשהיא עם הפנים אלי. עכשיו, כשאני רואה את שתיהן זו ליד זו, ברור לי שהן שונות. האם הסיפור נגמר?

מה שקרה למעלה, בחטף, היה שבאופן מובלע לחלוטין שהסתמך על האינטואיציה הטבעית שלכם, ביצעתי העדפה של ציר \(y\) על פני שאר הצירים. למה אני מתכוון? בואו נחשוב לרגע מה כלל התהליך של "לוקחים את ונוס ומעמידים אותה ליד סונו, כשהיא עם הפנים אלי". ראשית כל היינו צריכים לסובב את ונוס – קודם היא הייתה בגבה אלי, ואחרי הסיבוב היא תהיה עם הפנים אלי. אחר כך מזיזים אותה קצת כדי שתהיה ליד סונו, אבל זה פחות חשוב. מה שחשוב הוא הסיבוב. סיבובים הם תמיד סביב ציר כלשהו; כאן הסיבוב הוא סביב ציר \(y\). זה אומר שלכל נקודה על גבי ונוס השתנו קואורדינטות ה-\(x\) וה-\(z\) שלה, אבל קואורדינטת ה-\(y\) נותרה ללא שינוי. למי שקשה לו לראות את זה, ניסוי: שבו בקרוסלה והסתובבו. המושגים של "קדימה/אחורה/ימינה/שמאלה" יתחרבשו לכם – מי שלפני רגע עמד מולכם (לא בקרוסלה אלא מולה) עוד שניה יהיה מצד ימין שלכם, ואחר כך מאחוריכם וכן הלאה. מה לא משתנה? מה שהיה מעליכם נשאר כל הזמן מעליכם, ומה שמתחתיכם נשאר כל הזמן מתחתכם.

נחזור לסיטואציה שבה ונוס עומדת מול סונו. אפשר לעשות עם ונוס משהו שונה לגמרי – לסובב אותה לא סביב ציר \(y\) אלא סביב ציר \(x\). במילים אחרות, אתם באים אל ונוס מאחורה, תופסים אותה בזנב ומרימים למעלה. ונוס האומללה מתהפכת – עכשיו הפנים שלה פונות אליכם, הראש שלה הפוך, הרגליים הקדמיות מתחת לאחוריות, והרגליים האחוריות הן הדבר הגבוה ביותר בה. עכשיו אתם הולכים ושמים את ונוס מעל סונו וצועקים "רואה? רואה שהן שונות?". לכך אני משיב ב"למה? החלק השחור של הפנים שלהן הוא עדיין בצד ימין עבור שתיהן!"

suno_and_venus

אתם משתתקים לרגע, חושבים, ואז צועקים עלי בחזרה "נכון! אבל ונוס הפוכה וסונו לא הפוכה!"

לזה אני רוצה להשיב שזה בגלל שאתם מחזיקים את ונוס הפוך, אבל משטרת צער בעלי החיים מגיעה ועוצרת את כולנו. לעולם, לעולם, לעולם אל תעשו את הניסוי הזה בבית! עם זאת, בהחלט אפשר לחזור עליו עם בובה.

בחרתי לתאר בצורה כל כך מזעזעת את מה שקורה כשאנחנו מסובבים סביב ציר \(x\) ולא סביב ציר \(y\) לא מתוך רצון להתעלל בבעלי חיים אלא כדי להבהיר לנו למה האינטואיציה שלנו מקשה עלינו להתייחס לאפשרות הזו כשיטה לגיטימית ל"הוכחה" שונוס שונה מסונו. עם זאת, מבחינה מתמטית עשינו את אותו דבר. סובבנו את ונוס סביב אחד משני הצירים \(x\) או \(y\) ואז הזזנו את ונוס לאותו מקום כמו סונו והראינו שלא מקבלים את אותו דבר. במקרה הראשון זה כי צד ימין של ונוס היה צד שמאל של סונו; במקרה השני זה כי צד ה"למעלה" של ונוס היה שווה לצד ה"למטה" של סונו. כדי להשלים את התמונה צריך להבין שכבר המצב ההתחלתי הוא מצב של קלקול דומה: במקרה ההתחלתי, צד ה"קדימה" של ונוס (כלומר, החלק של ונוס שיותר רחוק מאיתנו, אם אנחנו עומדים מאחוריה) הוא צד ה"אחורה" של סונו (כלומר, החלק של סונו שיותר קרוב אלינו). אלו בדיוק שלוש הסיטואציות האפשריות: בכל אחת מהן שניים משלושת הצירים בסדר, אבל הציר השלישי "הפוך".

כשאנחנו רואים את הדמות שלנו במראה, לא מפריע לנו שהדמות במראה הפוכה בציר \(z\) – כלומר, שאנחנו רואים את הפנים של עצמנו במקום את הגב. תחת זאת, כשאנו חושבים מדוע הדמות בראי שונה מאיתנו, אנחנו מדמיינים את התרחיש שבו הדמות הזו מסתובבת סביב ציר \(y\) ואז ההבדלים בינינו ברורים. אנחנו לא מדמיינים את התרחיש שבו היא מסתובבת סביב ציר \(x\) ("מתהפכת") ככל הנראה כי הוא לא נראה טבעי לנו – בעולם שלנו, עם כוח הכבידה, אנשים הפוכים זה לא משהו שקורה. כתוצאה מכך אנחנו מקבלים תחושה שה"בעיה" עם הדמות ההפוכה היא רק עם החלפה בין צד ימין ושמאל – אבל כאמור, הבעיה היא עם כל שלושת הצירים, במובן זה שאם שניים מהם הם בסדר אז השלישי הפוך, ושאפשר "לתקן" היפוך של ציר באמצעות סיבוב – אבל זה בהכרח יגרום להיפוך בציר אחר. מעניין איך הייתה האינטואיציה שלנו מתנהגת אם היינו רגילים לחיים בחלל, שבהם "למעלה" ו"למטה" הם כיוונים לגיטימיים בדיוק כמו "ימינה" ו"שמאלה".

בתגובות לפוסט ציין מישהו שאינטואיטיבית, הבעיה של חלק מהאנשים עם עניין המראה הזה היא "למה יד ימין שלי נמצאת מול יד שמאל של הדמות במראה אבל הראש שלי לא מול הרגליים". הבעייתיות בניסוח הזה היא ש"יד ימין" ו"יש שמאל" הם מושגים יחסיים, בעוד ש"ראש" ו"רגליים" לא. "יד ימין" היא "היד שנמצאת בצד ימין של הגוף", בעוד ש"ראש" הוא "הדבר הזה שנראה כמו ראש" ולא "הדבר הזה שנמצא למעלה". אם מישהו עומד מולנו, אז מה שהוא קורא לו "יד ימין" ייראה לנו בכלל כאילו הוא נמצא בצד השמאלי של הראיה שלנו, אבל מכיוון שאנחנו מודעים לכך שהוא עומד מולנו אנחנו נסובב אותו בראש סביב ציר y ונבין שהיד הזו נמצאת בצד ימין של הגוף שלו.

חשבו שניה על בובה שמקדימה ומאחורה נראית אותו דבר בדיוק – אצלה אין דרך להבין, בהינתן יד, האם זו יד שמאל או ימין, כי אנחנו לא מסוגלים להבין האם הבובה פונה אלינו או שהיא ב"גבה" אלינו. לעומת זאת, עדיין נוכל לזהות את הראש שלה גם אם היא תהיה הפוכה, בגלל חוסר הסימטריה של הגוף. זה מוביל לכך שאנחנו מזהים את הדמות שמתקבלת אחרי סיבוב בציר \(y\) כדמות לגיטימית-אך-מוזרה (כי הצד השחור של הפנים עבר לשמאל), אבל אנחנו לא מוכנים לקבל את הדמות שמתקבלת אחרי סיבוב בציר \(x\), שהוא לגיטימי באותה מידה מבחינה מתמטית, כדמות "אמיתית" (כי הראש שלה למטה! מי שמע על כך שהאיבר שנראה כמו ראש נמצא בצד התחתון ולא העליון?). אני אומר את כל זה כי המענה לציטוט שלעיל הוא "במראה אנחנו רואים את הראש שלנו מול האיבר שיימצא בצד התחתון של הדמות אם נסובב אותה כך שבשאר הצירים היא תהיה בסדר – כך שאם מבחינתו "רגליים" הם מה שנמצא תמיד בצד התחתון של הדמות, זה דווקא נכון לומר שהראש שלנו נמצא מול הרגליים של הדמות".

כדי להשלים את התמונה רק נציין שאפשר גם להגיע למצב שבו כל הצירים "מקולקלים". נניח שונוס וסונו עומדות זו מול זו כמו קודם, וכעת אנו מסובבים את ונוס דווקא בציר \(z\) – זה משול לכך שנחזיק אותה ונסובב אותה כך שגבה אלינו כל הזמן, אבל בסוף הסיבוב היא עם הראש כלפי מטה שוב. התוצאה היא שכעת ונוס "מקולקלת" גם בציר \(z\) (שבו היא הייתה מקולקלת מלכתחילה), גם בציר \(y\) (הרי היא הפוכה!) וגם בציר \(x\) (כי כעת הצד השחור שלה הוא בשמאל, בעוד שאצל סונו הוא בימין).

נקודה אחת שאולי עוד נותרה פתוחה היא זו – הרי כשיצרתי את התמונה של סונו בהתחלה, השתמשתי ב"היפוך מאוזן"; זו הייתה ההצדקה העיקרית שהבאתי לתחושת "חוסר הסימטריה". איך זה נפתר? ובכן, התשובה היא שמלכתחילה רימיתי אתכם: התמונה הראשונה בפוסט, זו של ונוס, לא באמת מייצגת את "ונוס מסתכלת במראה" אלא את "ונוס מסתכלת עליכם". כלומר, זו ונוס אחרי סיבוב סביב ציר \(y\) . מה שעשיתי היא לקחת את הסיבוב הזה ו"לחבר" אליו שיקוף ביחס למישור \(yz\) , שהוא שקול מבחינה מתמטית (כפי שתכף אפשר יהיה לראות פורמלית) לשיקוף ביחס למישור \(xz\)  של ונוס המקורית.

אני מקווה שהצלחתי לעזור לכם להבין מה הולך כאן (אני הבנתי עד הסוף את העניין רק כשכתבתי את הפוסט; זו בעצם הייתה מטרתו מלכתחילה).למי שעדיין צריך אישושים, בואו נדבר טיפה על העניין מבחינה מתמטית קצת יותר פורמלית. אנחנו בעצם עוסקים כאן בשני סוגי פעולות – פונקציות – על המרחב \(\mathbb{R}^{3}\): שיקופים ביחס למישורים מסויימים, וסיבובים ביחס לצירים מסויימים.

מכיוון ש-\(\mathbb{R}^{3}\) הוא מרחב וקטורי עם הבסיס \(\left\{ \left(1,0,0\right),\left(0,1,0\right),\left(0,0,1\right)\right\} \), הדרך הנוחה להבין איך מתנהגים סיבובים ושיקופים היא דרך הפעולה שלהם על אברי הבסיס. למשל, סיבוב ב-180 מעלות ביחס לציר \(x\): הוא משאיר את \(\left(1,0,0\right)\) במקום (כי זה וקטור שנמצא על ציר \(x\) עצמו), אבל את \(\left(0,1,0\right)\) הוא שולח ל-\(\left(0,-1,0\right)\) ואת \(\left(0,0,1\right)\) הוא שולח ל-\(\left(0,0,-1\right)\). מכאן קל להסיק (בגלל הלינאריות של הסיבוב) שאת הוקטור הכללי \(\left(a,b,c\right)\) הוא שולח ל-\(\left(a,-b,-c\right)\). בדומה אפשר להבין איך יתנהגו סיבובים סביב ציר \(y\) ו-\(z\).

עכשיו בואו נעבור לשיקוף ביחס למישור \(xy\). וקטורים שנמצאים במישור הזה – כלומר \(\left(1,0,0\right)\) ו-\(\left(0,1,0\right)\) – יישארו באותו המישור. מי שישתנה הוא רק \(\left(0,0,1\right)\) שיעבור ל-\(\left(0,0,-1\right)\). לכן שיקוף ביחס למישור \(xy\) מעביר את \(\left(a,b,c\right)\) ל-\(\left(a,b,-c\right)\).

כעת אפשר להבין איך נראית הרכבה של שתי פעולות בזו אחר זו: למשל, אם קודם כל משקפים ביחס למישור \(xy\) ואחר כך מסובבים ביחס לציר \(y\), אז כל נקודה תעבור את הטרנספורמציה הבאה:

\(\left(a,b,c\right)\mapsto\left(a,b,-c\right)\mapsto\left(-a,b,c\right)\)

כאן אנחנו רואים שאחרי הפעולות הללו, בכל הנוגע לצירים \(y,z\) התמונה תיראה זהה למקור; ההבדל יהיה בציר \(x\), כלומר ב"ימינה-שמאלה", כלומר בדיוק הבעיה של הפנים השחורות שעברו מימין לשמאל.

עכשיו, די ברור שהדבר היחיד שמאפיין כל אחת מהטרנספורמציות שדיברתי עליהן הוא לאילו קואורדינטות הן נותנות מינוסים ולאילו לא. לכן, כדי לפשוט לעצמנו את החיים, אפשר לזהות כל טרנספורמציה עם וקטור בינארי באורך 3, כש-1 מסמל "נותן מינוס לקואורדינטה הזו" ו-0 מסמל "לא נותן מינוס". למשל, שיקוף ביחס למישור \(xy\) הוא \(\left(0,0,1\right)\) ואילו סיבוב ביחס לציר \(z\) הוא \(\left(1,1,0\right)\). כעת לא קשה לראות שחיבור נקודתי של הוקטורים הללו מודולו \(2\) מתאים בדיוק לפעולת ההרכבה של הטרנספורמציות. במילים אחרות, החבורה החיבורית \(\mathbb{Z}_{2}^{3}\) איזומורפית לחבורת הטרנספורמציות שנוצרת על ידי שיקופים וסיבובים ביחס לצירים.

המצב ההתחלתי, ונוס, הוא \(\left(0,0,0\right)\). אחרי הפעלת שיקוף ביחס למישור \(xy\) נקבל את \(\left(0,0,1\right)\) – "סונו". הטענה "סונו שונה מונוס" אצלנו היא בעצם הטענה "לא משנה כמה נסובב את סונו, בלי לשקף אותה לא נקבל בחזרה את ונוס". זו טענה שטריוויאלי להוכיח בהינתן הייצוג של \(\mathbb{Z}_{2}^{3}\) לטרנספורמציות: הפעולה של סיבוב שקולה לחיבור וקטור עם שני 1-ים ו-0 אחד לוקטור הנוכחי שלנו. כעת יש שלוש אפשרויות בסיטואציה כזו: או ששני ה-1-ים מתחברים עם 1-ים והופכים את שניהם ל-0; או ששניהם מתחברים עם 0-ים והופכים אותם ל-1-ים; או שאחד מהם מתחבר עם 1 והופך אותו ל-0, והשני מתחבר עם 0 והופך אותו לאחד. בכל שלושת המקרים, הזוגיות של מספר~ה-1-ים בוקטור נשמרת. מכיוון שב-\(\left(0,0,0\right)\) יש מספר זוגי של 1-ים וב-\(\left(0,0,1\right)\) יש מספר אי זוגי, סיימנו; אין דרך לעבור מ-\(\left(0,0,1\right)\) אל \(\left(0,0,0\right)\) באמצעות סיבובים בלבד. זו הוכחה פשוטה ביותר עם רעיון שחביב עלי מאוד, עד כדי כך שהופיע כבר בפוסט הראשון בבלוג – אינוריאנטות.

המסקנה היא שסונו שונה מונוס, אבל לא באופן שמוטה "לטובת" ציר \(x\) – על ידי הפעלות של סיבובים אפשר להגיע מ-\(\left(0,0,1\right)\) לכל אחד מהוקטורים \(\left(1,0,0\right),\left(0,1,0\right),\left(1,1,1\right)\) (כל הוקטורים עם מספר אי זוגי של 1-ים) ולכן כל הצירים "מקולקלים במידה שווה" – ובפרט אפשר גם להגיע למצב \(\left(1,1,1\right)\) שבו שלושת הצירים מקולקלים בו זמנית (אבל לא למצב שבו שני צירים מקולקלים ואחד לא – במצב כזה מספר ה-1-ים הוא זוגי, ובפרט אפשר על ידי סיבוב אחד להגיע אל ונוס).

מה למדנו מכל זה? ובכן, דבר אחד בטוח – מכיוון שונוס היא חצי שחורה וחצי ג'ינג'ית, הרי שלחתולה לבנה באמת לא היה קשר לכל מהומת המראות הזו.

פרדוקס בוחן הפתע

בסוף השיעור של יום חמישי חייך פרופסור גונוסובסקי חיוך זדוני, ואמר בעונג לתלמידיו "ובשבוע הבא אערוך בוחן פתע!" ויצא מהכיתה כרוח סערה.

מייד קמה התלחשות אדירים בכיתה. "בוחן פתע?", "מותר לו לעשות את זה בכלל?", "מה זה אומר, שהוא יערוך מבחן בלי לומר מראש באיזה יום?", "אבל אם לא יודעים את היום איך נדע להתכונן בערב שלפני?" ועוד כהנה וכהנה, עד שקול אחד התגבר על כולם בסמכותיות. "רבותי", אמר השד מהשביעית, "לא בוחן פתע ולא נעליים. הפרופסור גונוסובסקי הנכבד אינו מסוגל לערוך שום בוחן פתע בשבוע הבא". מייד קם קול זעקה נוסף, אך השד מהשביעית היסה אותו בתנועת יד "תנו לי ואסביר…"

"ובכן, רואים אתם", אמר השד, "ביום חמישי הבא בוודאי שפרופסור גונוסבסקי אינו יכול לתת שום בוחן פתע, שכן יום חמישי הוא יום הלימודים האחרון בשבוע ולכן אם עד אליו לא ניתן הבוחן, בהכרח הוא ייערך ביום חמישי אבל אז כבר לא יופתע איש. מכאן שבוחן פתע ביום חמישי לא יקום ולא יהיה והסרנו אותו מהפרק. כעת, ביום רביעי מה קורה? אם הגענו אל יום רביעי וטרם היה בוחן פתע, הוא חייב להינתן ביום רביעי, שאם לא כן, הוא יהיה מוכרח להיות ביום חמישי אבל אמרנו שחמישי יורד מן הפרק. אבל פירוש הדבר הוא שאם הגענו ליום רביעי וטרם ניתן בוחן הפתע אז הוא בהכרח יינתן ברביעי, ולכן איש לא יופתע ממנו. אי לכך גם רביעי הוא בלתי אפשרי. וביום שלישי…"

"אני יודע!" צעק חכמולוג מן הקהל, "ביום שלישי חובה שיהיה הבוחן אם עוד לא היה כזה, שאם לא כן הוא יהיה ברביעי! ולכן גם בשלישי אינו מפתיע! וגם בשני לא! וגם בראשון! והפרופסור, מתי יוכל לתת בוחן פתע? אף פעם!" צהל החכמולוג.

"אף פעם" הסכים השד מהשביעית.

"אף פעם!" הסכים קהל הסטודנטים באושר.

מה רבה הייתה הפתעתם משהגיע יום שלישי ופרופסור גונוסובסקי נכנס לכיתה והכריז על בוחן פתע ושכל התלמידים יוציאו תכף ומייד נייר ועט!

הרשיתי לעצמי להתעלל קצת בגיבורי "השד מהשביעית" (המומלץ מאוד, במיוחד אם אתם רוצים לראות מה התרחש בעימות האמיתי בין השד ובין פרופסור גונוסבסקי) כדי להציג פרדוקס שממבט ראשון נראה לי תמים ואפילו טיפשי, אבל לשמחתי גיליתי שטעיתי והוא הרבה יותר מגניב משחשבתי – פרדוקס בוחן הפתע. כמו בכל פרדוקס, הוא מתאר סיטואציה שבה נראה לנו שקיימת סתירה כלשהי ולא מובן מאליו במבט ראשון מה גורם לה; זה מכריח אותנו לנסות ולבחון את ההנחות ואופני ההסקה שלנו באופן יסודי, ובצורה הזו אנחנו מגלים עליהם דברים מעניינים למדי.

הניסוח ה"קלאסי" של הפרדוקס הוא זה שתיארתי בסיפור: מורה אומר לתלמידיו שבשבוע הבא יינתן בוחן פתע. התלמידים מסיקים איכשהו שזה פשוט לא ייתכן, כי ביום חמישי אם יינתן בוחן הוא לא יהיה מפתיע ולכן אינו יכול להינתן בחמישי. ולכן אם הוא יינתן ברביעי הוא לא יהיה מפתיע (כי אם הגענו לרביעי, מכיוון שחמישי כבר פסול, הוא חייב להיות ברביעי) ולכן הוא לא יכול להינתן ברביעי, וכן הלאה. הפרדוקסליות נובעת מכך שהתלמידים לא מצליחים לפסול באמת את האפשרות שלא יינתן בוחן פתע בשבוע הבא, שכן גם אחרי ההסקה המבריקה שלהם המורה עדיין יכול להגיע ביום כלשהו באמצע השבוע – נאמר, שלישי – ולתת את הבוחן.

אפשר לתת לפרדוקס כמה ניסוחים דומים עם סיטואציות אחרות, שיתרונן בכך שהן מאפשרות לנטרל חלק מהאספקטים הטפלים שיש בסיפור ה"קלאסי". הנה אחד מהם. פרופסור גונוסבסקי עובר את אחד מהתקפי הפסיכוטיות שלו, לוקח חמישה תלמידים ומעמיד אותם בשורה, כך שכל תלמיד רואה את גבם של התלמידים שלפניו בשורה אבל לא של אלו שאחריו (וכמובן, לא את גבו שלו עצמו). על הגב של אחד התלמידים גונוסבסקי מדביק שלט "תבעטו בי!" בלי שאותו תלמיד ירגיש. כעת הוא אומר לתלמידים שבשורה "לאחד מכם יש שלט "תבעטו בי" על הגב, והוא לא יוכל לדעת את זה עד שלא תתפזרו!". עונה השד מהשביעית, שנמצא באמצע השורה "אם כן, לאף אחד מאיתנו אין שלט על הגב!", ומייד חוטף בעיטה מסטודנט מזדמן שמציית לשלט.

מה קורה פה? ההגיון של השד מהשביעית זהה לזה שבניסוח המקורי של הפרדוקס: התלמיד האחרון בשורה ("יום חמישי") רואה את הגב של כל התלמידים שלפניו בשורה. אם הוא היה רואה שאין לאף אחד מהם שלט על הגב הוא היה יכול להסיק מכך שהשלט נמצא על הגב שלו עצמו. מכאן שאין שלט על הגב של האחרון בשורה. כעת בואו נעבור לזה שמייד לפניו בשורה: הוא יודע בודאות מלאה שאין לתלמיד שמאחוריו שלט על הגב, ולכן אם הוא היה רואה שגם לאף אחד מהתלמידים שמלפנים אין שלט על הגב הוא היה יכול להסיק מכך שהשלט נמצא על הגב שלו עצמו, וכן הלאה וכן הלאה. למי מכם שנזכר בחידת "עיניים כחולות" שפרסמתי בבלוג פעם (או באחת מהוריאציות הרבות עליה), זה כמובן לא מקרי. רק שכאן ההסקה מובילה אותנו לתוצאות אבסורדיות בעליל.

מה שטוב בניסוח השני של הפרדוקס הוא שהמילה "הפתעה" נעדרת ממנו לחלוטין, מה שמנטרל את הפתרון הפשוט ביותר לפרדוקס בניסוחו המקורי, לפיו יש בעייתיות סמנטית בשימוש במילה "הפתעה" כאן. הגישה ה"סמנטית" להתמודדות עם הפרדוקס היא כמובן לגיטימית, אבל מפספסת את הנקודה: אנחנו לא רוצים "לפתור" פרדוקסים, כי זה קל מדי; אנחנו רוצים להבין אותם. על פרדוקס בוחן הפתע נכתבו עשרות מאמרים – זה לא בגלל שיש קושי רב "לפתור" אותו, אלא כי יש דרכים רבות ושונות לפתור אותו, כל אחת מציגה נקודת מבט אחרת עליו שהיא מעניינת לכשעצמה. עשיתי משהו דומה בבלוג בעבר, כשדיברתי על הפרדוקס של ברי: זהו פרדוקס שניתן לפתור באופן פשוט למדי, אבל אם מנסים בכל זאת להבין אותו לעומק צץ ועולה מעצמו המושג המרתק של סיבוכיות קולמוגורוב. אז בואו נעשה משהו דומה לפרדוקס בוחן הפתע ונציג כמה רעיונות יפים שצצים כשעוסקים בו – אבל כמובן, זו ממש לא תהיה סקירה ממצה של מה שאפשר לומר על הפרדוקס.

מה משותף לשני הניסוחים של הפרדוקס? לדעתי, באופן ברור, זהו מושג הידיעה. מה פירוש הדבר שבוחן הוא מפתיע? זה אומר שביום שבו הוא ניתן, התלמידים אינם יכולים להיות בטוחים שהוא יינתן ביום זה. הם אולי חושדים שהוא ייתנן, או חושבים שיש סיכוי של 54 אחוז, או כל דבר דומה – אבל אין להם ביטחון מוחלט בכך שהוא יינתן. אותו הדבר בדיוק תקף עבור השלט בגב. השוו זאת עם חידת העיניים הכחולות שבה אדם עוזב את האי רק כשהוא בטוח שיש לו עיניים כחולות. מה בכל זאת שונה? בחידת העיניים הכחולות, המידע הנוסף שנותנים לאנשים והם מסיקים ממנו מסקנות הוא שקיים מישהו עם עיניים כחולות; כאן לעומת זאת המידע הנוסף שניתן לתלמידים הוא הרבה יותר מורכב באופיו. ראשית, אומרים להם שיש למישהו שלט על הגב/שיהיה מבחן בשבוע הבא. טוב ויפה, ומכך באמת אי אפשר להסיק למי יש את השלט על הגב (אלא אם אתם התלמיד האחרון בשורה) או באיזה יום יינתן הבוחן (אלא אם הגיע יום חמישי), אבל אז מוסיפים עוד אינפורמציה: שהתלמיד שיש לו שלט על הגב לא יכול לדעת את זה/שהבוחן יהיה "מפתיע". זה המידע הנוסף שממנו התלמידים מתחילים להסיק מסקנות עד שהם מגיעים לתוצאה שקרית.

האם הבעיה היא במה שגוסונובסקי אומר? כשמספרים את הפרדוקס בצורה זהירה, גוסונבסקי לא אומר שום דבר שלא מתגלה בסופו של דבר כנכון. הבוחן באמת מפתיע, והשד מהשביעית באמת לא יכול לדעת בודאות שיש לו שלט על הגב. אם כן, יש כאן איזו בעיה בהיסק של התלמידים, אבל איפה? אפשר לנסות ולהתמודד עם הבעיה (בניסוח עם השלט בגב שאני מחבב יותר בגלל שהוא מנותק ממושג ה"הפתעה") על ידי הקטנה של מספר התלמידים בשורה. במקרה הטריוויאלי שבו יש רק תלמיד אחד בשורה, גוסונובסקי אומר לו משהו שהוא בבירור לא נכון: "יש לך שלט על הגב ואתה לא יכול לדעת את זה!". מה התלמיד אמור לחשוב על זה? בוודאי שהוא אינו יכול להאמין לכל המשפט הזה, כי אם הוא מאמין לחצי הראשון שלו אז החצי השני הוא שקרי. בנוסף, האם זה שהתלמיד מאמין לגוסונובסקי אומר שהוא יודע שמה שגוסונובסקי אומר הוא נכון? זו שאלה מצויינת ורלוונטית לניתוחים מסויימים של הפרדוקס, אבל לא אכנס אליה כעת.

אז המקרה של תלמיד אחד הוא מנוון במידה מסויימת. מה קורה אם יש שני תלמידים בשורה? נאמר, אריק ובנץ, כשאריק עומד מאחורי בנץ. אם גוסונובסקי אומר להם "יש לאחד מכם שלט על הגב והוא לא יכול לדעת את זה!" אפשר לפרוט את האמירה הזו לפרוטות. מה שגוסונובסקי בעצם אומר הוא "או שלאריק יש שלט על הגב והוא לא יכול לדעת את זה, או שלבנץ יש שלט על הגב והוא לא יכול לדעת את זה". עכשיו, שימו לב: אם לאריק יש שלט על הגב, יש לנו כאן את אותו כשל בדיוק כמו במקרה הראשון, בלי קשר לבנץ; בכך שגוסונובסקי אומר שלאחד משניהם יש שלט על הגב, ומכיוון שאריק רואה את הגב של בנץ, האמירה הזו שקולה לכך שגוסונובסקי יגיד לאריק "יש לך שלט על הגב ואתה לא יכול לדעת את זה!". אחר כך, בגלל הכשל הזה, גם אצל בנץ יש כשל דומה. זה לב הפרדוקס.

אבל רגע, את "לאחד מכם יש שלט על הגב והוא לא יכול לדעת את זה!" אפשר לפרוט לפרוטות גם בצורה קצת שונה: "או שלאריק יש שלט על הגב, או שלבנץ יש שלט על הגב והוא לא יכול לדעת את זה". בניסוח הזה אין פרדוקס בכלל. אם גוסונובסקי היה אומר את זה לאריק ובנץ לא הייתה שום בעיה. ואם בסיפור המקורי גוסונובסקי היה אומר לתלמידים "בשבוע הבא יהיה בוחן! ואם הוא לא יהיה בחמישי, הוא גם יפתיע אתכם!" ודאי שלא הייתה בעיה. עכשיו, אתם ודאי מרגישים שאני מרמה אתכם ושהניסוח הזה, שבו פוסלים את חמישי מלהיות מפתיע, הוא לא פרשנות "נכונה" לאמירה "בשבוע הבא יהיה בוחן פתע", ולכן ודאי תתאכזבו לגלות שזה הפתרון של הפרדוקס שהכי משביע את הרצון שלי: אני פשוט קורא את דבריו של גוסונובסקי על בוחן פתע בתור "בשבוע הבא יהיה בוחן שיפתיע בכל יום שבו הוא יינתן אלא אם הוא יינתן בחמישי", ואם התלמידים בוחרים לפרש את האמירה שלו בתור משהו חזק יותר, שטוען שהבוחן יהיה מפתיע בכל יום שבו הוא יינתן, הרי שזו בבירור אמירה שכוללת בתוכה חלק "סתירתי", כי בחמישי הבוחן לא יכול להפתיע, ולכן אין פלא שהתלמידים מגיעים לסתירה בסופו של דבר.

הנה עוד נקודת מבט על העניין. נניח שכל מה שגוסונובסקי היה אומר לתלמידים הוא "בשבוע הבא יהיה בוחן". מה האינפורמציה שהתלמידים קיבלו? שבשבוע הבא יהיה בוחן, ושהוא יפתיע בכל יום פרט לחמישי. איך הגעתי לזה? פשוט מאוד – על פי האופן שבו אני מפרש "הפתעה" בפוסט הזה בתור חוסר יכולת לדעת בודאות, זה בדיוק המצב; התלמידים לא מסוגלים להסיק ממה שגוסונובסקי אמר ומתוך היום הנוכחי בשבוע האם מחר יהיה מבחן, פרט לערב יום חמישי. אותו הדבר קורה אם התלמידים עומדים בשורה ומושג ה"הפתעה" כבר לא מפריע לנו: אם גוסונובסקי רק אומר "לאחד מכם יש שלט על הגב", אז כפועל יוצא מכך, אלא אם השלט הוא על הגב של זה שעומד מאחורה, מי שיש לו שלט על הגב לא מסוגל לדעת את זה. מכאן שאם גוסונובסקי יגיד "לאחד מכם יש שלט על הגב ואם זה לא האחרון בשורה אז הוא גם לא יכול לדעת את זה!" הוא בסך הכל יספק מידע כפול, שהסטודנטים כבר יכולים להסיק בעצמם. אם כן, כל המידע הנוסף שגוסונובסקי נותן לתלמידים ומתחיל את התגלגלות הפרדוקס הוא מידע שהוא סתירתי באופיו: שגם אם לאחרון בשורה יש שלט על הגב הוא לא יכול לדעת את זה. עכשיו, במערכת ההוכחה הסטנדרטית שהמתמטיקאים עובדים איתה, מסתירה אפשר להסיק כל דבר (זה נובע די מייד מהאקסיומות וכללי ההיסק של הלוגיקה, אבל לא אפרט על זה כרגע). אם גוסונובסקי היה אומר לתלמידים "בשבוע הבא יהיה בוחן. אה, ו-1=2", גם מזה התלמידים היו יכולים להסיק שלא יהיה בוחן בשבוע הבא, אבל מן הסתם לא היינו מתרשמים מזה באותה מידה. לדעתי זה לב הפרדוקס.

ועכשיו משאמרתי את זה, בואו נעבור לניתוח מתמטי יותר של העניין, שימחיש למה הפרדוקס הזה מעניין ועמוק יותר דווקא אם מנסים בכוח להימנע מלקבל את הפתרונות ה"פשוטים" שלו. למי שמעוניין בהעמקה גדולה יותר מזו שאגיע אליה בפוסט, הנה מאמר סקירה מצוין.

בגישה המתמטית שאני מציג כאן, המושג של "ידע" מזוהה עם "יכיחות". לכן אני צריך איזה שהוא סימון כדי לתאר "יכיח": אני אשתמש ב-\(\mbox{Pr}\left[\varphi\right]\) (מלשון "Provable") כדי לומר "הפסוק \(\varphi\) יכיח". בנוסף, אשתמש במשתנה \(D\) כדי לתאר את היום שבו בוחן הפתע מתקיים. עם הסימונים הללו, אפשר לנסות ולתאר את מה שגוסונובסקי אומר לתלמידים כך (קראו את זה בתור "המבחן יהיה באחד מהימים \(1,2,3,4,5\) וגם לכל יום \(n\), אם המבחן לא התקיים עד אליו, לא ניתן להוכיח מכך שהוא יתקיים ביום \(n\)"):

\(S\equiv\left(D\in\left\{ 1,2,3,4,5\right\} \right)\wedge\bigwedge_{n=1}^{5}\left(D\ge n\to\neg\mbox{Pr}\left[D\ge n\to D=n\right]\right)\)

ה-\(S\equiv\) בהתחלה אומר שזה השם שאני נותן לפסוק שמימין ל-\(\equiv\); זה יהיה חשוב בהמשך.

האם הפסוק הזה ממדל טוב את דבריו של גוסונובסקי? לא ממש. בואו ננסה לחשוב איך התלמידים יוכיחו בעזרתו ש-\(D\ne5\): הם יניחו בשלילה ש-\(D=5\) (ולכן בפרט \(D\ge5\)) ולכן כדי להגיע לסתירה די להם להראות ש-\(\mbox{Pr}\left[D\ge5\to D=5\right]\). הבעיה היא שאי אפשר להוכיח את הטענה הזו בלי ידע נוסף – במקרה הזה, ש-\(D\in\left\{ 1,2,3,4,5\right\} \).

"אבל רגע!" אולי אתם אומרים, "הרי הידע הזה הוא בדיוק מה שהיה בחלק השמאלי של הפסוק!". זה כמובן נכון, אבל הפסוק הזה הוא לא אחת מהאקסיומות שעליהן הסימון \(\mbox{Pr}\left[D\ge n\to D=n\right]\) מדבר כשהוא מדבר על קיום הוכחה אלא אם אנחנו בוחרים להניח את זה במובלע, ואנחנו לא. האקסיומות היחידות שאנחנו מניחים במובלע הן האקסיומות הרגילות של לוגיקה מסדר ראשון. אם אנחנו רוצים עוד אקסיומות, בואו נציין אותן במפורש: נסמן ב-\(\mbox{Pr}_{A}\left[\varphi\right]\) את הטענה "\(\varphi\) יכיח מ-\(A\)".

אם כן, מה שטבעי לעשות הוא להגדיר

\(A\equiv\left(D\in\left\{ 1,2,3,4,5\right\} \right)\)

ועכשיו להגדיר

\(S\equiv\left(D\in\left\{ 1,2,3,4,5\right\} \right)\wedge\bigwedge_{n=1}^{5}\left(D\ge n\to\neg\mbox{Pr}_{A}\left[D\ge n\to D=n\right]\right)\)

הניסוח הזה קולע לא רע למטרה. בואו נראה שהתלמידים מסוגלים להוכיח איתו ש-\(D\ne5\). כדי לעשות את זה, התלמידים יניחו בשלילה ש-\(D=5\), ואז יוכיחו שמתקיים \(\mbox{Pr}_{A}\left[D\ge5\to D=5\right]\) על ידי כך ש-\(A\) נותן לנו ש-\(D\le5\) ולכן אם \(D\ge5\) אז \(D=5\), שזו דרך אחרת לכתוב \(D\ge5\to D=5\).

רק שעכשיו התלמידים בברוך. השלב הבא הוא להוכיח ש-\(D\ne4\), ואז זה הם לא יכולים לעשות מתוך \(A\). בואו ניזכר שניה איך הטיעון אמור ללכת עכשיו: התלמידים יניחו בשלילה ש-\(D=4\). עכשיו הם רק צריכים להראות שמתקיים \(\mbox{Pr}_{A}\left[D\ge4\to D=4\right]\). ההוכחה תלך ככה: בגלל שאנחנו יודעים ש-\(D\le4\)… רגע, רגע, רגע! מה זה "אנחנו יודעים"? מי יודע? אם כל מה שההוכחה יכולה להשתמש בו הוא \(A\), אז ההוכחה לא יודעת ש-\(D\ne5\), ובלי הידע הזה לא ניתן להוכיח ש-\(D\le4\) וההוכחה הולכת לכל הרוחות.

כדי להסיק את \(D\ne5\) בתוך ההוכחה של \(D\ge4\to D=4\), ההוכחה הזו צריכה לקבל כאקסיומה בדיוק את הכלי שהיה לסטודנטים כשהם הוכיחו ש-\(D\ne5\), והכלי הזה הוא הנוסחה \(S\) עצמה. זה לב העניין. אנחנו רואים שהמעגליות הזו היא קריטית עבור הטיעון של התלמידים. במילים אחרות, הניסוח הנכון של \(S\) הוא זה:

\(S\equiv\left(D\in\left\{ 1,2,3,4,5\right\} \right)\wedge\bigwedge_{n=1}^{5}\left(D\ge n\to\neg\mbox{Pr}_{S}\left[D\ge n\to D=n\right]\right)\)

כאן אפשר לעצור ולהגיד "יש מעגליות? לא משחקים!". לגיטימי. אפשר גם לומר "אין שום דרך לכתוב פסוק \(S\) כזה בגלל שהוא מכיל את עצמו וזו סתירה" או משהו בסגנון, אבל זה כבר לא יהיה לגיטימי. אחד מהקסמים המגניבים ביותר בלוגיקה – קסם שהוא בעל תפקיד חשוב בהוכחת משפט אי השלמות של גדל – הוא שאפשר לבנות פסוקים שמתייחסים כך לעצמם, בעזרת טכניקה עקיפה ומחוכמת שלא אציג כרגע אבל בפוסט שלי על הוכחת משפט גדל היא מופיעה. לעת עתה תצטרכו לסמוך עלי – פסוק כמו \(S\) אפשר לכתוב בצורה הכי פורמלית בעולם.

בניסוח הזה של הפרדוקס אפשר להוכיח פורמלית שניתן להוכיח מתוך \(S\) את זה ש-\(D\notin\left\{ 1,2,3,4,5\right\} \), ובמילים אחרות – ש-\(S\) סותר את עצמו. זה פותר במובן מסויים את הפרדוקס; כעת ברור מה הניסוח של הטענה של גוסונובסקי שממנו התלמידים מסוגלים להסיק את המסקנה שלהם, וגם די ברור שכשגוסונובסקי אומר "יהיה בוחן פתע", האינטואיציה הראשונה שלנו לא מבינה את דבריו בתור משהו מורכב כמו \(S\) ולכן אנחנו לא רואים כאן בעיה. גם כאן זו נקודה שאפשר לעצור בה, אבל אני רוצה להמשיך עוד קצת, למאמר חדש יחסית מ-2010 של רן רז ושירה קריצ'מן ממכון וייצמן שלוקח את הרעיון קצת יותר רחוק.

הטענה שלהם היא כזו: מכיוון ש-\(S\) סתירתי, אפשר להוכיח ממנו הכל (וכבר הזכרתי זאת בפוסט). אבל אם אפשר להוכיח ממנו הכל, אפשר להוכיח גם שהמבחן יהיה ביום חמישי וגם שהוא יהיה ביום רביעי. אם כן, האם באמת אפשר לזהות "יכיחות" עם "ידיעה" כאן? אם אני רוצה לדעת מיהו ספרטקוס, וכולם אומרים לי שהם ספרטקוס, האם זה הוסיף לי ידע? כנראה שלא. לכן אנחנו רוצים לזהות ידע כאן עם "התלמידים יכולים להוכיח שהמבחן מתקיים ביום \(n\) ולכל יום אחר הם לא יכולים להוכיח שהמבחן מתקיים ביום האחר". באופן פורמלי \(S\) יראה כך:

\(S\equiv\left(D\in\left\{ 1,2,3,4,5\right\} \right)\wedge\bigwedge_{n=1}^{5}\left[D\ge n\to\left(\neg\mbox{Pr}_{S}\left[D\ge n\to D=n\right]\vee\bigvee_{k\ne n}\mbox{Pr}_{S}\left[D\ge n\to D=k\right]\right)\right]\)

החלק הפנימי אומר הפעם "אם המבחן לא התקיים עד יום \(n\), אז או שאי אפשר להוכיח שהוא יתקיים ביום \(n\), או שיש \(k\ne n\) שגם עבורו אפשר להוכיח שהמבחן יתקיים ביום \(k\)".

כעת, נניח שהתלמידים רוצים להוכיח ש-\(D\ne5\). הם מניחים בשלילה ש-\(D=5\), וכמו קודם הם מוכיחים ש-\(\mbox{Pr}_{S}\left[D\ge5\to D=5\right]\). לרוע מזלם, הפעם זה לא מספיק כדי להסיק ש-\(D\ne5\); חייבים גם להוכיח שעבור \(1\le k\le4\) מתקיים \(\neg\mbox{Pr}_{S}\left[D\ge5\to D=4\right]\).

"רגע אחד!" אולי אתם אומרים. "אבל מה ההגיון בטענה כמו \(D\ge5\to D=4\)? הרי ברור שהיא לא נכונה!" זה כמובן נכון; אבל למה שזה יאמר שהתלמידים לא יהיו מסוגלים להוכיח את זה? הם יהיו מסוגלים להוכיח את זה, בתנאי שמערכת ההוכחה שלהם לא עקבית. זה מעלה את השאלה – מהי בכלל מערכת ההוכחה של התלמידים?

מהשאלה הזו נמנעתי עד כה. גרמתי לכם לחשוב שמדובר על לוגיקה מסדר ראשון ותו לא, אבל כדי לפרמל מושגים כמו \(\mbox{Pr}\) בתוך הלוגיקה עצמה חייבים להסתמך על שפה ומערכת אקסיומות שמסוגלות לבטא די הרבה דברים; וממילא אנחנו כנראה מניחים אינטואיטיבית שלתלמידים מותר להוכיח כל הוכחה שמתמטיקאי "רגיל" יכול להוכיח. במילים אחרות, אנחנו מניחים שאנחנו מעל ZF, מערכת האקסיומות הסטנדרטית של המתמטיקה. ומה שמשפט אי השלמות השני של גדל אומר הוא שאין לנו דרך להוכיח שהמערכת הזו עקבית "מתוך" המערכת.

איך זה מתקשר לבעיה של התלמידים? שהם יכולים להוכיח ש-\(D\ne5\), מתוך ZF, רק אם הם ישללו את זה שאפשר להוכיח בה \(D\ge5\to D=4\), כלומר רק אם הם ישללו את זה ש-ZF יכולה להוכיח סתירה, כלומר רק אם הם יכולים להוכיח ש-ZF עקבית. אבל זה בדיוק מה שמשפט אי השלמות השני של גדל מראה שאי אפשר לעשות.

הטיעון הוא למעשה קצת יותר עדין מזה. אם התלמידים מניחים ש-ZF עקבית, כמו שכל מתמטיקאי עושה, אז מההנחה הזו ינבע שאי אפשר להוכיח את \(D\ge5\to D=4\) ולכן התלמידים יצליחו להוכיח ש-\(D\ne5\) (בהנחה ש-ZF עקבית; אבל אם ZF לא עקבית על אחת כמה וכמה אפשר להוכיח ש-\(D\ne5\)). הבעיה תהיה בצעד הבא: כדי להוכיח ש-\(D\ne4\) התלמידים צריכים להוכיח ש-\(\mbox{Pr}_{S}\left[D\ge4\to D=4\right]\), אבל זה לא נכון: אי אפשר להוכיח את \(D\ge4\to D=4\) רק מתוך \(S\) כי בשביל ההוכחה הזו צריך קודם כל להוכיח ש-\(D\ne5\) ובשביל זה צריך להניח ש-\(\mbox{ZF}\) עקבית. במילים אחרות, צריך להחליף את \(S\) ב-\(S\wedge\mbox{CON}\left(\mbox{ZF}\right)\). אבל אם נעשה את זה, נקבל מערכת חדשה, שגם את העקביות שלה אי אפשר להוכיח… אני מקווה שאתם מבינים את העיקרון.

הפתרון הזה יפה לטעמי בצורה בלתי רגילה כי הוא מצביע על פגם עמוק למדי לא בתוכן המשפט של גוסונובסקי (שהרי נשמע לנו סביר) אלא בהיסק של התלמידים, שלא באמת ניתן לביצוע. למעשה, התלמידים מסיקים בדיוק את מה שאנחנו מצפים שהם יוכלו להסיק – שביום חמישי לא יהיה מבחן – ואינם מסוגלים להסיק שום דבר מעבר לכך. הייתי אומר שזה אפילו הפתרון האולטימטיבי לפרדוקס, אלמלא בעיה קטנה אחת – לכו תסבירו אותו למישהו שלא מכיר לוגיקה ואת משפטי אי השלמות של גדל…

מהי נוסחת סטירלינג ואיך היא מוכיחה את קיום מפלצת הספגטי המעופפת

דף הפייסבוק של "כנסיית מפלצת הספגטי המעופפת" פרסם את הסטטוס הבא:

הרמתי היום מטבע, והתפללתי להוד איטריותה שבחצי מהזריקות אני אקבל עץ ובחצי השני אני אקבל פלי. בעזרת הדרכתה של אטרייתה הקדושה, המשאלה התגשמה.

מה גדול כוחה, ונאמר ר'אמן.

בהנחה שזה נכון (ואין סיבה שלא נאמין שזה נכון – זה נכתב בדף הפייסבוק של כנסיית מפלצת הספגטי המעופפת!), אני רוצה לשכנע אתכם שזה מוכיח שמפלצת הספגטי המעופפת קיימת. כלומר, שההסתברות של מה שתואר בציטוט היא אפסית.

כמובן, כופרים יגידו לכם שבעצם מדובר בפרודיה, ושכולם יודעים שבהטלת מטבע הסיכוי לקבל את אותו מספר פעמים עץ ופלי רק הולך וגדל ככל שיש יותר הטלות מטבע; מישהו אולי אפילו יסנן "חוק המספרים הגדולים". אבל לא! הם טועים! הם טועים ומפלצת הספגטי המעופפת קיימת.

נתחיל בלהגיד מה כן. כאשר יש לנו סדרה של \(2n\) הטלות מטבע (מטבע הוגן, כלומר הסתברות 50-50 לקבלת עץ או פלי), התוחלת של מספר ההטלות שיצאו עץ היא \(n\). בדיוק \(n\). אבל מה זה אומר, בעצם? תוחלת היא בסך הכל ממוצע משוקלל – אנחנו כופלים 1 בהסתברות שבסדרה של \(2n\) הטלות מטבע יצא עץ בדיוק פעם אחת, מחברים לזה את 2 כפול ההסתברות שיצא עץ פעמיים, מחברים לזה את 3 כפול ההסתברות שיצא עץ שלוש פעמים, וכן הלאה. לא קשה לראות כאן משיקולי סימטריה שהתוחלת חייבת לצאת \(n\) (כי סכום תוחלת מספר ההטלות שבהן יוצא עץ עם תוחלת מספר ההטלות שבהן יוצא פלי צריכה לצאת שווה לסכום ההטלות הכולל). עם זאת, זה לא אומר שכאשר נטיל מטבע \(2n\) פעמים, יצא לנו עץ בדיוק \(n\) פעמים!

אחד מהמשפטים שמאפשר לנו להשתמש בתוחלת כדי לומר משהו מהותי על הבעיה ההסתברותית שלנו הוא חוק המספרים הגדולים, שבגרסה החזקה יותר שלו, כשהיא מותאמת לסיטואציה הספציפית שלנו, אומר שהמספר הממוצע של ההטלות שנפלו על עץ (כלומר, מספר ההטלות שיצאו עץ חלקי מספר ההטלות הקודם) שואף לתוחלת של עץ בהטלה בודדת (שהיא \(\frac{1}{2}\)) בהסתברות 1. במילים אחרות, כמעט בכל סדרת הטלות אפשרית, ככל ש-\(n\) גדול יותר, כך כמות הפעמים שיצא "עץ" בסדרה של \(2n\) ההטלות תהיה קרובה יותר ל-\(n\), אבל צריך להיות זהירים עם ה"קרוב יותר" הזה. אם יש 10 הטלות ומתוכן 4 יצאו עץ, האם זה טוב יותר או פחות מאשר 100 הטלות שמתוכן 48 יצאו עץ? מצד אחד, במקרה הראשון ציפינו לקבל 5 עצים וההפרש בין 4 ו-5 הוא 1, ולעומת זאת במקרה השני ההפרש בין 48 ו-50 הוא 2, כך שהמקרה השני "פחות טוב"; ומצד שני, במקרה הראשון המספר הממוצע של הטלות שנפלו על עץ הוא \(\frac{4}{10}=\frac{2}{5}\) בעוד שבמקרה השני הוא \(\frac{48}{100}=\frac{12}{25}\), וזה מספר קרוב יותר ל-\(\frac{1}{2}\) מאשר \(\frac{2}{5}\). חוק המספרים הגדולים מתייחס למקרה השני כטוב יותר מהראשון; זו משמעות "השאיפה".

אם כן, חוק המספרים הגדולים אומר שאם נבצע \(2n\) הגרלות ונחלק את מספר העצים שקיבלנו ב-\(2n\), נקבל משהו קרוב לחצי, וככל ש-\(n\) יהיה יותר גדול כך רמת הקרבה הזו תגדל עוד יותר. אתם מוזמנים לנסות את זה בעצמכם בסימולציות מחשב ולהיווכח (באופן אמפירי!) שהמתמטיקה עובדת. עבור \(n\) גדול מספיק ייתכן אפילו שהמספר הממוצע שתקבלו יחרוג מרמת הדיוק שלכם ולכן ייראה לכם בדיוק כמו \(\frac{1}{2}\) (חשבו על \(0.50000000000000001\) כאשר המחשב שלכם לא מציג את חמש הספרות האחרונות). זה עדיין לא אומר שתקבלו בדיוק חצי, אבל שתקבלו משהו באיזור חצי, וככל ש-\(n\) יותר גדול, כך האיזור הזה יכול להיות יותר גדול.

אם כן, תשכחו מתוחלת. תשכחו מחוק המספרים הגדולים. בואו נדבר על חישוב פרקטי. נתון \(n\); מה ההסתברות שבסדרה של \(2n\) הטלות מטבע נקבל עץ בדיוק \(n\) פעמים?

זו דוגמה למשתנה מקרי בינומי שכבר הזכרתי בבלוג בעבר. החישוב הוא פשוט למדי: בגלל שההסתברות לעץ היא \(\frac{1}{2}\), וגם ההסתברות לפלי היא \(\frac{1}{2}\), אז לכל סדרה שהיא של עץ ופלי, ההסתברות שתתקבל בדיוק הסדרה הזו היא \(\frac{1}{2^{2n}}\) (\(\frac{1}{2}\) עבור הסיכוי לקבל בהטלה הראשונה את האיבר הראשון בסדרה, כפול \(\frac{1}{2}\) עבור הסיכוי לקבל בהטלה השניה את האיבר השני בסדרה וכן הלאה). נשאלת רק השאלה – כמה סדרות מאורך \(2n\) שכוללת בדיוק \(n\) פעמים עץ קיימות? גם זה קל: אנחנו צריכים לבחור \(n\) מקומות עבור עץ, ולכן התוצאה היא \({2n \choose n}\) (מי שלא מכיר את הסימונים הללו מוזמן לקרוא את הבלוג על משתנים בינומיים, או את הפוסטים שלי על קומבינטוריקה). שימו לב ש-\({2n \choose n}\) הוא מקדם הבינום הגדול ביותר מבין כל אלו שיש להם \(2n\) למעלה, כך שההסתברות לקבל \(n\) פעמים עץ היא אכן הגדולה מכל ההסתברויות לקבל מספר ספציפי של פעמים עץ; עם זאת, זה עדיין לא אומר שהיא גדולה בפני עצמה, רק שהיא גדולה מכל היתר (והמספר של "היתר" הולך וגדל).

אם כן, ההסתברות היא \({2n \choose n}2^{-2n}\). האם זו הסתברות קטנה? גדולה? מה קורה כש-\(n\) שואף לאינסוף, האם ההסתברות שואפת ל-1? ל-0? ל-\(\frac{37}{100}\)? לא ברור איך בדיוק לתקוף את הבעיה הזו במפורש כי אין לנו נוסחה מפורשת נחמדה ל-\({2n \choose n}\). מה שאנחנו כן יכולים לעשות הוא ללכת על פי ההגדרה של הסימון של מקדמי הבינום, \({2n \choose n}=\frac{\left(2n\right)!}{\left(n!\right)^{2}}\), אבל איך מתקדמים מכאן? אין לנו נוסחה סגורה יפה עבור עצרת…

לעזרתנו נחלץ קירוב. לא סתם קירוב – האמא של הקירובים. הקירוב שבדרך כלל פותר את רוב הבעיות שקשורות לעצרת – נוסחת סטירלינג. נתחיל בלהציג אותה:

\(n!\approx\sqrt{2\pi n}\left(\frac{n}{e}\right)^{n}\)

מה \(\approx\) אומר? פורמלית, שאם נחלק את שני הביטויים הללו ונשאיף את \(n\) לאינסוף, נקבל 1, כלומר \(\lim_{n\to\infty}\frac{n!}{\sqrt{2\pi n}\left(\frac{n}{e}\right)^{n}}=1\). איך לעזאזל מוכיחים דבר כזה, ועוד יותר לעזאזל מאיפה \(\pi\) החליט לדחוף את עצמו לעניין – זה דורש עבודה כלשהי; אני לא מכיר הוכחה לנוסחה שהיא גם אלמנטרית (לא משתמשת בידע מתמטי קודם שהוא לא טריוויאלי) וגם פשוטה. אני מקווה בעתיד להראות הוכחה בבלוג, ובינתיים בואו נראה מה זה אומר על הבעיה שלנו.

אם נשתמש בנוסחת סטירלינג כדי לקבל קירוב עבור המקדם הבינומי שלנו, נקבל את זה:

\({2n \choose n}=\frac{\left(2n\right)!}{\left(n!\right)^{2}}\approx\frac{\sqrt{2\pi2n}\left(2n/e\right)^{2n}}{\sqrt{\left(2\pi n\right)^{2}}\left(n/e\right)^{2n}}=\frac{2\sqrt{\pi n}}{2\pi n}\cdot\frac{2^{2n}\cdot n^{2n}}{n^{2n}}=\frac{2^{2n}}{\sqrt{\pi n}}\)

אני מקווה שהמעברים לא היו מהירים יותר מדי, אבל באמת שאין כאן שום דבר מלבד חשבון סטנדרטי. המסקנה? \({2n \choose n}2^{-2n}\approx\frac{1}{\sqrt{\pi n}}\). בפרט, מכיוון ש-\(\lim_{n\to\infty}\frac{1}{\sqrt{\pi n}}=0\) זה אומר ש-\(\lim_{n\to\infty}{2n \choose n}2^{-2n}=0\), כלומר אפשר לשכוח מכך שנתקבע על סיכוי של 37 אחוז לקבל חצי-חצי; ככל ש-\(n\) גדול יותר, כך הסיכוי שלנו לקבל חצי-חצי ילך ויתקרב לאפס. אמנם, הקצב שבו זה קורה הוא יחסית איטי (כי \(\sqrt{n}\) היא פונקציה שגדלה די לאט), אבל השורה התחתונה נותרת בעינה – באופן שהוא אולי קצת לא מתאים לאינטואיציה, ככל ש-\(n\) גדול יותר, ההסתברות קטנה יותר (למרות שהממוצע יהיה קרוב יותר לחצי).

מה המסקנה מכל זה? שמפלצת הספגטי המעופפת קיימת? שהיא לא קיימת? שצריך להיזהר גם עם טענות מתמטיות שנשמעות טוב אינטואיטיבית? אני אישית הולך עם "סטירלינג זה מגניב!"

אקסיומת הבחירה, עקרון הסדר הטוב, הלמה של צורן – מי יודע?

"אקסיומת הבחירה בבירור נכונה, עקרון הסדר הטוב בבירור שגוי, ובנוגע ללמה של צורן, מי יודע?" אמר המתמטיקאי ג'רי בונה. העוקץ פה הוא בכך שאקסיומת הבחירה, הלמה של צורן ועקרון הסדר הטוב כולם שקולים, אבל מה הם? אני רוצה להקדיש את הפוסט הזה לתיאור שלהם והוכחה (לא פורמלית עד הסוף) לשקילות.

הרקע שלנו הוא תורת הקבוצות; לא צריך לדעת הרבה יותר מאשר מהי קבוצה, מהי פונקציה ומהו סדר על אברים, אבל אני אניח שהקורא יודע ולא מפחד ממתמטיקה. נתחיל עם אקסיומת הבחירה שדורשת הכי מעט ידע מוקדם – היא אומרת, בפשטות, שאם יש לנו אוסף של קבוצות לא ריקות, אפשר לבחור איבר מכל אחת מהקבוצות הללו. פורמלית, אם \(\mathcal{F}\) היא משפחה של קבוצות לא ריקות, אז קיימת פונקציה \(f:\mathcal{F}\to\bigcup\mathcal{F}\) כך ש-\(f\left(A\right)\in A\) לכל \(A\in\mathcal{F}\). במילים אחרות, הפונקציה מקבלת קבוצה מתוך \(\mathcal{F}\) ומחזירה איבר כלשהו מתוך אותה קבוצה. לא נשמע ביג דיל במיוחד, נכון? ובכן, לכן "אקסיומת הבחירה בבירור נכונה".

הבעיה היא שלא תמיד ברור איך לבנות פונקציה כזו. נניח לרגע ש-\(\mathcal{F}=2^{\mathbb{N}}\), שזה סימון נחמד לתיאור אוסף כל תת-הקבוצות של הטבעיים (אופס! הוא כולל גם את הקבוצה הריקה. אז בואו נעיף אותה מ-\(\mathcal{F}\)). האם אנחנו יודעים לבנות פונקציה כזו? ובכן, כן: \(f\left(A\right)=\min A\), האיבר המינימלי ב-\(A\). יש כזה, כי בכל קבוצה של טבעיים יש איבר מינימלי.

אוקיי, ומה אם \(\mathcal{F}=2^{\mathbb{Z}}\)? כבר לא נכון לומר שבכל קבוצה של שלמים יש איבר מינימלי, אבל זה קושי שקל מאוד לעקוף – נבחר איבר שהוא מינימלי בערך המוחלט שלו, ואם יש שני מספרים ששווים בערך המוחלט שלהם, אז נבחר את השלילי מביניהם. או את החיובי. מה שתרצו.

אוקיי, ומה אם \(\mathcal{F}=2^{\mathbb{Q}}\)? כאן זה קצת יותר טריקי, אבל אפשר עדיין להתחכם: מספר רציונלי הוא מהצורה \(\frac{a}{b}\) כאשר \(b\ge1\), אז בהינתן \(A\) נסתכל על כל המספרים ב-\(A\) שעבורם \(b\) מינימלי, ואז מביניהם נסתכל על זה שעבורו \(a\) מינימלי בערכו המוחלט.

אוקיי, ומה אם \(\mathcal{F}=2^{\mathbb{R}}\)? אה…

אה…

אין לי מושג מה עושים במקרה הזה. אני עדיין "מרגיש" שפונקצית בחירה חייבת להתקיים, אבל לבנות לכם אותה בצורה פורמלית? אין לי מושג איך עושים את זה.

מה שצריך להבין כשמדובר על אקסיומת הבחירה הוא שכשאנחנו באים לעשות מתמטיקה בצורה פורמלית, לא כל מה שאנחנו אומרים בהכרח מתקיים. צריך להוכיח, ולהוכיח בזהירות. וכשמוכיחים, צריך להוכיח מתוך משהו. ובתורת הקבוצות המשהו הזה הוא מאוד קונקרטי – לרוב מדובר על מערכת האקסיומות של צרמלו-פרנקל, ZF, שלא אציג במפורש עכשיו אבל מגדירה מאוד בזהירות באילו דרכים אפשר לבנות קבוצות. וכלל לא ברור שאם מצייתים ל"חוקים" של ZF אז אפשר יהיה לבנות פונקצית בחירה עבור כל אוסף \(\mathcal{F}\); למעשה, בואו נשים את הקלפים על השולחן – אי אפשר. יש הוכחה לכך שאקסיומות הבחירה היא בלתי תלויה באקסיומות של ZF, כלומר אפשר להוסיף אותה ל-ZF ולקבל מערכת אקסיומות עקבית (ולכן כזו שמתארת "עולם" מתמטי לגיטימי כלשהו) שנקראת ZFC, אבל אפשר גם להוסיף את שלילתה ל-ZF ועדיין לקבל מערכת אקסיומות עקבית. בדרך כלל מוסיפים את אקסיומת הבחירה; בטקסטים מתמטיים שלא מתעסקים ישירות בתורת הקבוצות פה ושם אפשר לראות את משפט המחץ "כאן השתמשנו באקסיומת הבחירה". אפשר לקיים דיון פילוסופי ארוך ומייגע בשאלה אם "נכון" להוסיף את אקסיומת הבחירה למתמטיקה או לא; אני לא מעוניין בו כרגע אלא בתוצאה המתמטית המגניבה שאקסיומת הבחירה שקולה ללמה של צורן ולעקרון הסדר הטוב.

בשביל שני אלו צריך לדבר על סדר. סדר חלקי על קבוצה \(A\) הוא יחס (אוסף של זוגות של איברים מ-\(A\)) שאני בדרך כלל מסמן בתור \(a<b\) וקורא בתור "\(a\) קטן מ-\(b\)". מה שחשוב הוא שאף איבר לא קטן יותר מעצמו (לא מתקיים \(a<a\) לאף \(a\in A\)), ושהוא טרנזיטיבי, כלומר אם \(a<b\) וגם \(b<c\) אז \(a<c\) (שימו לב שנובע משני אלו מייד שהיחס לא סימטרי, כלומר לא ייתכן שגם \(a<b\) וגם \(b<a\)). יחס הסדר הרגיל על מספרים הוא כמובן סדר שכזה, אבל גם היחס "\(a\) מחלק את \(b\)" (שמסומן בד"כ בתור \(a|b\)) הוא יחס סדר, וכזה שבו יש איברים שבכלל אי אפשר להשוות (לכו תשוו את 3 ו-5). גם היחס "\(A\subseteq B\)" על קבוצות הוא יחס סדר (וחלקי, כי לכו תשוו את \(\left\{ 1\right\} ,\left\{ 2\right\} \)).

נניח שיש לנו קבוצה גדולה \(X\) שעליה מוגדר יחס סדר, ויש לנו תת-קבוצה שלה, \(A\subseteq X\). מן הסתם יחס הסדר על \(X\) תקף גם עבור \(A\) (למה? תוכיחו, זה קל). אם יש ב-\(X\) איבר שגדול לפחות כמו כל אברי \(A\) (כלומר, \(a\le x\) לכל \(a\in A\) עבור \(x\in X\) מסויים – כאשר \(a\le x\) פירושו \(a<x\) או \(a=x\)) אז קוראים לאיבר שכזה "חסם מלעיל" של \(A\). למשל, אם נסתכל על \(\left(0,1\right)\) – כל המספרים הממשיים בין 0 ל-1 – אז 1 הוא חסם מלעיל שכזה. וגם 2. וגם \(\pi\).

עוד שתי הגדרות קטנות. ראשית, אם \(a\in X\) הוא איבר כזה כך שלא קיים \(b\in X\) עבורו \(a<b\) אומרים ש-\(a\) מקסימלי (שימו לב שזה לא אומר ש-\(b\le a\) עבור כל \(b\in X\); ייתכן שיש גם איברים שאינם ניתנים להשוואה עם \(a\)). שנית, אם \(A\) היא תת-קבוצה של \(X\) שבה כל שני איברים ניתנים להשוואה (אומרים במקרה כזה שהסדר על \(A\) הוא מלא או לינארי) אז קוראים ל-\(A\) "שרשרת" (כי אפשר לחשוב על האיברים של \(A\) בתור חוליות בשרשרת… עזבו, לא חשוב). עכשיו סוף סוף אפשר לנסח פורמלית את הלמה של צורן: אם \(X\) היא קבוצה שמוגדר עליה יחס סדר בעל התכונה שלכל שרשרת יש חסם מלעיל, אז יש ב-\(X\) איבר מקסימלי.

התגובה הראשונה היא כנראה "מה…?". לא ברור מה הלמה אומרת. לא ברור למה זה נכון. והכי לא ברור למה זה מעניין. ובכן, זה מעניין כי זה שימושי בצורה יוצאת מן הכלל במתמטיקה, בחלק מהמשפטים הבסיסיים בכל מני תחומים. למשל, ההוכחה שלכל מרחב וקטורי יש בסיס שכבר הבאתי כאן פעם. בנוגע ל"למה זה נכון" – ובכן, צריך את אקסיומת הבחירה בשביל זה. בנוגע ל"לא ברור מה היא אומרת", ובכן – זה כנראה מסוג הדברים שעליהם ג'ון פון נוימן אמר "במתמטיקה לא מבינים דברים, במתמטיקה מתרגלים לדברים"; אחרי שמתעסקים קצת עם הלמה מתרגלים אליה ונהיה קצת יותר ברור מה היא אומרת. עד אז, אפשר להבין למה ג'רי בונה אמר ש"מי יודע" בנוגע לנכונות הלמה של צורן.

נעבור לעקרון הסדר הטוב (לפעמים קוראים לו "משפט הסדר הטוב" ומשתמשים ב"עקרון הסדר הטוב" כדי להתכוון למשהו אחר לגמרי, כי זה מה שמתמטיקאים אוהבים לעשות – לבלבל). מה זה יחס סדר כבר הסברתי. אפילו יחס סדר מלא כבר הזכרתי. סדר טוב הוא הבן המוצלח של סדר מלא: הוא סדר מלא על \(X\) כך שבכל תת-קבוצה \(A\subseteq X\) יש איבר מינימלי ביחס לסדר הזה, כשמינימלי, כצפוי, הוא איבר \(a\in A\) כך שלכל \(b\in A\) מתקיים \(a\le b\) (ליתר דיוק, כך שלא קיים \(b\in A\) עבורו \(b<a\), אבל מכיוון שהסדר מלא זה שקול). האב-טיפוס של קבוצה עם סדר טוב הוא המספרים הטבעיים; ובמובן מסויים, כל קבוצה שסדורה בסדר טוב ניתנת לתיאור על ידי סודר כלשהו (פורמלית – איזומורפית לסודר כלשהו, כשאיזומורפיזם פה צריך לשמר את יחס הסדר). זה מעלה את השאלה המעניינת האם כל קבוצה אפשר לסדר בסדר טוב שכזה (בבירור יחסי הסדר ה"רגילים" על \(\mathbb{Z},\mathbb{Q},\mathbb{R}\) אינם כאלו, ועל \(\mathbb{C}\) בכלל אין יחס סדר "טבעי", ואלו עוד קבוצות פשוטות יחסית). עקרון הסדר הטוב אומר שכן, על כל קבוצה אפשר להגדיר סדר טוב. וזה מוזר. זה ממש מוזר. אין לי מילים לומר כמה זה מוזר. בעוד שעל \(\mathbb{Z}\) ו-\(\mathbb{Q}\) אני עוד יכול לנחש איך להגדיר סדר טוב (ועשיתי את זה קודם כבר בפוסט הזה, אם תשימו לב – וכמובן שלא במקרה), על \(\mathbb{R}\) כבר אין לי מושג איך סדר טוב ייראה. אז איך בכל זאת אפשר להגדיר אותו? ניחשתם נכון – עם אקסיומת הבחירה.

יפה, אז הצגנו את שלושת המשפטים הללו. כעת בואו נוכיח שכולם שקולים, כלומר מספיק להניח אחד מהם כדי להוכיח את שני האחרים. מה שנעשה יהיה להוכיח שאקסיומת הבחירה שקולה הן לעקרון הסדר הטוב והן ללמה של צורן; מכך כבר נובע היתר. ההוכחה לא תהיה פורמלית עד הסוף כי אני הולך להתבסס על משהו שאף פעם לא הגדרתי במפורש – רקורסיה על-סופית, שהיא פשוט דרך להגדיר סדרות של איברים על ידי כך שאני מגדיר איך כל איבר בסדרה מתקבל כפונקציה של כל קודמיו, אבל כאן "סדרה" מאונדקסת על ידי סודר כללי ולאו דווקא על ידי קבוצת המספרים הטבעיים וזהו (דוגמה לסדרה קצת יותר כללית: \(a_{0},a_{1},a_{2},a_{3},\dots,a_{\omega},a_{\omega+1},\dots,a_{\omega\cdot2},a_{\omega\cdot2+1}\) – זו סדרה שה"אורך" שלה הוא הסודר \(\omega\cdot2+2\)). להוכחה פורמלית ממש כדאי ללכת לספרים (הספר של Jech, למשל).

נתחיל עם אקסיומת הבחירה ועקרון הסדר הטוב. אם עקרון הסדר הטוב נכון, אז אקסיומת הבחירה נובעת בקלות: בהינתן \(\mathcal{F}\), נסדר את \(\bigcup\mathcal{F}\) בסדר טוב ונגדיר \(f\left(A\right)=\min A\), בדיוק כמו שעשיתי בתחילת הפוסט. הכיוון השני הוא המעניין פה.

בכיוון השני, מה שנרצה לעשות בהינתן \(A\) הוא לסדר את אבריה בסדרה על-סופית. מכך ינבע סדר טוב בקלות, כי סדרה על-סופית משרה סדר טוב על \(A\), כשההשוואה בין שני איברים היא פשוט לפי מי בא קודם בסדרה. איך בונים את הסדרה הזו? ברקורסיה על-סופית. פורמלית זה דורש להיות טיפה זהירים, אבל לא פורמלית אני פשוט יכול להגיד משהו בסגנון "נבחר איבר כלשהו מ-\(A\) להיות ראשון; נבחר איבר כלשהו מ-\(A\) שטרם בחרנו כדי להיות שני; וכו' וכו' כשבכל צעד האיבר הבא שלנו ייבחר מבין האיברים שטרם נבחרו".

קצת יותר פורמלית, בכל זאת: נגדיר \(\mathcal{F}=2^{A}\) (כרגיל, בלי הקבוצה הריקה). אז מאקסיומת הבחירה, יש פונקצית בחירה \(f:\mathcal{F}\to A\). כעת, לכל סודר \(\alpha\) נגדיר \(a_{\alpha}=f\left(A\backslash\left\{ a_{\beta}|\beta<\alpha\right\} \right)\). זו כנראה ההגדרה המסובכת ביותר בפוסט, והיא פשוט אומרת "תפעיל את \(f\) על תת-הקבוצה של \(A\) שמתקבלת על ידי הסרה מ-\(A\) של כל האיברים בסדרה שאנחנו בונים שהאינדקס שלהם קטן מ-\(\alpha\)".

הבניה הזו חייבת להיתקע מתישהו – כלומר, מתישהו נגיע לסודר \(\alpha\) כך ש-\(A=\left\{ a_{\beta}|\beta<\alpha\right\} \) ולכן אין יותר איברים לבחור – אבל זה טוב לנו, כי זה אומר שבניית הסדרה שלנו תסתיים מתישהו בהצלחה (למה הבניה חייבת להיתקע? כי אחרת היינו מקבלים שב-\(A\) יש איבר ייחודי לכל סודר – אבל "קבוצת כל הסודרים" גדולה מדי מכדי להיות קבוצה, וזה יסתור את זה ש-\(A\) היא קבוצה). זה משלים את ההוכחה, מודולו הפרטים הטכניים שטאטאתי באלגנטיות רבה מתחת לשטיח.

נעבור ללמה של צורן. כאן אין כיוון טריוויאלי, אז בואו נתחיל דווקא מלהוכיח את הלמה של צורן עם אקסיומת הבחירה. אז נתונה לנו קבוצה \(X\) שבה לכל שרשרת יש חסם מלעיל. אנחנו רוצים למצוא איבר מקסימלי ב-\(X\). מה עושים? פשוט מאוד! בונים בהדרגה (כלומר, ברקורסיה על-סופית) שרשרת; אם מתישהו נתקעים, אז בהכרח האיבר שבסוף השרשרת הוא מקסימלי; אם לא נתקעים, אז קיבלנו שרשרת "גדולה מדי" (כמקודם, זה אומר שיש איבר בשרשרת לכל סודר אפשרי, וזה בלתי אפשרי).

קצת יותר פורמלית, שוב פעם אנחנו מניחים קיום של פונקצית בחירה \(f:2^{X}\to X\) ובונים סדרה כך: \(a_{\alpha}=f\left(\left\{ x\in X\ |\ x>\left\{ a_{\beta}|\beta<\alpha\right\} \right\} \right)\). הסימון של "\(x\) גדול מקבוצה" הוא המצאה פרועה שלי ובסך הכל אומר ש-\(x\) הוא חסם מלעיל של הקבוצה ואינו שייך אליה. גם פה הבניה חייבת "להיתקע" מתישהו ולכן האיבר הגדול ביותר בסדרה יהיה איבר מקסימלי ב-\(X\) באופן כללי (כי אם הוא אינו מקסימלי, אז קיים איבר שגדול ממנו ולכן הוא חסם מלעיל של כל הסדרה).

יש כאן נקודה עדינה אחת שצריך להתייחס אליה – לא ברור למה בסדרה יהיה בכלל "איבר גדול ביותר". התשובה פשוטה: אם אין כזה, אז מכיוון שהסדרה כולה היא שרשרת יש לה חסם מלעיל ב-\(X\) ואפשר להמשיך בבניה; הסיכוי היחיד להיתקע הוא כשהחסם מלעיל היחיד של הסדרה שלנו הוא האיבר הגדול ביותר בה.

נעבור עכשיו להוכחה של אקסיומת הבחירה בעזרת הלמה של צורן. למי שראה הוכחה כלשהי שמשתמשת בלמה של צורן (למשל, ההוכחה שקישרתי אליה לכך שלכל מרחב וקטורי יש בסיס) ההוכחה שאציג כעת תיראה ודאי סטנדרטית; אכן, רוב ההוכחות שמשתמשות בלמה של צורן הן בעלות מבנה די מסודר וברור.

במבט ראשון, לא ברור איך לגשת לסיפור הזה. יש לנו \(\mathcal{F}\) וצריך לבנות פונקצית בחירה עבורה, אבל איך נשתמש בלמה של צורן? צריך בשביל זה יחס סדר. איזה יחס סדר? האם כדאי להגדיר יחס סדר על \(\mathcal{F}\)? על הקבוצות ב-\(\mathcal{F}\)? מה עושים? ובכן, בלי פאניקה. החוכמה כאן היא לבחור את הקבוצה ה"נכונה" להשתמש בלמה של צורן עליה. בואו נגדיר קבוצה חדשה \(\mathcal{B}\) של כל הפונקציות שהן פונקציות בחירה חלקיות על \(\mathcal{F}\). כלומר, פונקציות שמקיימות \(f\left(A\right)\in A\) לכל \(A\in\mathcal{F}\) שעליו הן מוגדרות, אבל לא חייבות להיות מוגדרות על כל הקבוצות ב-\(\mathcal{F}\). על הקבוצה הזו מושרה יחס סדר טבעי למדי: \(f<g\) אם ורק אם \(g\) מוגדרת על כל מי ש-\(f\) מוגדר עליו ומחזירה אותו ערך (אבל אולי מוגדרת על ערכים רבים יותר). במתמטית אומרים ש-\(f\) הוא צמצום של \(g\); ועוד יותר פורמלית אפשר פשוט לכתוב \(f\subseteq g\) (כי פונקציות, בשורה התחתונה, הן קבוצות של זוגות שמקיימים תנאים מסויימים).

אם נראה שיש איבר מקסימלי ב-\(\mathcal{B}\), סיימנו; זו תהיה פונקצית הבחירה המבוקשת. זאת מכיוון שאם האיבר המקסימלי, שאסמן ב-\(f\), הוא לא פונקצית בחירה, אז יש \(B\in\mathcal{B}\) שעליו \(f\) לא מוגדרת, ומכיוון ש-\(B\) לא ריקה יש איזה \(b\in B\), אז אפשר להגדיר \(f^{\prime}\) שתהיה זהה ל-\(f\) על כל הקלטים שעליהם \(f\) מוגדרת, ובנוסף \(f^{\prime}\left(B\right)=b\) והופה – סתירה למקסימליות \(f\) (ייתכן שאתם רוצים עכשיו לשאול "אבל רגע, איך בחרת את \(b\) ב-\(B\) בלי אקסיומת הבחירה?". התשובה היא שאין בעיה מבחינה מתמטית לבחור איבר מקבוצה יחידה; הבעיה מתעוררת כאשר צריך לבחור "בבת אחת" מאינסוף קבוצות).

כדי להראות שיש איבר מקסימלי ב-\(\mathcal{B}\) צריך להראות שלכל שרשרת יש חסם מלעיל, וזה כבר באמת נעשה באופן ה"סטנדרטי": נניח שיש לנו שרשרת \(\mathcal{C}\) כלשהי של פונקציות בחירה חלקיות; נגדיר פונקציה חדשה בתור \(\bigcup\mathcal{C}\) (ובמילים – פונקציה שלכל \(A\in\mathcal{F}\) שמישהו ב-\(\mathcal{C}\) מוגדר עליה, מחזירה את הערך שאותו מישהו נותן ל-\(A\) – צריך טיפונת לעבוד כדי להראות שההגדרה המילולית הזו לא יוצרת בעיות של דו משמעות). הפונקציה הזו היא בבירור חסם מלעיל של השרשרת, מה שמסיים את ההוכחה.

עכשיו, משהתפזר עשן הקרב, אפשר לחזור אל ג'רי בונה. "אקסיומת הבחירה בבירור נכונה, עקרון הסדר הטוב בבירור שגוי, ובנוגע ללמה של צורן, מי יודע?" . לא משנה כמה פעמים אראה את הוכחת השקילות של הטענות הללו, אני עדיין מסכים עם הציטוט הזה באופן מוחלט.

מהמרים כושלים, שיכורים בביוב, ואלוהים

הטריגר לפוסט הזה הוא המאמר הבא ב-Ynet שמנסה לשכנע אותנו שיש אלוהים בגלל שיש אבולוציה. אבל נחכה עם החלק הלא מתמטי לסוף – הסיבה שאני כותב את הפוסט הזה היא שהוא מזכיר שם תוצאה מתמטית קטנה ונחמדה שהיא פתח לתחום מעניין או שניים ומזמן רציתי לכתוב עליה. התוצאה הזו נקראת לעתים "התרוששות המהמר" (Gambler's Ruin), אף כי לא תמיד קוראים לה כך, ולפעמים קוראים בשם "התרוששות המהמר" גם לדברים אחרים.

במה העניין? נניח שאתם נכנסים לקזינו הוגן. "הוגן", במובן זה שהסיכוי שלכם להרוויח בסיבוב כלשהו זהה לסיכוי שלכם להפסיד בו. ואתם מהמרים ומהמרים כאילו אין מחר. ונניח גם שהקזינו לא יכול להתרושש אף פעם – לא משנה איזה סכום תרוויחו, יש לו כיסוי לכך. המסקנה המתמטית: אתם הולכים להתרושש, ובגדול. מובטח לכם, בהסתברות של 100 אחוז, שאם תהמרו לעד, בסוף תפסידו הכל.

אותי התוצאה הזו הפתיעה למדי, אבל אני משער שלחלקכם היא מרגישה מובנת מאליה – מי שמהמר עד אינסוף, ברור שיפסיד הכל בסופו של דבר, לא? אלא שגם האינטואיציה הזו לא נכונה, כי אם הקזינו מוטה לטובתכם, ואפילו אם זה אומר רק שיש לכם הסתברות של 51 לזכות בכל סיבוב, הרי שיש לכם סיכוי כלשהו להמשיך עם משחק ההימורים לנצח מבלי להפסיד הכל. אבל בקזינו הוגן (וגם, כצפוי, קזינו שמוטה לרעתכם, כפי שקורה במציאות) מובטח לכם להפסיד.

נשאלת השאלה, איך מוכיחים את זה מתמטית, ואפילו איך ממדלים את זה. לצורך פשטות נניח שבכל הימור אתם מרוויחים או מפסידים שקל, בהסתברות \(p\) (כאשר הקזינו הוגן, \(p=\frac{1}{2}\)). אז אפשר למדל את הסיטואציה הזו בתור הילוך אקראי – הילוך שכזה הוא סדרה של "מצבים", שמכל אחד מהם עוברים באופן אקראי למצב הבא בתור. כאן כל מצב מאופיין על ידי כמות הכסף שלנו, כלומר יש מצב לכל מספר טבעי (מצב מס' 0 הוא זה שבו יש לנו אפס שקלים, מצב מס' 1 הוא זה שבו יש לנו שקל אחד וכדומה). אם אנחנו במצב \(n\), אז בהסתברות חצי אנו עוברים למצב \(n-1\) ובהסתברות חצי למצב \(n+1\). המצב החריג היחיד הוא מצב 0, שממנו אין שום יציאה, אבל ממילא לא נתעניין בגורל הילוך מקרי מרגע שהוא כבר הגיע למצב 0, אלא רק בהסתברות שלו להגיע למצב 0 אם הוא התחיל במקום אחר.

כרגיל, אנחנו רק מגרדים פה את קצה הקרחון של תורה עמוקה יותר. באופן כללי סיטואציה כזו, שבה אנחנו נמצאים בתוך אחד מבין קבוצה של "מצבים", ובוחרים באקראי את המצב הבא על פי הגרלה שתלויה אך ורק במצב הנוכחי שלנו (להבדיל מהגרלה שתלויה גם ב"היסטוריה" שלנו – למשל, המצב שבו היינו מייד לפני המצב הנוכחי) – נקראת שרשרת מרקוב (ליתר דיוק – שרשרת מרקוב בדידה בזמן בדיד, אבל נעזוב את זה). לשרשראות מרקוב תורה יפה וכללית משלהן, שלא אציג כאן. אציג רק את המשפט שרלוונטי לענייננו, זה שנוגע ל"זמני פגיעה" במצבים.

מרקוב אומר – קחו שרשרת. וכעת קחו קבוצת מצבים \(A\), שאתם רוצים לדעת מה ההסתברות "לפגוע" בהם אם התחלתם ממצב \(i\) כלשהו. נסמן ב-\(h_{i}^{A}\) את ההסתברות הזו (לפגוע ב-\(A\) מתישהו אם התחלתם מ-\(i\)). ברור ש-\(h_{i}^{A}=1\) אם \(i\in A\); ולא קשה לראות שעבור \(i\notin A\) צריך להתקיים \(h_{i}^{A}=\sum_{j}p_{ij}h_{j}^{A}\) כאשר \(p_{ij}\) הוא ההסתברות לעבור מהמצב \(i\) למצב \(j\) (הסתברות שיכולה להיות גם 0).

את ה"לא קשה לראות" הזה כדאי להסביר עוד קצת. בפוסט הקודם, שעסק בבעיית המזכירה, השתמשתי בנוסחת ההסתברות השלמה; גם כאן הנוסחה שלעיל היא פשוט שימוש בנוסחת ההסתברות השלמה, כאשר האירועים שמחלקים את המרחב שלנו הם מהצורה "מ-\(i\) אני אעבור אל \(j\)". אם כבר ידוע שעברת ל-\(j\), אז ההסתברות שתפגע ב-\(A\) היא בדיוק ההסתברות \(h_{j}^{A}\) – ההסתברות שתפגע ב-\(A\) אם אתה מתחיל מ-\(j\). כאן אני משתמש בצורה חזקה בכך שלשרשרת מרקוב אין זכרון, ולכן ההסתברות שלך לפגוע ב-\(A\) אם עברת אל \(j\) זהה להסתברות שלך לפגוע ב-\(A\) אם התחלת ב-\(j\) – אין חשיבות להיסטוריה.

יופי. כעת בא מרקוב ואומר שהפתרון האי שלילי המינימלי למערכת המשוואות שנתנו עבור ה-\(h_{i}^{A}\) הוא גם מה שקורה בפועל בשרשרת. זו לא טענה טריוויאלית לחלוטין וההוכחה שלה טיפה טכנית ולכן לא אציג אותה כרגע, אבל היא מן הסתם נמצאת בכל ספר לימוד בנושא (אני מקווה…). בואו נעבור ליישם אותה על המקרה שלנו.

במקרה שלנו, הנוסחה יוצאת פשוטה למדי. ראשית, \(A\) תכיל רק את מצב מס' 0, ונרשום \(h_{i}\) בלי ה-\(A\) למעלה כי זה סתם מיותר. כעת, מערכת המשוואות שלנו כוללת רק משוואות מהצורה הבאה: \(h_{i}=ph_{i+1}+qh_{i-1}\), כאשר \(p\) הוא ההסתברות לנצח בהימור של הסיבוב הנוכחי ולהרוויח שקל אחד ו-\(q\) היא ההסתברות להפסיד. מכיוון שאו שמנצחים או שמפסידים, \(p+q=1\). כמו כן, \(h_{0}=1\), כמובן.

אם נרשום את המשוואה שלמעלה בצורה טיפה שונה, נקבל \(ph_{i+1}=h_{i}-qh_{i-1}\). זוהי נוסחת נסיגה, ואנחנו יודעים לפתור נוסחאות כאלו בקלות עוד מימי פיבונאצ'י העליזים בבלוג. בואו נזכיר את הרעיון בקצרה – בהינתן משוואת נסיגה \(a_{n}=\alpha a_{n-1}+\beta a_{n-2}\) אנחנו "מנחשים" (ניחוש מושכל, כמובן) שיש למשוואה פתרון מהצורה \(h_{n}=\lambda^{n}\), מציבים את הפתרון בנוסחת הנסיגה, מקבלים \(\lambda^{n}=\alpha\lambda^{n-1}+\beta\lambda^{n-2}\), מחלקים ב-\(\lambda^{n-2}\) (תוך הנחה ש-\(\lambda\ne0\) אחרת הפתרון "לא מעניין") ומקבלים משוואה ריבועית \(\lambda^{2}=\alpha\lambda+\beta\). למשוואה הזו אנחנו מוצאים את שני הפתרונות \(\lambda_{1},\lambda_{2}\) שנותנים לנו שני פתרונות לנוסחת הנסיגה, ואז קורה קסם – מתברר שכל פתרון אחר למשוואה ניתן לכתיבה כצירוף לינארי של שניהם, כלומר \(a_{n}=A\lambda_{1}^{n}+B\lambda_{2}^{n}\) הוא פתרון כללי לנוסחת הנסיגה. כל שנותר לעשות הוא להציב את תנאי ההתחלה של המשוואה כדי לגלות את ערכם של הקבועים \(A,B\).

אז זו התיאוריה הכללית, והיא עבדה נפלא במקרה של פיבונאצ'י. במקרה שלנו תכף נראה שנצטרך להיות טיפה יותר מתוחכמים.

ראשית, מהי המשוואה הריבועית שמתקבלת מהנוסחה \(ph_{i+1}=h_{i}-qh_{i-1}\)? אחרי העברת אגפים והצבה וחלוקה וכל זה נקבל \(p\lambda^{2}-\lambda+q=0\). פתרון על פי נוסחת השורשים מניב \(\lambda_{1,2}=\frac{1\pm\sqrt{1-4pq}}{2p}\) שלא נראה יפה במיוחד. מה עושים?

ובכן, ידוע לנו ש-\(p+q=1\), בואו נשתמש בזה! אפשר להעלים את \(q\) לחלוטין מהתמונה על ידי ההצבה \(q=1-p\), ואז לקבל מתחת לשורש את הביטוי \(1-4p\left(1-p\right)\), ששווה ל-\(4p^{2}-4p+1\), ששווה ל-\(\left(2p-1\right)^{2}\). כאן זה עדיין תעלול של בית ספר תיכון. אחרי הוצאת השורש נקבל \(\lambda_{1,2}=\frac{1\pm\left(2p-1\right)}{2p}\), ולכן שני הפתרונות הם 1 ו-\(\frac{1}{p}-1\). את השני אפשר לכתוב בצורה קצת יותר יפה לטעמנו: \(\frac{1}{p}-1=\frac{1-p}{p}=\frac{q}{p}\). רואים? לא שכחנו את \(q\); כשהוא עוזר לנו להבין דברים, מחזירים אותו.

אולי שמתם לב כבר למשהו מוזר שקורה כאן – אם \(p=q\) (וזה, כמובן, המקרה שהכי מעניין אותנו – קזינו הוגן), אז לא קיבלנו שני פתרונות אלא את אותו הפתרון – \(\lambda=1\) – פעמיים. זה תוקע אותנו לגמרי – כל הרעיון היה שאנחנו מצליחים למצוא שני פתרונות בלתי תלויים שמהם אפשר להרכיב כל פתרון. אז מה עושים במקרה הזה? סבלנות, בואו נטפל קודם כל במקרה שבו אנחנו כבר יודעים איך לטפל.

אם כן, אם \(p\ne q\) קיבלנו שהפתרון הכללי לנוסחת הנסיגה הוא מהצורה \(h_{n}=A\cdot1^{n}+B\cdot\left(\frac{q}{p}\right)^{n}=A+B\left(\frac{q}{p}\right)^{n}\). יש לנו תנאי התחלה אחד: \(h_{0}=1\); אבל רגע, יש לפתרון שתי דרגות חופש (גם הערך של \(A\) וגם הערך של \(B\) לא ידועים), אז צריך שני תנאי התחלה! כלומר, אין לנו בכלל דרך למצוא פתרון יחיד למשוואה. מה עושים? נראה ששוב התיאוריה מאכזבת אותנו.

כאן מרקוב עוזר לנו. כזכור, מרקוב אומר שהפתרון ה"נכון" לנוסחת הנסיגה – זה שבאמת מתאר את מה שקורה בשרשרת, הוא הפתרון האי שלילי המינימלי. "מינימלי" כאן פירושו שאם \(k_{n}\) הוא פתרון אי שלילי אחר לנוסחת הנסיגה, אז \(h_{n}\le k_{n}\) לכל \(n\). בנוסף, יש לנו עוד יתרון – אנחנו יודעים שהפתרונות של הנוסחה מייצגים הסתברות ולכן \(h_{n}\le1\) לכל \(n\). כל המידע הנוסף הזה יספיק לנו כדי לאתר את הפתרון המדויק בכל אחד מהמקרים.

כעת, אם \(q>p\) (כלומר, הקזינו מוטה לרעת השחקן) אז \(\left(\frac{q}{p}\right)^{n}\) שואף לאינסוף כאשר \(n\) שואף לאינסוף. זה אומר שאלא אם \(B=0\), כאשר נשאיף את \(n\) לאינסוף נקבל ערך לא הגיוני של \(h_{n}\) (או שיהיה קטן מאפס או שיהיה גדול מ-1). לכן \(h_{n}=A\) במקרה זה. אבל ידוע ש-\(h_{0}=1\) ולכן \(A=1\). לכן הפתרון של נוסחת הנסיגה במקרה זה הוא "לא משנה מאיפה מתחילים, בהסתברות 1 נתרושש". לא מפתיע עד כדי כך בהתחשב בכך שכאן היתרון הוא של הקזינו.

אם \(q<p\) היתרון הוא לצד השחקן הפעם ומכיוון ש-\(\left(\frac{q}{p}\right)^{n}\) שואף לאפס אי אפשר להשתמש בתעלול של קודם. אם כן, הבה וננסה להשתמש בתנאי ההתחלה \(h_{0}=1\) כדי לשפר קצת את יכולת הניתוח שלנו: \(h_{0}=A+B\cdot\left(\frac{q}{p}\right)^{0}=A+B\), ולכן \(B=1-A\), ולכן הפתרון הכללי הוא מהצורה \(h_{n}=A+\left(1-A\right)\left(\frac{q}{p}\right)^{n}\). פתיחת סוגריים והוצאת גורם משותף ואנחנו מקבלים \(h_{n}=\left(\frac{q}{p}\right)^{n}+A\left(1-\left(\frac{q}{p}\right)^{n}\right)\). כאשר \(n\) שואף לאינסוף הפתרון שואף ל-\(A\), ולכן \(0\le A\) בהכרח (אחרת היינו מקבלים שהחל ממקום כלשהו כל הפתרונות הם שליליים). אם כן, הפתרון הוא מהצורה "\(\left(\frac{q}{p}\right)^{n}\) ועוד משהו אי שלילי". אבל אמרנו שהפתרון הנכון הוא המינימלי, והמינימלי מתקבל כשאותו "משהו אי שלילי" שווה לאפס, ולכן הפתרון הוא \(h_{n}=\left(\frac{q}{p}\right)^{n}\). המהלך האחרון – השימוש במינימליות – הוא ממש מקסים לטעמי.

אם כן, במקרה הנוכחי אנחנו רואים שהתכנסות לאפס איננה הכרחית, והיא דועכת אקספוננציאלית ככל שסכום הכסף שלנו גדל. במילים אחרות, הגעה לאפס כלל איננה מובנת מאליה; כאשר לקזינו יש יתרון, אנחנו מגיעים לאפס בצורה מאוד חזקה (הסתברות 1). כאשר לנו יש יתרון אנחנו מתרחקים מאפס בצורה חזקה למדי (דעיכה אקספוננציאלית לאפס של הסיכוי להגיע לאפס). קו הגבול בין שתי הסיטואציות הללו אינו שייך באופן מובהק לאף צד, אבל מחוסר הסימטריה של שתי התוצאות (הרי במקרה שבו לנו יש יתרון, עדיין זה לא אומר שהסתברות ההפסד שלנו היא 0) כבר אפשר לנחש שהיתרון יהיה של הקזינו גם במקרה ה"מאוזן". ואכן, זה מה שנחשב כרגע, אבל לפני כן אנחנו חייבים להתמודד עם בעיה כללית שצצה בפתרון נוסחאות נסיגה (וגם בפתרון משוואות דיפרנציאליות; הדמיון איננו מקרי) – מה קורה כשלמשוואה האופיינית יש שורש יחיד?

נתחיל מהסוף – אם למשוואה יש שורש יחיד \(\lambda\), אז \(a_{n}=\lambda^{n}\) הוא פתרון אבל גם \(a_{n}=n\lambda^{n}\) הוא פתרון (להבדיל מהמקרה של שני שורשים). בואו נוכיח את זה, ובצורה כללית.

אז בואו ניקח נוסחת נסיגה \(a_{n}=\alpha a_{n-1}+\beta a_{n-2}\) (לאלו מכם שתוהים למה אני יכול להניח שהמקדם של \(a_{n}\) הוא 1 – אם הוא לא, פשוט נחלק בו, הוא לא יכול להיות 0). מנוסחת הנסיגה הזו נובעת המשוואה \(x^{2}-\alpha x-\beta=0\); נניח שיש למשוואה הזו רק שורש יחיד, \(\lambda\), אז עולה מכך השוויון \(x^{2}-\alpha x-\beta=\left(x-\lambda\right)^{2}\). על ידי פתיחה והשוואת מקדמים מקבלים ש-\(\alpha=2\lambda\) ו-\(\beta=-\lambda^{2}\) (אלו הן בעצם נוסחאות וייטה). במילים אחרות, את נוסחת הנסיגה המקורית ניתן לכתוב כ-\(a_{n}=2\lambda a_{n-1}-\lambda^{2}a_{n-2}\).

כעת, הבה ונבדוק מה קורה לפתרון המוצע שלנו, \(a_{n}=n\lambda^{n}\), כאשר מציבים אותו במשוואה – באגף ימין מתקבל:

\(2\lambda\left(n-1\right)\lambda^{n-1}-\lambda^{2}\left(n-2\right)\lambda^{n-2}=\lambda^{n}\left[2n-2-n+2\right]=n\lambda^{n}\)

וזו התוצאה הצפויה.

הייתי שמח לתת אינטואיציה יותר טובה פרט ל"תראו כמה יפה המשוואות מסתדרות", אבל אין לי – אולי למישהו אחר יש. השורה התחתונה היא שבמקרה של שורש יחיד למשוואה, יש לנו דרך אחרת (פשוטה ביותר) לקבל פתרון נוסף מתוך הפתרון הקיים – דרך שלא עובדת במקרה של שני שורשים.

חזרה לענייננו – אם הפתרון היחיד הוא \(h_{n}=1\) הרי שגם \(h_{n}=n\) יהיה פתרון, ולכן הפתרון הכללי למקרה שבו \(p=q\) יהיה \(h_{n}=A+Bn\). כמקודם כך גם כאן זה מכריח את \(B\) להיות 0 אחרת עבור \(n\) גדול דיו נקבל פתרון גדול מ-1 או קטן מ-0. לכן הפתרון הוא \(h_{n}=A\) ומתנאי ההתחלה \(h_{0}=1\) נקבל \(A=1\), כלומר הפתרון היחיד הוא שוב \(h_{n}=1\), ולכן גם במקרה שבו \(p=q\), לא משנה מה הסכום ההתחלתי שלך – בסוף תתרושש בודאות.

כאן מסתיים החלק המתמטי של הפוסט ואני יכול לשוב אל הטריגר לכתיבתו – מאמר של "הרב ד"ר מיכאל אברהם" באתר של Ynet שבו הוא מנסה לטעון שהאבולוציה דווקא מחזקת את האמונה בקיום אלוהים (ליתר דיוק, המאמר מוצג כקטע מספרו החדש של הרב ד"ר אברהם, אותו לא קראתי). המאמר נפתח ב:

האבולוציה היא תהליך שיש לו כיוון, מגמה. מחומר דומם והיולי, חסר כל תכונות, זה שנוצר במפץ הגדול, אנו מגיעים ליצורים חיים ומורכבים שנראים גם תכליתיים. סטיבן ג'יי גולד, שעומד על הקושי העקרוני הזה, מציע לו הסבר באמצעות משל השיכור.

הוא מסביר שייתכן מצב שבו תהליך שמתנהל בכיוונים אקראיים ובאופן לא מתוכנן יוליך לתוצאה הכרחית קבועה מראש, כמו הופעת יצורים מורכבים. כדי להבין זאת, אומר לנו גולד, עלינו לדמיין מצב שבו שיכור יוצא מהפאב אל המדרכה הרחבה שלפניו, משמאלו ניצב קיר הפאב ומימינו מדרכה, ומעבר למדרכה ישנה תעלת ביוב עמוקה.

השיכור מתחיל לזגזג פעם לכיוון הקיר ופעם לכיוון המדרכה, כלומר בכיוון אקראי. אך בסופו של דבר, אם ניתן לו די זמן, נמצא אותו, ללא ספק, מתגולל בתעלת הביוב. הקיר מייצג כמובן את האילוצים של הברירה הטבעית, והאקראיות בבחירת הצדדים היא היווצרות המוטציות. המשחק בין שני אלו יוצר את התוצאה הצפויה מראש.

לרוע המזל איני יודע לאיזה ספר של גולד הרב ד"ר אברהם מתייחס, כך שאיני יודע איך בדיוק גולד מתאר את משל השיכור; אבל למיטב הבנתי, זהו פשוט ניסוח אחר (שכבר שמעתי בעבר במקומות נוספים) של התרוששות המהמר, בהבדל אחד – לשיכור אין קיר. השיכור מוזמן להתרחק מהתעלה עד כמה שירצה, זה לא משנה לו – כל עוד הוא פונה שמאלה או ימינה באותה הסתברות, הוא יתרושש – כלומר, ייפול לתעלה מתישהו. קיר, במקרה שלנו, רק משחק לרעתו, מכיוון שהוא מאלץ את השיכור להישאר תמיד במרחק חסום מהתעלה.

עם זאת, ולכן אני מצטער על כך שאיני יודע איך בדיוק גולד השתמש באנלוגיה הזו, השיכור-בתעלה היא אנלוגיה מסוכנת מכיוון שהיא דורשת אקראיות של 50-50. אם השיכור נוטה יותר ללכת לכיוון קיר הפאב מאשר לכיוון התעלה, לא מובטח לנו במאה אחוזים שהוא יגיע לתעלה. לכן לא צריך לקחת את השיכור בתור מודל מתמטי שבא לתאר את האבולוציה, אלא סתם בתור סיפור נחמד על "הנה סיטואציה שבה תהליך אקראי מתכנס באופן בטוח לחלוטין לתוצאה מסויימת; היי, גם האבולוציה, בדרכה שלה, היא כזו!".

אני לא יכול להתאפק מלהביא את הביקורת של הרב ד"ר אברהם על הטיעון של גולד למעלה, וזאת למרות שהביקורת הזו עוזבת לגמרי את המתרושש שלנו:

הבעייתיות במשל הזה, נעוצה בשתי רמות שונות: ראשית, הבעיה העיקרית היא שהקיר שלאורכו מתקדם השיכור עשוי מנייר. יתר על כן, מאחורי הקיר הזה יש תהום שכל באיה לא ישובון. כל הליכה לכיוון הלא שריד אבולוציונית (כלומר לכיוון הקיר) מוליכה לקצה מת (Dead end) של התהליך, כלומר להיכחדותו של היצור או של צאצאיו האבולוציוניים (נפילה של השיכור לתהום שמאחורי הקיר, במשל).

כל צעד אבולוציוני שיוצר מוטציה לא חיה מוליך להפסקה מוחלטת של התהליך, שקוטעת את כל השרשרת האבולוציונית. בתהליך האבולוציוני אין לנו קיר שדואג לזה שבכל פעם השיכור ישוב מחדש למסלול. אם באחד מהשלבים במשך ההיסטוריה לא נוצרת מוטציה שרידה, התהליך כולו נפסק סופית.

אם כן, במשל המתוקן, הקיר שלאורך המדרכה עשוי מנייר. כל פעם שהשיכור נופל עליו הוא קורע אותו ונופל לתהום שמאחוריו. כעת אפשר לשער: מה הסיכוי, במקרה כזה, שהשיכור המתנהל באקראי יגיע בסופו של דבר לתעלת הביוב?

על הטיעון הזה אני יכול להגיד – או שאני לא מבין כלום באבולוציה, או שהרב ד"ר אברהם לא מבין כלום באבולוציה (או ששנינו לא מבינים בה כלום). אנסה להסביר כמיטב הבנתי (וצריך לקחת בחשבון שאכן איני מבין כלום באבולוציה, שכן אינני ביולוג ולא למדתי את הנושא בצורה מסודרת מעולם).

אם כן, אין ספק שצעד אבולוציוני שיוצר "מוטציה לא חיה" מוביל להפסקת התהליך מבחינת המוטציה המסכנה הזו. האם הוא עוצר את התהליך האבולוציוני כולו? ודאי שלא. הבעיה כאן היא שהרב ד"ר אברהם מנסה לטעון שבאבולוציה, כל אינדיבידואל הוא שיכור שמתהלך לו לבד; ואילו גולד (בכך אני בטוח לחלוטין) חושב על השיכור לכל הפחות כעל אוכלוסייה של מין כלשהו. אם עוברים לרזולוציה הזו, הטיעון של הרב ד"ר אברהם כבר לא תקף; זה שחלק מהפרטים באוכלוסייה יוולדו עם פגם גנטי שיגרום להם להיוולד מתים זה עצוב וטרגי אבל כל עוד הם היוצאים מן הכלל (ומכיוון שהם מוטציות, הם היוצאים מן הכלל) הם לא יגרמו למות האוכלוסייה כולה. כאן מתגלה דווקא כוחו של התהליך הזה: פרטים שנולדים עם מוטציה "גרועה" שפוגעת בשרידות שלהם, קרוב לודאי שלא יזכו להעביר את המוטציה הזו הלאה ולהפיץ אותה בקרב האוכלוסייה. כלומר, המוטציות שכן מתפשטות באוכלוסייה הן כאלו שאינן פוגעת ביכולת העברת המוטציה הלאה. כדאי לזכור שרוב המוטציות לא מתבטאות לא לחיוב ולא לשלילה באופן מיידי, כך שכבר ברור שמודל השיכור (שבו כל צעד או שמקדם או שמרחיק אותנו) הוא לא באמת תיאור טוב במיוחד לכל הסיפור.

השיכור של הרב ד"ר אברהם יפול לתהום שכל באיה לא ישובון רק אם באוכלוסייה תתפשט מוטציה כזו שמצד אחד משפרת את יכולת ההתרבות של הפרטים שיש להם אותה, ומצד שני "תוקעת" אותם. אני יכול להעלות בדמיוני מוטציות כאלו – למשל, המוטציה "תחייה חיי נצח אבל כשתתרבה לא יהיו לך מוטציות", שמצד אחד משפרת מאוד את יכולת השרידות של החיה אבל מצד שני מונעת כל שינוי מכאן והלאה (זה לא הורג את הפרט, אבל זה כן מכניס את האבולוציה של האוכלוסיה למבוי סתום). זו כמובן מוטציה מגוחכת לחלוטין והביולוגים יהרגו אותי על כך שהזכרתי אותה ובוודאי יש דוגמאות יותר טובות שאיני חושב עליהן. בכל מקרה לא נראה לי שהרב ד"ר אברהם מדבר על זה בכלל אלא דווקא על מוטציות כושלות שהורגות את הפרטים שלוקים בהן (כמובן שבעולמנו האכזר יש עוד דברים פרט למוטציות שיכולים להשמיד לחלוטין אוכלוסיות – תשאלו את הדינוזאורים – אבל גם זה לא טיעון שהרב ד"ר אברהם העלה בכלל וזה בוודאי לא קשור להילוך השיכור).

בהמשך הרב ד"ר אברהם מביא עוד טיעונים שלדעתי אפילו יותר מבורחשים וממילא כבר מאבדים כל קשר למתמטיקה שבבסיס הפוסט הזה ולכן לא אמשיך להתייחס אליהם. רק על דבר אחד נוסף אני חייב להתלונן – בחירת הכותרת של העורך של Ynet. אז נכון, הרב ד"ר אברהם בחר לקרוא לספרו "אלוהים משחק בקוביות", אבל לתת כותרת של "האם איינשטיין טעה?" למאמר שכלל אינו מדבר על תורת הקוונטיים, שהיא ההקשר שבו איינשטיין אמר את הציטוט המפורסם שלו על הקוביות – ובכן, זה כבר עובר את גבול ה"מביך ברמות בלתי נתפסות" ויוצא מהצד השני.

בעיית המזכירה, ואיך זה קשור למספרים הרמוניים

נניח שאתם מנהלים זוטרים באיזו חברה ואתם מחליטים יום אחד להיות יעילים ומועילים ויורדים מטה למחלקת כוח אדם. היום בוחרים לכם מזכירה חדשה, ובהתקף של יעילות ארגונית מצאתם באינטרנט את "הכללים הנכונים לבחירת מזכירה" ושלחתם לכוח אדם. הכללים הם:

  1. יש לראיין את המועמדות אחת אחרי השניה, כאשר בסוף כל ראיון מחליטים אם להעסיק את המזכירה שרואיינה ולהעיף את כל אלו שעדיין לא רואיינו לכל הרוחות, או להעיף אותה לכל הרוחות.
  2. כל מזכירה צריך לדרג ביחס למזכירות הקודמות (לכל מזכירה קודמת יש לקבוע אם הנוכחית טובה יותר או גרועה יותר) ועל בסיס זה להחליט אם להעסיק אותה או לא.
  3. קוראים למזכירות לראיון בסדר אקראי.
  4. חייבים לבחור את המזכירה הטובה ביותר!

על 4 אין פשרות!

טוב, גם על היתר לא. ניסו להעיר לכם שהכללים הללו לא כל כך הגיוניים (בפרט, מה הרעיון להחליט על המקום אם לבחור את המועמדת או לא? למה לא לחכות עד שמראיינים את כולן?), אבל מה הם כבר יודעים, במקום באינטרנט שבו מצאתם את הכללים אמרו שהם באו הישר מתוך "נזיר השאולין שהפסיק לשחק כדורגל ומזיז גבינות בכוח המחשבה", או משהו.

טוב, אז ירדתם לכוח אדם ואתם מסתכלים למראיין מעבר לכתף שוב ושוב. בהתחלה נראה שהוא בכלל לא חושב לפני שהוא מודה למרואיינות בנימוס ומגרש אותן, ואתם מתחילים להיות עצבניים. אז אתם שואלים אותו מה הוא עושה לעזאזל, והוא עונה לכם עם הסיפור הבלתי יאומן הבא:

"הגיעו היום 30 מועמדות שמתוכן אני צריך לבחור, אז את 10 הראשונות אני דוחה בלי לחשוב בכלל, ומה-11 והלאה אני בודק אם היא הטובה ביותר מבין כל אלו שהתראיינו עד כה, ואם כן – אני מקבל אותה".

אתם מתרעמים – מה זו שיטת הבחירה המטופשת הזו? למה לדחות אוטומטית את 10 הראשונות? מה אם המזכירה הכי טובה היא בין 10 הראשונות? למה לא לחכות עד המזכירה ה-20? אין דרך חכמה יותר לבחור? חיש קל אתם מפטרים את המראיין הסורר. הבעיה היא בוודאי בכך שהוא עצמו לא נבחר על פי כללי נזיר השאולין שלכם.

רק מה? למחרת הבוס הגדול קורא לכם למשרד, מראה לכם בנימוס את הערך בויקיפדיה על "בעיית המזכירה" ומעיף אתכם מהחלון. מסתבר שדרך הפעולה של המראיין היא האופטימלית שבה אפשר לנקוט תחת הכללים המוזרים שלכם – דרך פעולה שמצליחה בערך ב-37 אחוז מהפעמים, בלי קשר למספר המזכירות. וכעת נשאלת השאלה – למה?

הבה ננסח שוב את השאלה בצורה קצת יותר מדוייקת מתמטית. יש לנו \(n\) מועמדות שנכנסות אלינו בסדר אקראי. אנחנו מראיינים אותן אחת אחת, וצריכים להחליט על קריטריון כלשהו שלפיו נחליט מתי לעצור את הראיונות ולקבל את המרואיינת הנוכחית. את הסיפור אפשר לספר גם בהקשרים שונים לגמרי – חיפוש חניה, חיפוש חתן, וכדומה – אבל זה פחות מעניין, ויותר מעניין הפתרון המוזר של הבעיה.

ראשית, בואו נחדד את עיקר הבעיה כאן – אנחנו חייבים למצוא את המזכירה הטובה ביותר. אם בחרנו את המזכירה השניה בטיבה זה נחמד, אבל חסר ערך מבחינת הכללים – גרוע בדיוק כמו שנבחר את המזכירה הגרועה ביותר. כשאנחנו מדברים על "פתרון אופטימלי" כאן הכוונה שלנו היא לפתרון שנותן את המזכירה הטובה ביותר בהסתברות הגבוהה ביותר, לא לפתרון ש"מבטיח שתמיד נהיה עם מזכירה לא רעה" או משהו בסגנון. מכיוון שזה אולי לא מה שקופץ לנו לראש אינטואיטיבית כשאנחנו חושבים על "אופטימלי" בהקשר הזה זה יכול להסביר חלק מהבלבול שלנו בנוגע לאופי של הפתרון האופטימלי המשונה.

מדרישת האופטימליות הזו נובע שכל פתרון לבעיה חייב לקיים כלל פשוט אחד: אם מזכירה שרואיינה זה עתה היא לא הטובה מכל המזכירות שרואיינו עד כה, לא מקבלים אותה. למה לא? כי אם היא לא הטובה מכל המזכירות שרואיינו עד כה, ברור לחלוטין שהיא לא הטובה ביותר ולכן אין שום טעם לשכור אותה (שוב – אנחנו חייבים את הטובה ביותר; כל תוצאה אחרת לא שווה כלום).

אם כן, מהשהסכמנו שהכלל שמוביל לבחירת מזכירה הוא "היא הטובה ביותר מבין מי שראיינו עד כה", נשאלת רק השאלה מתי להפעיל אותו. הרי ברור שיהיה מטופש להפעיל אותו כבר מהרגע הראשון – המזכירה הראשונה שאנחנו מראיינים היא הטובה ביותר מבין מי שראיינו עד כה, אבל אם המזכירות באות בסדר אקראי, ההסתברות שלנו לבחור במזכירה הטובה ביותר באופן הזה היא \(\frac{1}{n}\). בדוגמה של ה-30 מזכירות שלנו, זו הסתברות של \(\frac{1}{30}\), כלומר קצת פחות מ-4 אחוזים. אם יש 1000 מזכירות אז ההסתברות צונחת לה ל-0.1 אחוזים מביכים. ואנחנו אמרנו שבשיטה האופטימלית אפשר להצליח ב-37 אחוז מהפעמים בלי קשר בכלל למספר המזכירות – אני מקווה שאחוזי ההצלחה הללו (ובעיקר, האופן שבו הם לא תלויים בכלל במספר המזכירות) נראים כבר יותר מרשימים מאשר אולי נראו במבט ראשון.

אם כן, אנחנו רוצים לחכות קצת, לקבל מדגם כלשהו של מזכירות, לדחות אותן, והחל משלב מסויים להתחיל להפעיל את כלל "קבל את הטובה ביותר עד כה". מספר השלבים הזה יכול להיות קבוע ("תוך 13 שלבים, בלי קשר למספר המזכירות") ויכול להיות גם קשור איכשהו למספר המזכירות ("אחרי שבדיוק חצי מהמזכירות התראיינו") ויכול גם להיות תלוי איכשהו בראיונות שכבר בוצעו; אבל הראיונות שכבר בוצעו תמיד מניבים את אותה התוצאה – אחרי \(k\) ראיונות יש לנו רשימה של \(k\) מזכירות שלא קיבלנו שאפשר לסדר מהגרועה לטובה ביותר. אין לנו מידע, למשל, על האיכות של אותן מזכירות ביחס לאלו שעוד לא ראיינו. לכן אם יש כלל לקביעת הנקודה שממנה והלאה מפעילים את כלל "קבל את הטובה ביותר עד כה" הוא לא יהיה תלוי בראיונות שבוצעו עד כה (זה קצת נפנוף ידיים; אפשר לתת לזה הוכחה מדויקת אבל קצת טרחנית).

אם כן, תוך כמה צעדים כדאי להתחיל להפעיל את הכלל? התוצאה המפתיעה (?) היא שמדובר על \(\frac{n}{e}\) צעדים, כאשר \(e=2.71828183\dots\) הוא בסיס הלוגריתם הטבעי – הקבוע המפורסם ביותר במתמטיקה חוץ מ-\(\pi\). אמרתי כבר בבלוג שאני אוהב את \(e\) יותר, והבעיה הזו היא דוגמה נוספת לסיבה לכך – \(e\) צץ במקומות עוד יותר מגוונים מאשר \(\pi\) לטעמי.

אוקיי, החימום נגמר – כדי להוכיח שמספר הצעדים האופטימלי הוא \(\frac{n}{e}\) אין מנוס מהפשלת שרוולים וחישוב טיפה טכני, אבל יפה מאוד לטעמי ולא קשה כל כך. הגישה שלנו תהיה של "מבט מלמעלה" – ננסה להבין מה קורה כאשר מפעילים את השיטה עם \(k\) צעדים שאחריהם מתחילים להפעיל את הכלל, ונחשב עבור \(k\) זה מה הסתברות ההצלחה שלנו.

אז שוב, כדי שכולם יהיו איתי: עבור \(k\) טבעי כלשהו ו-\(n\) מזכירות, אנו בודקים מה ההסתברות לבחור את המזכירה הטובה ביותר אם את \(k-1\) הראשונות אנו דוחים, ומקבלים את המזכירה הראשונה אחרי אותן \(k\) שהיא טובה יותר מכל מי שהיו עד כה (אם אין כזו, אכלנו אותה).

כאשר דיברתי בבלוג על הסתברות מותנית הזכרתי מושג שנקרא "נוסחת ההסתברות השלמה". בואו נזכיר אותה: אם \(A\) הוא מאורע כלשהו – במקרה שלנו, "המזכירה הטובה ביותר נבחרה", ואם \(B_{1},\dots,B_{n}\) היא סדרה של מאורעות זרים שמתארים את מרחב ההסתברות כולו – במקרה שלנו, \(B_{i}\) הוא המאורע "המזכירה ה-\(i\) מבין המרואיינות היא הטובה ביותר" – אז מתקיים \(P\left(A\right)=\sum_{i=1}^{n}P\left(A|B_{i}\right)P\left(B_{i}\right)\), כאשר \(P\left(A|B_{i}\right)\) מייצג את ההסתברות שהמזכירה הטובה ביותר נבחרה בהינתן שהמזכירה ה-\(i\) הייתה הטובה ביותר.

בפוסט ההוא אמרתי: "על פניו היא נראית כמו דרך מסובכת יותר לכתוב את \(P\left(A\right)\), אך כאמור – לעתים קרובות הדרך הנוחה ביותר לחשב את \(P\left(A\right)\) היא על ידי חלוקה למקרים שמיוצגים על ידי ה-\(B_{i}\)". זו אכן דוגמה קלאסית לכך.

את \(P\left(B_{i}\right)\) קל לחשב; מה ההסתברות לכך שהמזכירה ה-\(i\) היא הטובה ביותר? זה קל – מכיוון שהסדר שבו המזכירות נכנסות נבחר באקראי ובהתפלגות אחידה מכל הסדרים האפשריים, כל מקום סביר באותה מידה עבור המזכירה הטובה ביותר, ולכן \(P\left(B_{i}\right)=\frac{1}{n}\).

ומהו \(P\left(A|B_{i}\right)\)? אם \(i\le k\) אז \(P\left(A|B_{i}\right)=0\), על פי החוק שלנו של לדחות אוטומטית את \(k\) הראשונות (אם הטובה ביותר הייתה בין \(k\) הראשונות, אין שום סיכוי שנבחר את הטובה ביותר). החלק המעניין הוא כש-\(i>k\). במקרה זה \(P\left(A|B_{i}\right)\) הוא ההסתברות שנבחרה המזכירה במקום ה-\(i\), בהינתן שבמקום ה-\(i\) אכן נמצאת המזכירה הטובה ביותר. השאלה היא – איך ייתכן שהיא לא תיבחר? זה יקרה רק אם אחת מהמזכירות במקומות \(k,k+1,\dots,i-1\) הצליחה להידחף איכשהו – כלומר הייתה טובה יותר מכל המזכירות שלפניה.

את הקריטריון המסובך הזה אפשר לנסח בצורה הרבה יותר אלגנטית: מבין \(i-1\) המזכירות הראשונות, המזכירה הטובה ביותר הייתה בין \(k\) הראשונות. שכנעו את עצמכם שזה אכן שקול!

את ההסתברות של הקריטריון קל כעת לחשב – למזכירה הטובה ביותר יש \(i-1\) מקומות אפשריים להיות בהם; כל מקום סביר באותה מידה; ולכן ההסתברות שהיא תהיה באחד מ-\(k\) המקומות הראשונים היא \(\frac{k}{i-1}\). לכן \(P\left(B_{i}\right)=\frac{k}{i-1}\). אם זה התקיים, אז למזכירה במקום ה-\(i\) לא היו הפרעות והיא נבחרה בודאות (הרי היא הטובה ביותר, ולכן בפרט הייתה טובה מכל המזכירות שלפניה).

נוסחת ההסתברות השלמה כעת נותנת לנו:

\(P\left(A\right)=\sum_{i=1}^{n}P\left(A|B_{i}\right)P\left(B_{i}\right)=\sum_{i=k+1}^{n}\frac{k}{i-1}\cdot\frac{1}{n}=\frac{k}{n}\sum_{i=k+1}^{n}\frac{1}{i-1}\).

יופי. עכשיו נתקענו. מה עושים עם הסכום \(\sum_{i=k+1}^{n}\frac{1}{i-1}\) המעצבן? כאן מסתיים החלק היחסית פשוט של הפוסט ואנו עוברים לחלק הטכני, שלטעמי הוא יפה ומעניין לא פחות, אבל אולי לא מיועד לבעלי לב חלש מתמטית.

ראשית, שימו לב לכך שהסכום שלעיל שווה ל-\(\sum_{i=k}^{n-1}\frac{1}{i}\) בבירור (ביצענו את החלפת המשתנה הפשוטה \(i\mapsto i+1\)). לסכום הזה קשר הדוק לאחד הטורים החשובים במתמטיקה – הטור ההרמוני, \(\sum_{i=1}^{\infty}\frac{1}{i}\). כפי שכבר הראיתי בעבר בבלוג, הטור הזה מתבדר לאינסוף – ככל שסוכמים בו עוד ועוד איברים, התוצאה גדלה וגדלה באופן בלתי חסום ועוברת כל מספר טבעי בשלב מסויים (אף שיש טענות שהוא דווקא מתכנס ל-137). אבל, הבה ונדבר לרגע על הסכומים החלקיים של הטור, מה שמתקבל אחרי שסוכמים רק את \(n\) האיברים הראשונים מתוכו, כלומר \(H_{n}=\sum_{i=1}^{n}\frac{1}{i}\). ל-\(H_{n}\) קוראים המספר ההרמוני ה-\(n\)-י, ועליו המתמטיקאים יודעים לא מעט. שימו לב ש-\(\sum_{i=k}^{n-1}\frac{1}{i}=H_{n-1}-H_{k-1}\), ולכן השאלה שאנחנו רוצים לפתור היא בעצם זו: מהו \(\lim_{n\to\infty}\frac{k}{n}\left(H_{n-1}-H_{k-1}\right)\)?

כאן כדאי לשלוף את מה שידוע על המספרים ההרמוניים. למרבה המזל, אנחנו יודעים לקרב אותם מצויין בעזרת פונקציה שאנחנו מכירים היטב – הלוגריתם הטבעי, \(\ln n\). למעשה, הסדרה ההרמונית \(H_{n}\) היא מעין אנלוג בדיד של \(\ln n\); זאת מכיוון ש-\(H_{n}=\sum_{i=1}^{n}\frac{1}{i}\) ואילו \(\ln n=\int_{1}^{n}\frac{1}{x}dx\). ניתן להוכיח, ואראה זאת בקרוב, ש-\(\lim_{n\to\infty}\left(H_{n}-\ln n\right)=\gamma\) כאשר \(\gamma\) הוא מספר קבוע (קטן למדי, אבל זה לא חשוב לנו) המכונה "קבוע אוילר-מסקרוני" וערכו הוא בערך \(\gamma=0.5772\dots\). ואני אומר "בערך" כי המספר הזה הוא עדיין תעלומה לא קטנה – עדיין לא ידוע אפילו אם הוא רציונלי או אי רציונלי.

דרך אחרת, אולי קצת יותר נוחה, לתאר את הגבול למעלה היא זו: \(H_{n}=\ln n+\gamma+o\left(1\right)\). מילולית, זה אומר "המספר ההרמוני ה-\(n\)-י הוא \(\ln n\) ועוד קבוע אוילר-מסקרוני, ועוד משהו שאני לא יודע איך הוא נראה אבל כש-\(n\) שואף לאינסוף הוא שואף לאפס" (המשמעות הפורמלית של \(o\left(1\right)\) היא זו: פונקציה \(f\left(n\right)\) היא \(o\left(1\right)\) – או-קטן של \(1\) – אם \(\frac{f\left(n\right)}{n}\to0\)).

כעת, מהו \(H_{n-1}-H_{k-1}\)? עם הקירוב שתיארתי זה פשוט:

\(H_{n-1}-H_{k-1}=\left(\ln\left(n-1\right)+\gamma+o\left(1\right)\right)-\left(\ln\left(k-1\right)+\gamma+o\left(1\right)\right)=\ln\left(\frac{n-1}{k-1}\right)+o\left(1\right)\)

המעבר האחרון נובע מזהות סטנדרטית בלוגריתמים: \(\ln a-\ln b=\ln\left(\frac{a}{b}\right)\) (הרבה מהכוח של לוגריתמים נובע מכך שחיבור וחיסור שלהם מתאימים לכפל וחילוק מספרים).

אני משער שמדגדג לכם בשלב זה להיפטר מהמינוסים המעצבנים שדבוקים ל-\(n\) ו-\(k\). ובכן, שימו לב לכך ש-\(H_{n-1}-H_{n}=\ln\left(\frac{n-1}{n}\right)+o\left(1\right)=\ln\left(1-\frac{1}{n}\right)+o\left(1\right)=o\left(1\right)\), כשהמעבר האחרון נובע מכך ש-\(\lim_{n\to\infty}\ln\left(1-\frac{1}{n}\right)=\ln\left(1\right)=0\). דרך מסובכת להגיד פורמלית את הרעיון הטריוויאלי ש-\(H_{n}\) ו-\(H_{n-1}\) הם אותו הדבר לכל צורך מעשי כאשר \(n\) שואף לאינסוף, ולכן אפשר להחליף ביניהם. למי שהפורמליות עדיין חשובה לו, הנה הטריק במלואו:

\(H_{n-1}-H_{k-1}=\left(H_{n-1}-H_{n}+H_{n}\right)-\left(H_{k-1}-H_{k}+H_{k}\right)=H_{n}-H_{k}+o\left(1\right)=\ln\left(\frac{n}{k}\right)+o\left(1\right)\)

אם כן, חזרה לעניינו המקורי – צמצמנו את בעיית המזכירה לגבול \(\lim_{n\to\infty}\frac{k}{n}\ln\left(\frac{n}{k}\right)\). כפי שאפשר לנחש, המפתח לתעלומה הוא היחס \(\frac{k}{n}\). צריך לזכור ש-\(k\) אינו קבוע בהכרח, אלא הוא פונקציה כלשהי של \(n\), ואנחנו רוצים לדעת איזו פונקציה מניבה לנו את הערך המקסימלי – את הסתברות ההצלחה המקסימלית לבחור במזכירה הטובה ביותר. לשם כך, הבה ונסמן \(x=\frac{k}{n}\), וכעת עלינו לחקור את הפונקציה \(x\ln\left(\frac{1}{x}\right)=-x\ln x\) עבור הערכים \(0<x\le1\). ב"חקירה" אני מתכוון ל"להבין איפה יש לפונקציה מקסימום אם בכלל"

הדרך הסטנדרטית לבצע חקירה שכזו היא באמצעות נגזרות. קל לחשב את הנגזרת של הפונקציה הזו – היא \(-\ln x-x\cdot\frac{1}{x}=\ln\left(\frac{1}{x}\right)-1\). על כן, הנגזרת מתאפסת כאשר \(\ln\left(\frac{1}{x}\right)=1\), כלומר \(\frac{1}{x}=e\), כלומר \(x=\frac{1}{e}\) – הנה המספר הזה צץ סוף סוף. האם ההתאפסות הזו היא נקודת מינימום או מקסימום של הפונקציה? ובכן, אם תחקרו קצת בעצמכם תגלו שהנגזרת היא פונקציה יורדת, שבהתחלה היא חיובית ואחר כך שלילית. כלומר, הפונקציה המקורית קודם עולה, ואז יורדת – מה שאומר ש-\(x=\frac{1}{e}\) היא נקודת המקסימום. המסקנה: אם אנחנו רוצים למקסם את הסיכוי שלנו לבחור את המזכירה הטובה ביותר, אנחנו רוצים תמיד לבחור \(k\) כך ש-\(\frac{k}{n}=\frac{1}{e}\), כלומר \(k=\frac{n}{e}\). מכיוון ש-\(e\) הוא אי רציונלי לעולם לא נוכל לבחור \(k\) שיקיים את השוויון הזה בדיוק; אבל מכיוון ש-\(x\ln\left(\frac{1}{x}\right)\) היא פונקציה רציפה, ככל שנבחר \(k\) שקרוב יותר ל-\(\frac{n}{e}\) נקבל סיכוי הצלחה גבוה יותר.

זה סוף בעיית המזכירה, אבל נשאר לנו להבין איך מוכיחים את ההערכה על גודל המספרים ההרמוניים, \(H_{n}=\ln n+\gamma+o\left(1\right)\). לשם כך נכניס לתמונה מושג חדש – פונקצית הזטא של רימן. עבור \(s>1\) ממשי, פונקצית הזטא של רימן מוגדרת כ-\(\zeta\left(s\right)=\sum_{n=1}^{\infty}\frac{1}{n^{s}}\) (תיארתי בפירוט רב יותר את הפונקציה והקשר שלה להשערת רימן בעבר). למשל, \(\zeta\left(2\right)=\sum_{n=1}^{\infty}\frac{1}{n^{2}}=\frac{\pi^{2}}{6}\) (איך מוכיחים את השוויון הזה? גם את זה הראיתי בעבר). בנוסף, נכליל את המספרים ההרמוניים באופן טבעי כדי שיתארו את העניין הזה: \(H_{n}^{\left(s\right)}=\sum_{i=1}^{n}\frac{1}{i^{s}}\).

לב ההוכחה הוא נעוץ בהיכרות הטובה שלנו עם \(\ln n\). אנחנו יודעים לתאר את \(\ln n\) כטור אינסופי: הנוסחה המפורסמת ביותר (שאותה לא אוכיח כאן, יש גבול…) היא \(\ln\left(\frac{1}{1-x}\right)=\sum_{n=1}^{\infty}\frac{x^{n}}{n}\) שתקפה כאשר \(-1\le x<1\). ניקח \(k>1\) טבעי כלשהו וננסה להשתמש בנוסחה כדי לתאר כטור את \(\ln\left(\frac{k}{k-1}\right)\): מכיוון ש-\(\frac{k}{k-1}=\frac{1}{1-1/k}\), נקבל ש-\(\ln\left(\frac{k}{k-1}\right)=\sum_{n=1}^{\infty}\frac{1}{nk^{n}}\). הטור הזה נראה קצת יותר נחמד כשכותבים אותו במפורש: \(\ln\left(\frac{k}{k-1}\right)=\frac{1}{k}+\frac{1}{2k^{2}}+\frac{1}{3k^{3}}+\dots\).

כעת הבה ונקבע \(n\) כלשהו, ונסכום את \(\ln\left(\frac{k}{k-1}\right)\) לכל \(1<k\le n\). בזכות התכונה של הפיכת-חיבור-לכפל של לוגריתמים, התוצאה תהיה שרשרת יפה של ביטולים:

\(\ln\left(\frac{n}{n-1}\right)+\ln\left(\frac{n-1}{n-2}\right)+\dots+\ln\left(\frac{3}{2}\right)+\ln\left(\frac{2}{1}\right)=\ln\left(\frac{n}{n-1}\cdot\frac{n-1}{n-2}\cdots\frac{3}{2}\cdot\frac{2}{1}\right)=\ln n\)

מה זה עזר לנו? שכעת אפשר לכתוב את \(\ln n\) כסכום של טורים:

\(\ln n=\sum_{k=2}^{n}\left(\frac{1}{k}+\frac{1}{2k^{2}}+\frac{1}{3k^{3}}+\dots\right)\)

כל טור שכזה מתכנס, והוא חיובי, ולכן ניתן לשנות את סדר האיברים בסכימה בלי חשש מעיוותים כמו זה של משפט רימן. אם כן, מה קיבלנו? ש-\(\ln n=\sum_{k=2}^{n}\frac{1}{k}+\frac{1}{2}\sum_{k=2}^{n}\frac{1}{k^{2}}+\frac{1}{3}\sum_{k=2}^{n}\frac{1}{k^{3}}+\dots\)

כעת שימו לב ש-\(\sum_{k=2}^{n}\frac{1}{k}=H_{n}-1\) (כי האיבר הראשון בטור, עבור \(k=1\), חסר). בדומה, \(\sum_{k=2}^{n}\frac{1}{k^{s}}=H_{n}^{\left(s\right)}-1\). לכן קיבלנו:

\(\ln n=\left(H_{n}-1\right)+\frac{1}{2}\left(H_{n}^{\left(2\right)}-1\right)+\frac{1}{3}\left(H_{n}^{\left(3\right)}-1\right)+\dots\)

ולכן העברת אגפים זריזה נותנת לנו ש:

\(H_{n}-\ln n=1-\frac{1}{2}\left(H_{n}^{\left(2\right)}-1\right)-\frac{1}{3}\left(H_{n}^{\left(3\right)}-1\right)+\dots\)

עד כאן זוהי תוצאה מדוייקת לחלוטין. הבעיה היא שבאגף ימין יש לנו יצור מסובך ומפחיד למדי שתלוי ב-\(n\) ואין לנו מושג איך לחשב אותו במדוייק. מה שכן אפשר לעשות הוא להסתכל על הגבול של כל זה כאשר משאיפים את \(n\) לאינסוף – כאן משתמשים בכך שכל אחד מסדרות המספרים ההרמוניים ה"מוכללים" כן מתכנסת:

\(\lim_{n\to\infty}\left(H_{n}-\ln n\right)=1-\frac{1}{2}\left(\zeta\left(2\right)-1\right)-\frac{1}{3}\left(\zeta\left(3\right)-1\right)-\dots\)

והנה קיבלנו ייצוג נאה של \(\gamma\): \(\gamma=1-\frac{1}{2}\left(\zeta\left(2\right)-1\right)-\frac{1}{3}\left(\zeta\left(3\right)-1\right)-\dots\). הספקנים שבכם אולי יתהו למה הטור הזה מתכנס בכלל; לשם כך מספיק להראות שהטור החיובי \(\sum_{k=2}^{\infty}\left(\zeta\left(k\right)-1\right)\) מתכנס, ואותו אפשר לכתוב כ-\(\sum_{k=2}^{\infty}\sum_{n=2}^{\infty}\frac{1}{n^{k}}\), להחליף את סדר הסכימה כדי לקבל סכום של טורים גאומטריים \(\sum_{n=2}^{\infty}\left(\sum_{k=2}^{\infty}\frac{1}{n^{k}}\right)=\sum_{n=2}^{\infty}\frac{1}{n\left(n-1\right)}\) והטור הזה כבר בבירור מתכנס על ידי מבחן השוואה סטנדרטי (המעבר האחרון הוא פשוט שימוש מהיר בנוסחה לטורים גאומטריים אינסופיים).

עכשיו אפשר לעצור ולנשום קצת אוויר ולראות שעברנו דרך לא קטנה מאז שהתחלנו עם שיטות בחירה מוזרות למזכירות. סיפור המזכירה נגמר כאן, אבל סיפורם של המספרים ההרמוניים ממש לא; אני מקווה שבעתיד אראה עוד מקומות שבהם הם (ו-\(e\)) צצים.

NL=coNL ("משפט אימרמן") – מי, מה, כמה ולמה

בשעה טובה אנו עוברים לתיאור התוצאה השניה ב"תוצאות מפתיעות בסיבוכיות" – הטענה \(\mbox{NL=coNL}\), או בשמה הקליט יותר, משפט אימרמן-סזלפסני (Immerman–Szelepcsényi – אין לי מושג איך לתעתק נכון), ומכאן ואילך – משפט אימרמן. אז על מה מדובר בכלל?

ראשית כל תזכורת כללית למה אנחנו עושים בתורת הסיבוכיות. המטרה היא לסווג בעיות לפי כמות המשאבים הנדרשת כדי לפתור אותן (כמות שנמדדת תמיד ביחס לגודל הקלט שאיתו מנסים להתמודד). לצורך פשטות, אנחנו אוהבים להתעסק במיוחד בבעיות "כן/לא" – בעיות שבהן מביאים לנו קלט מסויים ושואלים אותנו האם הוא מקיים תכונה מסויימת (תכונה שהיא חלק מהגדרת הבעיה). למשל – נתון לנו גרף (מהו גרף? זה ידע קודם שנדרש למי שרוצה לקרוא פוסטים על מדעי המחשב) ושני צמתים בו – \(s,t\) – ואנו רוצים לדעת אם קיים בגרף מסלול מ-\(s\) אל \(t\). שימו לב לאופי ה"כן/לא"-י של הבעיה – לא ביקשנו לדעת מהו המסלול, אלא רק לדעת אם הוא קיים.

ייתכן שנראה לכם קצת מוזר שאפשר יהיה לגלות אם קיים מסלול בלי למצוא אותו במפורש, אבל יש בעיות שבהן זה קצת יותר ברור – למשל, בהינתן מספר \(n\), לגלות שהוא אינו ראשוני, כלומר קיים מספר בין 1 ל-\(n\) שמחלק אותו – את זה אפשר לבצע ביעילות, בעוד שלא ברור איך אפשר למצוא ביעילות מספר שמחלק את \(n\) (איך? יש כמה שיטות ותיארתי בעבר אחת מהן; אם מוצאים \(a\) כך שבמהלך החישוב של \(a^{n}\) מודולו \(n\) מתגלה שורש יחידה לא טריוויאלי – זה אומר מייד ש-\(n\) אינו ראשוני אף שזה כלל לא רומז על האופן שבו ניתן לפרק אותו).

כפי שמראה הדוגמה שלמעלה, בשאלות "כן/לא" רבות אפשר לתת תשובה חיובית בקלות אם נותנים לכם "רמז" לכך שהתשובה אכן חיובית. למשל, בשאלת הגרף – אם ייתנו לכם את מסלול בין \(s\) ו-\(t\), החיים יהיו קלים יותר – במקום לחפש מסלול בעצמכם רק תצטרכו לבדוק שהמסלול שנתנו לכם הוא בסדר. שימו לב שאם התשובה היא "לא", לא ממש ברור איזה רמז אפשר לתת שישכנע אתכם בכך שהתשובה היא אכן שלילית.

התופעה הזו, של בעיות שאפשר לתת "רמז" – או בשם היותר מקובל של המונח, "עד", Witness – לכך שהתשובה להן חיובית, כה חשובה עד שזכתה לסימון מיוחד: NP היא מחלקת הבעיות שניתן בזמן חישוב יעיל (יעיל במשמעות של פולינומי – זו הגדרה טכנית שלא אכנס אליה כעת) לבדוק עדים עבור תשובות "כן" שלהן. מה שאנחנו דורשים הוא שני דברים: שאם התשובה היא כן, אז יהיה קיים עד שניתן לבדוק בזמן יעיל ולענות בחיוב, ושאם התשובה היא לא אז אי אפשר לרמות אותנו – כל "עד" שיתנו לנו יוביל לכך שניתן תשובה שלילית, כלומר נצליח לזהות שהעד שנתנו לנו לא שווה כלום. אני אוהב לחשוב על עדים בתור "הוכחות" לנכונות של טענה. השימוש במילה הזו קצת מסוכן כי במתמטיקה אנחנו רגילים לחשוב על הוכחה בתור סדרה של טענות שכל אחת מהן נובעת לוגית מהשנייה; ה"הוכחות" שלי הן משהו יותר כללי – כלי שמאפשר לך לוודא בקלות בעצמך שטענה היא נכונה. הכלי הזה יכול להיות כתוב כמו הוכחה מתמטית רגילה, אבל זה יכול להיות גם מסלול בגרף.

שימו לב לחוסר הסימטריה שהיה בכל ההגדרה הזו של NP. דיברתי על בעיות שיש עדים עבור תשובות כן שלהן, אבל כפי שראינו עם דוגמת המסלול, זה לא אומר שלתשובות "לא" יהיה עד באותה קלות. מצד שני, הבה ונתבונן בבעיה הבאה: נתון גרף ושני צמתים \(s,t\) ואנו רוצים לדעת אם לא קיים מסלול מ-\(s\) אל \(t\). כאן יש עד פשוט מאוד לכך שהטענה אינה נכונה עבור גרף נתון – פשוט מראים מסלול מ-\(s\) אל \(t\) וזה משכנע אותנו בודאות שהטענה "אין מסלול מ-\(s\) אל \(t\)" איננה נכונה. בוודאי תגידו שאני רמאי עלוב. בסך הכל לקחתי את הבעיה המקורית והפכתי קצת את הניסוח שלה. אבל זו לא באמת רמאות – כל בעיה שבה יש עד לתשובת "לא" אפשר להמיר לבעיה "משלימה" שבה יש עד לתשובת "כן" דווקא.

בואו נעבור לקצת טרמינולוגיה מדוייקת. במקום לדבר כל הזמן על "בעיות", מדעני מחשב מדברים על "שפות". שפה \(L\) היא קבוצה של מילים – מחרוזות סופיות של תווים שמייצגות מידע כלשהו (יכול להיות קידוד של גרף, מספר, קוד של תוכנית מחשב וכדומה – תלוי בהקשר). למשל, אפשר לדבר על השפה שמכילה את כל השלשות \(\left(G,s,t\right)\) של גרף \(G\) עם צמתים \(s,t\) שיש מסלול ביניהם. השפה המשלימה ל-\(L\) מסומנת ב-\(\overline{L}\) – זו שפת כל המחרוזות שאינן ב-\(L\) (מראש אנחנו מניחים שמדובר רק על מחרוזות בינאריות, נאמר, כך שהשאלה מהי "קבוצת כל המחרוזות" שלוקחים משלים ביחס אליה איננה בעייתית). למשל, אם \(L\) היא שפת השלשות \(\left(G,s,t\right)\) שתיארתי קודם, אז \(\overline{L}\) היא שפת השלשות \(\left(G,s,t\right)\) של גרף \(G\) עם צמתים \(s,t\) שאין ביניהם מסלול. אולי תגידו עכשיו שיש גם הרבה מחרוזות שבכלל לא מייצגות שלשה \(\left(G,s,t\right)\) וגם הן אמורות להיות ב-\(\overline{L}\); כדי להיפרד מהמטרד הלא חשוב הזה נוח להניח שכל מחרוזת שמייצגת ג'יבריש תיחשב על ידינו ככזו שמייצגת איזה קלט טריוויאלי – למשל \(\left(G,s,t\right)\) כאשר \(G\) הוא גרף ששני הצמתים היחידים בו הם \(s,t\) ואין קשתות. הדברים הללו לא קריטייים ממילא ולא אחזור אליהם.

אומרים ש-\(L\in\mbox{NP}\) אם קיימת מכונת טיורינג \(M\) (ואם "מכונת טיורינג" לא אומר לכם כלום, תחשבו על "אלגוריתם" ותו לא; הסיבה שאומרים מכונת טיורינג במקום אלגוריתם היא אך ורק מכיוון שאין הגדרה מתמטית פורמלית ל"אלגוריתם") כך שאם \(x\in L\) אז קיים \(y\) כלשהו כך ש-\(M\left(x,y\right)=\mbox{ACCEPT}\), כלומר \(M\), כשהיא רצה על הקלטים \(x,y\) יחדיו, מסיימת את ריצה עם הפלט "Accept"; ואם \(x\notin L\) אז לכל \(y\) \(M\left(x,y\right)=\mbox{REJECT}\), כלומר \(M\) דוחה כל "נסיון הוכחה" לכך ש-\(x\in L\) במקרה שבו \(x\notin L\). יש על \(M\) דרישה אחת נוספת – שזמן הריצה שלה יהיה יעיל – פולינומי – ביחס לגודל של \(x\). הדרישה הזו אוטומטית גם מגבילה את \(y\); אם \(y\) הוא יותר מאשר פולינומי בגודל של \(x\), אז \(M\) פשוט לא תספיק לקרוא את כולו. לכן לפעמים כדי לפשט את החיים דורשים מראש ש-\(y\) יהיה פולינומי ב-\(x\).

כעת אפשר להציג את \(\mbox{coNP}\): בפשטות, זו המחלקה של כל המשלימות של שפות ב-\(\mbox{NP}\): \(\mbox{coNP}=\left\{ \overline{L}|L\in\mbox{NP}\right\} \). כפי שתיארתי לעיל, זו מחלקת השפות שיש עבורן תהליך-בדיקת-עדים כך שעבור תשובת "לא" קיים \(y\) שמוכיח זאת, ועבור תשובת "כן" אין אף \(y\) שיעבוד עלינו ויגרום לנו לחשוב שהתשובה היא "לא". וכעת לשאלת המחץ: האם \(\mbox{NP}=\mbox{coNP}\)?

האם העובדה שקל להוכיח שמשהו הוא "כן" גוררת שיהיה קל להוכיח אם הוא "לא", ולהפך? האם העולם סימטרי ונחמד? זו השאלה. נתון גרף ונשאלת השאלה אם אפשר לצבוע אותו בשלושה צבעים. אם מישהו יתן לי את הצביעה יהיה לי קל לבדוק שהגרף אכן ניתן לצביעה כזו; האם יש דרך פשוטה במידה דומה לשכנע אותי שהגרף לא ניתן לשום צביעה? אםh תוכיחו את זה, הוכחתם כי \(\mbox{NP=coNP}\). אני מקווה שאתם מרגישים את חוסר הסימטריה המשווע שיש כאן; הוא הסיבה לכך שהאמונה הרווחת היא ש-\(\mbox{NP}\ne\mbox{coNP}\).

ייתכן שאתם תוהים מה הקשר של השאלה הזו לשאלה המפורסמת ביותר, האם \(\mbox{P=NP}\) (\(\mbox{P}\) היא מחלקת השפות שניתן להכריע עם אלגוריתם פולינומי שכלל לא נזקק לעדים). ובכן, אם \(\mbox{P=NP}\) אז \(\mbox{NP=coNP=P}\) (וזאת מכיוון ש-\(\mbox{P}\) סגורה למשלים), אבל אם \(\mbox{P}\ne\mbox{NP}\) (וכך סבורים כולם, כמעט) זה לא אומר ש-\(\mbox{NP}\ne\mbox{coNP}\). כך שזו שאלה "עדינה" יותר מאשר \(\mbox{P}\ne\mbox{NP}\) והוכחה עבורה תהיה קשה יותר מאשר הוכחה ש-\(\mbox{P}\ne\mbox{NP}\) (שכן הוכחה ש-\(\mbox{NP}\ne\mbox{coNP}\) תוכיח בפרט ש-\(\mbox{P}\ne\mbox{NP}\)).

עכשיו בואו ונבצע שינוי מחשבתי כלשהו. במקום לדבר על יעילות בצריכת משאב הזמן, נדבר על יעילות בצריכת משאב הזכרון. זמן ריצה נמדד במספר הצעדים שנדרשו לחישוב במודל הסטנדרטי של מכונת טיורינג – איך אפשר למדוד צריכת זכרון? הגישה הנאיבית מדברת על מודל של מכונת טיורינג עם סרט בודד שבו ראשית כל נכתב הקלט, ואחריו אפשר לכתוב עוד דברים לפי הצורך. אפשר להגדיר את כמות הזכרון שהמכונה צורכת בתור האינדקס של התא הקיצוני ביותר שאליו המכונה מגיעה במהלך החישוב (במילים אחרות – אם הזכרון היה סופי, מה כמות הזכרון המינימלית שלא הייתה גורמת לתוכנית להתרסק על הקלט הנתון). הבעיה עם הגישה הזו היא שאם התוכנית רוצה לקרוא את כל הקלט . (אפילו אם אינה רוצה לכתוב שום דבר) היא צריכה ללכת עד לקצה הקלט וזה כבר יניב שסיבוכיות הזכרון שלה היא לפחות \(\Omega\left(n\right)\). אלא שכאשר מדובר על סיבוכיות זכרון, סיבוכיות שנחשבת "יעילה" היא דווקא משהו מסדר גודל לוגריתמי ב-\(n\), ואת זה בשיטה שלנו אי אפשר למדוד בכלל. אז מה עושים?

הפתרון הסטנדרטי הוא להפריד בין הקלט, שנמצא בסרט "לקריאה בלבד" שעליו לא ניתן לכתוב, ובין זכרון העבודה של המכונה שהוא ריק בתחילת ריצתה ובו ניתן לקרוא ולכתוב באופן חופשי. סיבוכיות הזכרון נמדדת רק ביחס לניצול זכרון העבודה הזה. הסיפור מסתבך עוד יותר כשרוצים להכניס לתמונה את האפשר לבדיקת עדים לנכונות טענות – גם העדים נכתבים על סרט משל עצמם שהוא לקריאה בלבד ויותר מכך – לקריאה חד פעמית, במובן זה שהראש הקורא יכול לנוע רק ימינה, אחרת המודל הופך לחזק מדי. למרות כל הברחש הפורמלי הזה, ניתוח סיבוכיות הזכרון של אלגוריתמים הוא בדרך כלל לא מסובך במיוחד.

כעת אפשר להכניס לתמונה סוף סוף את \(\mbox{NL}\)- זו מחלקת השפות שקיימת מכונה-בודקת-עדים עבורן שפועלת בסיבוכיות זכרון \(O\left(\log n\right)\). את \(\mbox{coNL}\) מגדירים באותו אופן כמו \(\mbox{coNP}\). לא מדויק עד הסוף לומר שאלו האנלוגים של \(\mbox{NP}\) ו-\(\mbox{coNP}\) כי גם סיבוכיות זכרון של \(O\left(\log^{k}n\right)\) ("פולי-לוגריתמית") נחשבת יעילה; אבל שתי המחלקות הללו הן הבסיס. ולכן זו הפתעה לא קטנה כשמתברר שהאנלוג לשאלת \(\mbox{NP=coNP}\) עבור סיבוכיות זכרון זוכה לתשובה, ותשובה חיובית דווקא – \(\mbox{NL=coNL}\), ויותר מכך – לכל מחלקה דומה של סיבוכיות זכרון עבור חסם סיבוכיות גדול יותר, השוויון עדיין מתקיים (פורמלית, \(\mbox{NSPACE}\left(f\left(n\right)\right)=\mbox{coNSPACE}\left(f\left(n\right)\right)\) לכל \(f\left(n\right)\ge\log n\) שהיא מה שנקרא Space Constructible, כלומר ניתן לחשב את \(f\left(n\right)\) מתוך \(1^{n}\) תוך שימוש ב-\(f\left(n\right)\) זכרון – זו דרישה טכנית שלא ניכנס כעת אליה). הטענה הוכחה בנפרד בידי אימרמן ובידי סזלפסני, ואין לי מושג מי מהם המציא את ההוכחה שאציג כעת (או אפילו אם מישהו מהם המציא אותה ולא שמדובר על המצאה מאוחרת יותר).

ראשית כל צריך להבין שכמו ש-\(\mbox{NP}\) קמה ונופלת על הפתרון של בעיות ספציפיות – הבעיות ה-\(\mbox{NP}\)-שלמות – גם כאן המשפט מסתכם בפתרון מוצלח עבור בעיה ספציפית – בעיית הישיגות בגרף שהזכרתי קודם. בעיית הישיגות היא טריוויאלית לפתרון בזמן יעיל – אלגוריתם DFS פותר אותה חיש קל, בזמן לינארי – אבל פתרון בזכרון לוגריתמי זה סיפור שונה לגמרי – לא מוכר כיום פתרון שכזה עבור גרפים מכוונים (אבל, וזו תוצאה מפתיעה מאוד בפני עצמה וגם חדשה למדי – עבור גרפים לא מכוונים יש פתרון).

הסיבה לכך שהבעיה הזו כל כך חשובה היא שניתן לתאר חישובים של מכונות (ובפרט מכונות לבדיקת עדים) על קלט כלשהו באמצעות גרף – גרף הקונפיגורציות של המכונה, שכל צומת בו מתאר את המצב הנוכחי של המכונה – תוכן סרט הזכרון, מצב הבקרה הנוכחי, מיקום הראשים הקוראים בכל הסרטים – כל זה מידע שניתן לייצג בזכרון לוגריתמי, כך שניתן לשמור צומת בודד של הגרף בזכרון בכל עת. בגרף יש קשת מצומת א' לצומת ב' אם אפשר להגיע בצעד בודד מהקונפיגורציה א' לקונפיגורציה ב' (השאלה אם זה באמת קורא תלויה בשאלה מה רואים הראשים הקוראים בסרטי הקלט והעד). בפועל בהינתן הקידוד של צומת בגרף, אפשר לחשב בזכרון לוגריתמי את הצמתים שאליהם ניתן לעבור ממנו. לכן השאלה האם המכונה מקבלת קלט כלשהו מצטמצמת לשאלה אם קיים מסלול בגרף הקונפיגורציות שלה מהקונפיגורציה ההתחלתית לאיזו שהיא קונפיגורציה שבה המכונה עוצרת ומקבלת. אפשר להנדס את המכונה כך שתהיה רק קונפיגורציה אחת כזו (למשל, כזו שבה כל סרט העבודה מחוק והראשים הקוראים בתחילת כל הסרטים) ולכן אנחנו מצטמצמים לשאלה האם קיים מסלול בגרף בין שני צמתים – בדיוק בעיית הישיגות, \(\mbox{CON}\).

כפי שאמרתי, הדרך הסטנדרטית לבדוק אם בגרף יש מסלול בין שני צמתים היא אלגוריתם כמו DFS, שפשוט מטייל לו בגרף ומסמן צמתים שהוא כבר ביקר בהם, נמנע מלהיכנס שוב לצמתים שהוא ביקר בהם, וחוזר אחורה אם הוא נתקע. לרוע המזל, סיבוכיות הזכרון של האלגוריתם הזה היא לינארית בגודל הגרף – בגלל עניין סימון הצמתים. לכן כל הרעיון הזה לא רלוונטי לנו.

לבדוק שיש מסלול מ-\(s\) אל \(t\) בסיבוכיות זכרון יעילה, בהינתן עד לכך, את זה קל לעשות. העד יהיה תיאור המסלול עצמו, ולכן כל המידע שצריך לזכור בכל שלב הוא מה הצומת הנוכחי שלנו, לקרוא את הצומת הבא בתור מהעד, ולבדוק אם אכן יש קשת מהצומת הנוכחי שלנו אל הצומת הבא בתור שהעד מדבר עליו. מכיוון שלייצג צומת או שניים בודדים דורש רק כמות לוגריתמית של זכרון, זה מראה ש-\(\mbox{CON}\in\mbox{NL}\). האתגר הוא להראות ש-\(\mbox{CON}\in\mbox{coNL}\) – שיש עד לכך שלא קיים מסלול מ-\(s\) אל \(t\). איך עושים דבר כזה? התשובה פשוטה – אומרים את האמת, רק האמת, וכל האמת.

נניח שידוע לנו שיש בדיוק \(k\) צמתים שאליהם אפשר להגיע מ-\(s\) תוך לכל היותר \(n\) צעדים. אנחנו לא יודעים מיהם הצמתים הללו, אבל כוח משמיים הבטיח לנו כי יש בדיוק \(k\) כאלו. אז קל מאוד יהיה לשכנע אותנו שמ-\(s\) אי אפשר להגיע אל \(t\) תוך \(n\) צעדים באופן הבא: יתנו לנו כעדים \(k\) מסלולים, שכל אחד מוביל לצומת כלשהו שאינו \(t\), וכל הצמתים שונים אלו מאלו. זה יבטיח שלא ניתן להגיע מ-\(s\) אל \(t\) תוך \(n\) צעדים לכל היותר, כי יש בדיוק \(k\) צמתים שאפשר להגיע אליהם, ו"כיסינו" את כולם. כמה זכרון זה דורש? ובכן, כבר אמרנו שלבדוק מסלול דורש רק כמות לוגריתמית של זכרון. אבל, בעיה: איך נדע שכל \(k\) הצמתים שהביאו אותנו אליהם שונים זה מזה? בשביל זה צריך יהיה לזכור את כולם, וייתכן ש-\(k\) כבר יהיה גדול מדי מכדי להיות לוגריתמי (נניח, חצי מהצמתים בגרף). מה עושים?

הפתרון פשוט: העד יורכב מסדרה של טענות מהצורה "הצומת \(v\) ישיג מהצומת \(s\) לכל היותר ב-\(n\) צעדים, והרי הוכחה לכך…", כאשר הסדר שבו מופיעות הטענות בתוך העד מתאים לסדר לקסיקוגרפי כלשהו שנקבע על הצמתים \(v\) (בסופו של דבר, צמתים, כמו כל מידע אחר, מיוצגים בידי מחרוזות בינאריות, ועל מחרוזות כאלו יש סדר באופן טבעי). בכל שלב נצטרך לזכור מה הצומת האחרון שעליו כבר הוכיחו שהוא ישיג מ-\(s\) ולבדוק אם החדש אכן גדול ממנו. אם הוא אכן גדול יותר, אפשר לשכוח את הקודם ולזכור רק את הנוכחי; אם הוא לא גדול יותר, אפשר להפסיק את בדיקת העד ולהכריז שמרמים אותנו. זה מבטיח שלא נספור אף צומת פעמיים, ולכן כל מה שצריך לשמור בנוסף הוא את מספר הצמתים שכבר שוכנענו שהם ישיגים מ-\(s\), וכדי לאחסן מספר שהוא לכל היותר מספר הצמתים הכולל בגרף דרוש רק זכרון לוגריתמי.

אז מה ראינו? שבזכרון לוגריתמי אפשר לבדוק הוכחה לטענה מהצורה "לפחות \(k\) הצמתים הללו ישיגים מ-\(s\) ב-\(n\) צעדים", ושאם זה משולב בטענה מהצורה "בדיוק \(k\) צמתים ישיגים מ-\(s\) ב-\(n\) צעדים" אפשר להוכיח שמשהו לא ישיג מ-\(s\) ב-\(n\) צעדים. אבל איך אפשר להראות שבדיוק \(k\) צמתים ישיגים מ-\(s\) ב-\(n\) צעדים? ובכן, באינדוקציה על \(n\).

בואו נסמן ב-\(C_{n}\) את מספר הצמתים שישיגים מ-\(s\) לכל היותר ב-\(n\) צעדים. ראשית, ברור ש-\(C_{1}\) ניתן לחישוב באופן עצמאי לגמרי ובלי שום עזרה – פשוט עוברים איכשהו על רשימת הקשתות של הגרף וסופרים כמה מחוברות ל-\(s\). האתגר הוא להראות שאפשר לתת כעד את \(C_{n+1}\) באופן כזה שאם \(C_{n}\) כבר נתון, אפשר לבדוק שהעד נכון. איך עושים את זה?

בואו נעצור לרגע כדי לקחת אוויר ולסכם את מה שראינו עד כה. ראינו כי ניתן להוכיח (באופן שיהיה ניתן לבדיקה בזכרון לוגריתמי) שצומת כלשהו ישיג מ-\(s\) ב-\(n\) צעדים. כמו כן, ראינו כי אם \(C_{n}\) נתון, אז אפשר להוכיח שצומת כלשהו אינו ישיג מ-\(s\) ב-\(n\) צעדים. למעשה, אפשר גם להוכיח באופן דומה מאוד שצומת \(v\) אינו ישיג מ-\(s\) ב-\(n+1\) צעדים – פשוט מוכיחים שאף שכן של \(v\) אינו ישיג מ-\(s\) ב-\(n\) צעדים (ולמי שנזקק לפירוט – ההוכחה כוללת את רשימת כל \(C_{n}\) השכנים שכן ישיגים ואת המסלול שמוביל להם; בזמן שבודקים שההוכחה נכונה גם בודקים שכל אחד מהשכנים הללו אינו שכן של \(v\)).

עכשיו בואו נעצור לרגע ונחשוב – איך כל המרכיבים הללו פותרים לנו את הבעיה של חישוב \(C_{n+1}\)? תנסו לחשוב על זה בעצמכם לרגע. תזכרו שאנחנו כלל לא צריכים להיות חסכוניים בזמן ריצה, רק בזכרון.

התשובה פשוטה: ההוכחה לערך החדש של \(C_{n+1}\) תהיה מורכבת מרשימת כל הצמתים בגרף לפני הסדר, כשאחרי כל צומת ההוכחה או טוענת שהוא ישיג מ-\(s\) ב-\(n+1\) צעדים ומספקת תת-הוכחה שמראה זאת, או טוענת שהוא אינו ישיג מ-\(s\) ב-\(n+1\) צעדים, ומספקת תת-הוכחה שמראה זאת. הגאונות כאן היא בכך שאחרי שאנחנו גומרים עם צומת, אנחנו לא צריכים לזכור אם הוא היה ישיג או לא היה ישיג (זה ידרוש מאיתנו הרבה יותר מדי זכרון לתחזק רשימה כזו) אלא רק להוסיף או לא להוסיף 1 למונה של \(C_{n+1}\) שאנחנו מתחזקים. אחרי שנסיים לקרוא את ההוכחה (שכאמור, אומרת פרטנית מה קורה לכל אחד מהצמתים בגרף), יהיה ברשותנו הערך הנכון של \(C_{n+1}\).

מכאן הפתרון לבעיה טריוויאלי. ההוכחה לכך ש-\(t\) לא ישיג מ-\(s\) ראשית כוללת הוכחות לסדרת הערכים \(C_{1},C_{2},\dots,C_{\left|V\right|}\), ולבסוף היא כוללת הוכחה לכך ש-\(t\) אינו ישיג מ-\(s\) ב-\(\left|V\right|\) צעדים, שמסתמכת על \(C_{\left|V\right|}\). אם \(t\) לא ישיג מ-\(s\) ב-\(\left|V\right|\) צעדים, הוא לא ישיג בכלל (למה?).

מה שיפה בהוכחה הזו היא השימוש האינטנסיבי משהו שהיא עושה ב"הוכחות". אנחנו לא סתם מספקים מסלול וזהו, אלא לכל שלב של חישוב \(C_{i}\), אנחנו מספקים (שוב ושוב ושוב) את ההוכחה שצומת מסויים ישיג או לא ישיג מ-\(s\), לכל צומת בגרף. האינטנסיביות הזו מצליחה להניב בסיום פתרון שהוא מאוד חסכוני בזכרון (על משקל בזבוז אדיר של זמן הריצה, כמובן), וזה נראה מפתיע – ויותר מכך, מעלה את השאלה איך לעזאזל בכלל חשבו על פתרון כמו זה (אם כי אני חייב להודות – ביחס למשפט ברינגטון, משפט אימרמן עוד נראה מתבקש איכשהו). פרט לכך, המשפט הוא המחשה יפה מאוד לטעמי של האופן הכל כך שונה שבו סיבוכיות זכרון מתנהגת ביחס לסיבוכיות זמן.

הפרדוקס של בנך-טרסקי (חלק ג' ואחרון)

תקציר הפרקים הקודמים: הראיתי את פרדוקס האוסדורף, או כפי שהעדפתי לקרוא לו, "פרדוקס כמעט בנך-טרסקי". פרדוקס האוסדורף אמר כי ניתן לקחת את ספירת היחידה במרחב התלת ממדי \(S^{2}\) (פניו של כדור שרדיוסו 1), להעיף מתוכה קבוצה בת-מניה של נקודות \(D\), והתוצאה \(S^{2}\backslash D\) תהיה קבוצה פרדוקסלית, כלומר ניתן יהיה לפרק אותה לשתי משפחות של תת קבוצות שכל אחת בנפרד מרכיבה את \(S^{2}\backslash D\), אחרי שמפעילים על איבריה אי-אלו איזומטריות.

פרדוקס בנך-טרסקי עצמו הוא אותו הדבר, רק שבמקום \(S^{2}\backslash D\) הקבוצה שאותה תוקפים היא כדור היחידה עצמו. בפוסט הזה נסתום את החורים שבפרדוקס האוסדורף, תרתי משמעי, ונקבל את בנך-טרסקי.

הרעיון הבסיסי הוא שאין צורך להוכיח את בנך-טרסקי במפורש עבור \(S^{2}\); מספיק שנראה שאפשר לפרק את \(S^{2}\), להפעיל על הפירוק איזומטריות ולקבל את \(S^{2}\backslash D\). בואו נטפל ברעיון הזה בצורה קצת יותר כללית. נאמר ששתי קבוצות \(A,B\) הן חופפות בחלקים אם אפשר לפרק אותן לשתי סדרות של קבוצות זרות \(A=A_{1}\cup A_{2}\cup\dots\cup A_{n},B=B_{1}\cup B_{2}\cup\dots\cup B_{n}\) כך שלכל \(i\) מתקיים \(g_{i}\left(A_{i}\right)=B_{i}\) עבור איזומטריה \(g_{i}\) כלשהי. די פשוט לראות שחפיפה בחלקים היא יחס שקילות – \(A\) בוודאי חופפת בחלקים לעצמה (קחו כל פירוק שתרצו ואת איזומטריות הזהות). אם \(A\) חופפת ל-\(B\) אז \(B\) חופפת ל-\(A\) (כי אם \(g_{i}\left(A_{i}\right)=B_{i}\) אז \(g_{i}^{-1}\left(B_{i}\right)=A_{i}\)). רק תכונת הטרנזיטיביות – שאם \(A\) חופפת ל-\(B\) ו-\(B\) חופפת ל-\(C\) – מהווה קצת אתגר. הרעיון הוא לקחת את שני הפירוקים של \(B\) – זה שמותאם לחפיפה ל-\(A\) וזה שמותאם לחפיפה ל-\(C\), ו"לחתוך" אותם (כל חתיכה בפירוק לפי \(A\) לחתוך לפלחים כשכל פלח שייך לחיתוך של החתיכה עם חתיכה בפירוק לפי \(C\)). מי שסקרן לא יתקשה להשלים את הפרטים בעצמו. שימו לב שאם בפירוק של \(A,B\) יש \(n\) חתיכות ובפירוק של \(B,C\) יש \(m\) חתיכות, אז בפירוק של \(A,C\) יש \(mn\) חתיכות, כלומר מספר החתיכות עשוי לגדול (ולמקרה שזה מסקרן אתכם, נסו למצוא דוגמה נגדית שמוכיחה כי "חופף ב-\(n\) חלקים" איננו יחס שקילות בדיוק בגלל בעיה זו).

נסמן \(A\sim B\) אם \(A,B\) חופפות בחלקים. אז ראשית, שימו לב שקל לתאר כעת מהי קבוצה פרדוקסלית: זוהי קבוצה \(E\) כך ש-\(E=A\uplus B\) ו-\(A\sim B\sim E\). שנית, את מה שאני רוצה להוכיח אפשר לתאר כעת בתור – אני רוצה להוכיח שאם \(A\sim B\) ו-\(B\) פרדוקסלית, כך גם \(A\), ואני רוצה להוכיח ש-\(S^{2}\sim S^{2}\backslash D\).

נתחיל מהטענה הראשונה. נניח ש-\(B\) פרדוקסלית עם פירוק ל-\(B_{1},B_{2}\). ניקח את הפירוקים של \(A,B\) שמראים את החפיפה שלהם, וכמו שעושים בהוכחה של הטרנזיטיביות – נפרק אותם עוד – כל חתיכה נפרק לשני חלקים, החלק האחד כולל את מה ששייך ל-\(B_{1}\), והשני את מה ששייך ל-\(B_{2}\). נקבל מזה פירוק של \(A\) לשתי קבוצות זרות \(A_{1},A_{2}\) כך ש-\(A_{1}\sim B_{1}\sim B\sim A\) ואותו הדבר עבור \(A_{2}\). זה מראה את הפרדוקסליות של \(A\).

נותר להוכיח כי \(S^{2}\sim S^{2}\backslash D\). התעלול שבו משתמשים פה הוא פשוט אך מחוכם ויפה; כדי להבין אותו בואו ניזכר קודם כל במקום אחר שבו משתמשים בתעלולים שכאלו ודיברתי עליו לא מזמן – המלון של הילברט. במלון של הילברט היה חדר לכל מספר טבעי וכל החדרים היו תפוסים, ואז הגיע אורח חדש. כדי לפנות לו מקום, את האורח בחדר 0 (בואו נניח שהטבעיים מתחילים מ-0; זה ישתלם בהמשך) העברנו לחדר 1 ואז התפנה לאורח החדש מקום בחדר 0. לרוע המזל, עכשיו נוצרה התנגשות בחדר 1 בין הדייר החדש והדייר הישן, אז העברנו את הדייר הישן של חדר 1 לחדר 2, וכן הלאה עד אינסוף. בואו נכתוב פורמלית את מה שעשינו פה – גם זה ישתלם לנו בקרוב. כדי לעשות את הסיטואציה עוד יותר דומה לזו שלנו, נניח שהמלון של הילברט גדול עוד יותר משמספרים לכם, ויש בו חדר לכל מספר רציונלי, כך שכל הטירוף של שיכון האורח החדש מתרחש בסך הכל באחד המסדרונות שלו ורוב האורחים במלון לא שמים אליו לב. אסמן את כל החדרים במלון ב-\(H\) (מלשון הילברט, או Hotel, איך שתרצו), ב-\(D\) את הקבוצה \(D=\left\{ 0\right\} \), וב-\(g\) את הפונקציה \(g\left(n\right)=n+1\), שמזיזה את האורחים במסדרון של הטבעיים חדר. לסיום אסמן ב-\(\overline{D}\) את ה"סגור" של \(D\) ביחס לפונקציה \(g\), כלומר את הקבוצה \(\overline{D}=\left\{ g^{n}\left(D\right)|n\in\mathbb{N}\right\} \).

מכיוון ש-\(g\) היא פונקציה חד חד ערכית, אז \(\overline{D}\) שווה בגודלו ל-\(g\left(\overline{D}\right)\). אבל מהו \(g\left(\overline{D}\right)\)? זה בסך הכל \(\overline{D}\) כשהוצאנו ממנו את \(D\) המקורי, כלומר את חדר מספר 0. עכשיו ניתן לתאר מתמטית את התעלול שעשינו בתור \(H=\left(H\backslash\overline{D}\right)\cup\overline{D}\cong\left(H\backslash\overline{D}\right)\cup g\left(\overline{D}\right)=H\backslash D\). במילים: המלון \(H\) "חופף" למלון \(H\) כאשר החדר \(D\) בו פנוי. אולי אתם תוהים למה הייתי צריך להסתרבל כל כך כדי לכתוב את הטריק הפשוט הזה של הילברט – ובכן, מכיוון שמה שנעשה עכשיו עם בנך-טרסקי הוא אותו הדבר בדיוק. עד לרמת הסימונים.

נחזור לבנך-טרסקי. הקבוצה \(H\) אצלנו היא \(S^{2}\). הקבוצה \(D\) אצלנו היא תת-קבוצה בת מניה כלשהי של \(S^{2}\) (פרט לכך שהיא בת מניה שום דבר לא מעניין אותנו בה). בואו נניח שהצלחנו רגע למצוא איזומטריה של המרחב \(g\) כך שהקבוצות \(D,g\left(D\right),g^{2}\left(D\right),\dots\) יהיו זרות זו לזו (חשבו על \(D\) בתור האורחים החדשים במלון, על \(g\left(D\right)\) בתור האורחים שפונו כדי לפנות להם חדר, על \(g^{2}\left(D\right)\) בתור האורחים שפונו כדי לפנות לאורחים שפונו חדר וכו'). נגדיר \(\overline{D}=\left\{ g^{n}\left(D\right)|n\in\mathbb{N}\right\} \) כמו קודם, ונקבל ש-\(g\left(\overline{D}\right)\) זהה ל-\(\overline{D}\) ללא \(D\) (בשביל זה הכרחי ש-\(g\) לא תגרום ל"התנגשות" – לכך שאם מפעילים אותה על איבר כלשהו ב-\(\overline{D}\) מקבלים מישהו מתוך \(D\)). לכן נקבל ש-\(S^{2}=\left(S^{2}\backslash\overline{D}\right)\cup\overline{D}\sim\left(S^{2}\backslash\overline{D}\right)\cup g\left(\overline{D}\right)=S^{2}\backslash D\) – כאן החפיפה היא בדיוק עם שני חלקים, \(S^{2}\backslash\overline{D}\) ו-\(\overline{D}\).

הסבר מילולי קצר של מה שהלך כאן – השתמשנו בתעלול תורת-קבוצותניקי פשוט כדי להראות ש-\(S^{2}\) חופפת ל-\(S^{2}\backslash D\) – "החבאנו" את האיברים של \(D\) אי שם בתוך \(S^{2}\). לצורך כך היינו חייבים "לפנות" חלק מהאיברים של \(S^{2}\), אז העברנו אותם למקום אחר ב-\(S^{2}\), ואת התושבים שלו פינינו, וכן הלאה עד אינסוף. כמו במלון של הילברט כך גם כאן, התוצר הכולל של התהליך האינסופי הזה הוא שלכולם יש חדר וכולם מרוצים. ההבדל המהותי היחיד בין המלון של הילברט לסיטואציה הנוכחית הוא שהסיטואציה הנוכחית היא גאומטרית וה"הזזה" של איברים הייתה חייבת להיות באמצעות פונקציה שמכבדת את הגאומטריה הזו – איזומטריה \(g\). כל שנותר להסביר הוא איך מוצאים כזו בכלל. כאן העובדה ש-\(D\) בת מניה חוזרת להיות חשובה.

האופן שבו מוצאים את \(g\) הוא לא קונסטרוקטיבי. פשוט יש המון איזומטריות שאפשר לבחור ורק מספר קטן (בן מניה) שלהן הן לא מוצלחות. בוחרים ישר כלשהו שעובר דרך הראשית ולא פוגע ב-\(D\) (יש כזה כי יש מספר לא בן מניה של ישרים שעוברים דרך הראשית, ורק מספר בן מניה של נקודות ב-\(D\)). עכשיו מסתכלים על אוסף כל הסיבובים שאותו ישר הם ציר הסיבוב שלהם – שוב, יש מספר לא בן מניה של סיבובים שכאלו, כי יש מספר לא בן מניה של זוויות \(\theta\) שבהן אפשר לסובב. נסמן סיבוב בזווית \(\theta\) בתור \(g_{\theta}\).

בגלל שציר הסיבוב לא פוגע ב-\(D\), כל שני סיבובים בזווית בין 0 ל-360 מעלות פועלים בצורה שונה על כל אברי \(D\) (במילים אחרות, אם \(g_{\theta_{1}}\left(p\right)=g_{\theta_{2}}\left(p\right)\) עבור \(p\in D\) כלשהו, אז \(\theta_{1}=\theta_{2}\); אם ציר הסיבוב היה דרך נקודה ב-\(D\) אז היא הייתה עוברת לעצמה עבור כל סיבוב בכל זווית ולכן זה לא היה עובד). זה מאפשר לנו לתחום בצורה פשוטה את כל הסיבובים ה"רעים": \(\theta\) היא זווית רעה לסיבוב אם קיים \(n>0\) טבעי וקיימות נקודות \(p,q\in D\) כך ש-\(g_{\theta}^{n}\left(p\right)=q\) – כי, כאמור, אנחנו רוצים לוודא ש-\(g\) שאנו בונים לא יכולה לשלוח נקודה מ-\(D\) חזרה אל \(D\) ולא משנה כמה פעמים מפעילים אותה.

נשים לב שהשלשה \(\left(n,p,q\right)\) קובעת באופן יחיד את \(\theta\), בגלל התכונה שתיארתי לפני רגע. מספר השלשות הללו הוא בן מניה שכן \(n\) הוא מספר טבעי ואילו \(p,q\) שניהם איברים של קבוצה בת מניה. מכאן שיש רק מספר בן מניה של זוויות \(\theta\) "רעות", ומכיוון שיש מספר לא בן מניה של זוויות \(\theta\) שאפשר לבחור, קיימת אחת שאיננה רעה. \(g_{\theta}\) עבורה תהיה האיזומטריה \(g\) המבוקשת. זה מסיים את הוכחת פרדוקס בנך-טרסקי.

רגע, רגע, איך זה מסיים את זה? בנך-טרסקי, כזכור, מתואר בדרך כלל עבור כדור, לא עבור ספירה, שהיא רק המעטפת של הכדור. אז כאן יש עוד שני טריקים קטנים שצריך לבצע. בתור התחלה, שימו לב לכך שההוכחה של בנך-טרסקי עבור ספירה לא השתמשה בשום מקום בכך שהספירה היא מרדיוס 1; ההוכחה עובדת עבור ספירה מכל רדיוס, והאיזומטריות שבהן משתמשים בפירוקים הפרדוקסליים של הספירות הן בדיוק אותן איזומטריות. כעת, שימו לב שאפשר לחשוב על כדור כעל אוסף של אינסוף ספירות – כדור היחידה, למשל, הוא איחוד כל הספירות מרדיוס קטן או שווה מ-1, ועוד הנקודה שבראשית הצירים. נסמן את הכדור ב-\(B\), אז פורמלית ניתן לומר כי \(B\backslash\left\{ 0\right\} =\bigcup_{r\le1}S^{2}\left(r\right)\), כאשר \(S^{2}\left(r\right)\) היא הספירה מרדיוס \(r\).

אם כן, \(B\backslash\left\{ 0\right\} \) היא קבוצה פרדוקסלית – כדי לקבל את הפירוק הפרדוקסלי שלה, פשוט ניקח את איחוד הפירוקים הפרדוקסליים של כל הספירות שמרכיבות אותה. זה כמעט מסיים את ההוכחה, רק שעדיין יש לנו את נקודת האמצע החסרה הזו. האם אתם יכולים לנחש באיזה טריק נשתמש כדי להיפטר ממנה? בדיוק באותו טריק שבו השתמשנו קודם כדי להיפטר מה-\(D\) שהציקה לנו. כאן ראשית הצירים היא האורח החדש במלון של הילברט, ו-\(B\) הוא המלון עצמו. פורמלית, ניקח איזומטריה \(g\) שהיא סיבוב בזווית אי רציונלית ביחס לאיזה שהוא ישר המפספס את ראשית הצירים. העובדה שהזווית היא אי רציונלית גורמת לכך ש-\(g\) תהיה מסדר אינסופי, כלומר \(g^{n}\left(x\right)\ne g^{m}\left(x\right)\) לכל \(n\ne m\). נגדיר \(D=\left\{ 0\right\} \) ו-\(\overline{D}=\left\{ g^{n}\left(0\right)|n\ge0\right\} \) וההוכחה שהראינו למעלה תעבוד שוב ותראה ש-\(B\backslash\left\{ 0\right\} \sim B\). סיימנו את בנך-טרסקי.

מה שלא הוכחתי הוא את הגרסה הפופולרית של בנך-טרסקי: "ניתן לפרק את כדור היחידה לחמישה חלקים, ו…". אם תעקבו אחרי ההוכחה שלי בפירוט, השימושים התכופים שלי בכך ששתי קבוצות הן חופפות מאלצות אותי להשתמש ביותר חלקים. ניתן לצמצם את המספר לחמש באמצעות תעלולים טכניים, אבל אני מעדיף בהרבה את ההוכחה ה"נקייה" שנתתי, גם אם מספר החלקים בפירוק (שהוא עדיין סופי) איננו עגול ויפה כמו 5. לכן אעצור כאן.

לסיום, אני רוצה לסכם את ההוכחה, כדי שנבין בדיוק את כל השלבים שמובילים לפרדוקס.

  1. הראינו שהחבורה החופשית עם שני יוצרים היא פרדוקסלית. הפרדוקסליות של החבורה הזו היא הבסיס לפירוקים פרדוקסליים רבים, לא רק זה של בנך-טרסקי.
  2. הראינו (או יותר נכון, נפנפתי בידיים בנקודה הזו) שחבורת האיזומטריות של המרחב מכילה תת-חבורה חופשית עם שני יוצרים.
  3. הראינו שיש קבוצה \(D\) כך ש-\(S^{2}\backslash D\) היא בעלת התכונה שאותה תת-חבורה חופשית של איזומטריות אינה כוללת נקודות שבת ב-\(S^{2}\backslash D\) (פשוט העפנו אותן – זה היה \(D\)).
  4. הראינו משפט כללי יותר, שאם חבורה פרדוקסלית פועלת על קבוצה ואין לפעולה נקודות שבת, אז גם הקבוצה פרדוקסלית. מכאן הסקנו ש-\(S^{2}\backslash D\) פרדוקסלית.
  5. הראינו ש-\(S^{2}\backslash D\sim S^{2}\) ולכן גם \(S^{2}\) פרדוקסלית.
  6. הראינו ש-\(B\backslash\left\{ 0\right\} \) פרדוקסלית כי ניתן להציג אותה כאיחוד של \(S^{2}\)-ים מרדיוסים שונים.
  7. הראינו ש-\(B\backslash\left\{ 0\right\} \sim B\) ולכן גם \(B\) פרדוקסלית.

בשלב 4, בהוכחת המשפט הכללי השתמשנו השתמש באקסיומת הבחירה (זה השלב היחיד בהוכחה שבו אנו נזקקים לו), וזאת כדי לבחור נציגים למסלולים של הפעולה של החבורה על הקבוצה. אותם נציגים הם ה"גרעין" שממנו נבנות החתיכות בפירוק הפרדוקסלי; כלומר, אקסיומת הבחירה נדרשה בדיוק בשביל השלב שבו אנחנו מפרקים את הספירה לחתיכות – אפשר, אינטואיטיבית, לחשוב על זה כאילו החתיכות הללו כל כך מוזרות ומעוותות, שהבניה שלהן היא בהכרח לא קונסטרוקטיבית. אפשר לחשוב כך, אבל כאמור – זו דרך חשיבה מסוכנת, כי הראיתי פרדוקס דמוי בנך-טרסקי שבו כן יש לנו בניה קונסטרוקטיבית.

אם כן, לסיום, איך אני מסביר את המוזרות של בנך-טרסקי? איך ייתכן שאנחנו מכפילים כך את המסה של כדור? התשובה המיידית היא שהחתיכות בפירוק הן לא בעלות מסה מוגדרת (הן חסרות מידה, במובן המתמטי של המילה "מידה"), ולכן לא מפתיע שאחרי שמרכיבים אותן מחדש קורים דברים מוזרים; עם זאת, אני חייב להודות שלי הפרדוקס כבר לא נראה לא כל כך פרדוקסלי, וגם לא כל כך מוזר. ככה זה כשמתגוררים יותר מדי זמן במלון של הילברט.

הפרדוקס של בנך-טרסקי (חלק ב')

הפוסט הקודם שלי על פרדוקס בנך-טרסקי עורר זעם רב בציבור הקוראים ואולי בעולם כולו – למרות שכבר בשורת הפתיחה של הפוסט הבהרתי בדיוק מהו פרדוקס בנך-טרסקי, הטענה הייתה שהפוסט בכלל לא התעסק בבנך-טרסקי אלא בכל מני שטויות לא קשורות. ובכן, לחלק מהשטויות הלא קשורות הייתה חשיבות בכך שבנך-טרסקי נבנה עליהן, והחלק האחר נועד לתת אינטואיציה ורעיונות שיעזרו בהסבר של בנך-טרסקי עצמו. גם בפוסט הזה לא נגיע לבנך-טרסקי אלא נוכיח פרדוקס אחר – פרדוקס האוסדורף – אבל פרדוקס האוסדורף מכיל את כל הרכיבים המרכזיים של בנך-טרסקי ומהווה את הצעד המרכזי בהוכחה של בנך-טרסקי עצמו; להבין את האוסדורף זה שלב הכרחי בדרך להבנת בנך-טרסקי.

מה אומר פרדוקס האוסדורף? ש-\(S^{2}\backslash D\) היא קבוצה פרדוקסלית (ניתנת לפירוק לכמה חלקים זרים, שאחרי הפעלת איזומטריות כלשהן עליהם מרכיבים שני עותקים של הקבוצה המקורית), כאשר \(S^{2}\) היא ספירת היחידה, ו-\(D\) קבוצה בת מניה. מה אומרים המושגים הללו? אסביר עוד מעט. האוסדורף "כמעט" מראה שספירת היחידה היא פרדוקסלית; בנך-טרסקי מתגברים על מכשול ה"כמעט" הזה, ומראים איך ממנו נובעת הטענה גם עבור כדור היחידה.

ההוכחה של האוסדורף היא יישום ישיר של הטענה שהראיתי בפוסט הקודם, לפיה החבורה החופשית עם שני יוצרים היא פרדוקסלית. האבחנה הראשונה היא שלחבורת האיזומטריות של המרחב \(\mathbb{R}^{3}\) קיימת תת-חבורה חופשית מסדר 2 שכזו. השלב הבא הוא "להרים" את הפרדוקסליות של אותה תת-חבורה לפרדוקסליות של אותה \(S^{2}\backslash D\). אתחיל דווקא בתיאור שלב ההרמה הזה, ואתאר אותו בצורה כללית מעט יותר. לדעתי, זה השלב החשוב ביותר בכל עניין בנך טרסקי, ואולי גם הכי מבלבל להבנה; וזה, כצפוי, השלב שבו אקסיומת הבחירה צצה.

באופן הכי כללי בעולם, אם יש לנו קבוצה \(X\) וחבורה \(G\) שפועלת עליה, מה זה אומר? זה אומר שכל \(g\in G\) מגדיר פרמוטציה כלשהי על אברי \(X\), ושכלל הכפל בחבורה מתורגם להרכבה של הפרמוטציות הללו. בניסוח המתמטי הפורמלי לכל \(g\in G\) מתאימה פונקציה מ-\(X\) אל \(X\), כך שאם \(g,h\in G\) אז \(g\left(h\left(x\right)\right)=\left(g\cdot h\right)\left(x\right)\) (באגף שמאל יש לנו את \(g\) שמופעל על התוצאה של הפעלת \(h\) על \(x\); באגף ימין יש לנו הפעלה של האיבר \(g\cdot h\) על \(x\)). כמו כן דורשים שאיבר היחידה בחבורה יהיה ההעתקה שמעבירה כל איבר לעצמו – \(e\left(x\right)=x\). למי שכל זה אבסטרקטי מדי בשבילו, תחשבו על \(X\) כעל נקודות במרחב, ועל \(G\) בתור חבורת האיזומטריות של המרחב.

\(G\) פרדוקסלית, כלומר אפשר לפרק אותה לקבוצות הזרות \(A_{1},\dots,A_{n}\) ו-\(B_{1},\dots,B_{m}\) ויש איברים \(g_{1},\dots,g_{n}\) ו-\(h_{1}.\dots,h_{m}\) כך ש-\(G=\bigcup g_{i}\left(A_{i}\right)=\bigcup h_{i}\left(B_{i}\right)\). אנחנו רוצים לקבל מהפירוק הזה פירוק של \(X\) – לכל קבוצה \(A_{i}\) להתאים קבוצה \(A_{i}^{*}\subseteq X\) וכנ"ל עבור ה-\(B_{i}\) כך ש-\(X=\bigcup g_{i}\left(A_{i}^{*}\right)=\bigcup h_{i}\left(B_{i}^{*}\right)\). בפוסט הקודם ראינו את זה נעשה בפרדוקס סרפינקי-מזורקביץ'; שם התעלול היה לקחת איבר ספציפי \(x\in X\) (אצלם זה היה \(0\)), ולהגדיר \(A_{i}^{*}=A_{i}\left(x\right)\), כאשר \(A_{i}\left(x\right)\) זה סימון מקוצר עבור \(\left\{ g\left(x\right)|g\in A_{i}\right\} \), כלומר ההפעלה של כל האיברים ב-\(A_{i}\) על \(x\). זה גם הרעיון הכללי של האוסדורף (אם כי הוא המציא אותו באופן בלתי תלוי בסרפינקי-מזורקביץ'). עם זאת, יש שתי בעיות לא פשוטות עם הרעיון הזה: ראשית, אנחנו לא בהכרח תופסים ככה את כל \(X\); ושנית, אף אחד לא מבטיח לנו שה-\(A_{i}^{*}\) וה-\(B_{i}^{*}\) שנקבל יהיו קבוצות זרות. שתי אלו הן בעיות כבדות משקל למדי. נראה עכשיו איך מתמודדים עם הבעיה הראשונה בעזרת אקסיומת הבחירה; ההתמודדות עם הבעיה השניה אצל האוסדורף היא מעין רמאות (בערך כמו שסרפינקי-מזורקביץ' "מרמים" בהתמודדות עם הבעיה הראשונה), והיא תיפתר רק על ידי בנך-טרסקי עצמו.

כדי להבין את הבעיה בואו נחשוב על המקרה שבו \(G\) היא חבורה חופשית עם שני יוצרים, ו-\(X\) הוא, נאמר, כדור היחידה ב-\(\mathbb{R}^{3}\). ב-\(G\) יש רק מספר בן מניה של איברים (כי כל איבר הוא סדרה סופית של אותיות מתוך קבוצה סופית). בשיטה שלנו, לכל איבר ב-\(G\) מותאם בדיוק איבר אחד ב-\(X\) – מה שקורה כשמפעילים את האיבר ב-\(G\) על איבר נתון מראש אחד ב-\(X\) (למשל, 0). מכאן שאוסף כל הקבוצות שנקבל יכיל רק מספר בן מניה של נקודות, ואין שום סיכוי שדבר כזה ירכיב את כל הכדור, שיש בו מספר לא בן מניה של נקודות. לא רק שאנחנו לא תופסים את כל הכדור, אנחנו אפילו ממש ממש לא קרובים.

באופן כללי בתורת החבורות, אם \(G\) פועלת על \(X\) ויש לנו איבר \(x\in X\), אז לאוסף כל האיברים שאפשר להגיע אליהם מ-\(x\) על ידי הפעולה של \(G\) קוראים המסלול (Orbit) של \(x\) ביחס לפעולה של \(G\). פורמלית זו פשוט הקבוצה \(\left\{ g\left(x\right)|g\in G\right\} \). הבעיה שלנו היא שלא בהכרח קיים \(x\) שהמסלול שלו הוא כל \(X\). למעשה, לא קשה לראות שאם קיים \(x\) שהמסלול שלו הוא כל \(X\), אז המסלול של כל איבר ב-\(X\) הוא \(X\); הסיבה לכך היא שהיחס "\(x\) ו-\(y\) נמצאים באותו מסלול" הוא יחס שקילות . זו נקודה חשובה אז בואו נקדיש לה כמה דקות.

נסמן \(x\sim y\) אם קיים \(g\in G\) כך ש-\(g\left(x\right)=y\). מייד רואים ש-\(e\left(x\right)=x\) ולכן \(x\sim x\); ושאם \(x\sim y\), כלומר \(g\left(x\right)=y\), אז \(g^{-1}\left(y\right)=g^{-1}\left(g\left(x\right)\right)=\left(g^{-1}g\right)x=e\left(x\right)=x\) ולכן \(y\sim x\). אם \(x\sim y\) ו-\(y\sim z\) אז \(g\left(x\right)=y\) ו-\(h\left(y\right)=z\) עבור \(g,h\in G\) מסויימים, ולכן \(hg\left(x\right)=h\left(g\left(x\right)\right)=h\left(y\right)=z\), כלומר \(x\sim z\). שלוש התכונות הללו, שבעברית נקראות רפלקסיביות, סימטריות וטרנזיטיביות, הופכות את \(\sim\) ליחס שקילות. המסלולים של פעולת \(G\) על \(X\) הן בדיוק מחלקות השקילות של היחס הזה.

המשמעות של זה עבורנו היא פשוטה: אם נפעיל את \(G\) על \(x\), האיברים שנקבל יהיו בדיוק האיברים ששקולים ל-\(x\), ואם נפעיל את \(G\) על אחד מאותם איברים נקבל שוב את האיברים ששקולים ל-\(x\) ולא שום דבר אחר. לכן ברור שאם אנחנו רוצים לתפוס את כל \(X\) על ידי הפעלה של אברי \(G\), נצטרך להפעיל את \(G\) לא על איבר בודד מתוך \(X\), אלא על איבר אחד מכל מסלול של \(G\). לכן בואו נגדיר קבוצה \(M\), שהאיברים שלה הם נציגים של המסלולים; יש בה בדיוק איבר אחד מכל מסלול. אפשר לראות בקלות ש-\(G\cdot M=X\) (\(G\cdot M\) היא ההפעלה של כל איבר ב-\(G\) על כל איבר ב-\(M\)). אם זה לא ברור לכם מייד, נסו להוכיח זאת.

כמה מסלולים יש ל-\(G\)? יכולים להיות המון, זו הנקודה. אם \(G\) בת מניה ו-\(X\) לא בת מניה (כמו שקורה במקרה של בנך-טרסקי), אז יש מספר לא בן מניה של מסלולים. זה אומר ש-\(M\) עשויה להיות ענקית למדי. כך אנחנו מצליחים להתגבר על הבעייתיות בכך ש-\(G\) הייתה קטנה מדי מכדי שתוכל לתפוס את כל \(X\) על ידי פעולה על איבר אחד בלבד. מכאן המשך ההוכחה טריוויאלי: \(A_{i}^{*}=A_{i}\cdot M\), \(B_{i}^{*}=B_{i}\cdot M\), וקל לבדוק ש-\(\bigcup g_{i}\left(A_{i}^{*}\right)=\bigcup h_{i}\left(B_{i}^{*}\right)=X\). כמקודם, אם זה לא ברור לכם מייד, לנסות לכתוב את ההוכחה בעצמכם יעזור להבין מה הולך כאן הרבה יותר מכל מה שאני יכול לכתוב פה.

נותרה רק בעיה אחת לטפל בה – אולי ה-\(A_{i}^{*},B_{i}^{*}\) הללו לא זרות – יש שתי קבוצות שיש להן איבר משותף. בפועל זה אומר שיש \(g,h\in G\) כלשהן ו-\(x,y\in M\) כלשהם כך ש-\(g\left(x\right)=h\left(y\right)\). אבל רגע אחד – \(M\) נבנתה כך שיש בה נציג אחד בדיוק מכל מסלול, ואם \(g\left(x\right)=h\left(y\right)\) אז \(x=\left(g^{-1}h\right)\left(y\right)\), כלומר הם באותו מסלול, ולכן בהכרח \(x=y\). כלומר, \(g\left(x\right)=h\left(x\right)\), כלומר \(x=g^{-1}h\left(x\right)\). במילים אחרות, יש ב-\(G\) איבר שונה מ-\(e\) שבפעולה שלו על \(X\) יש נקודות שבת. אז בואו ננקוט עכשיו בגישה הבוגרת והאחראית להתמודדות עם הסכנה בכך שהקבוצות שנבנה לא יהיו זרות – נניח מראש שהפעולה של \(G\) על \(X\) היא כזו שאין לאף איבר שאינו הזהות נקודות שבת, והבעיה נפתרה!

לסיכום, הוכחנו את המשפט הבא: אם \(G\) פרדוקסלית ופועלת על \(X\) ללא נקודות שבת לא טריוויאלית, אז \(X\) פרדוקסלית ביחס לפעולה של \(G\). רק מה? אולי לא שמתם לב, אבל השתמשנו כאן באקסיומת הבחירה.

אקסיומת הבחירה אומרת (בניסוח שלה שהכי מתאים לנו כאן) את הדבר הבא: בהינתן אוסף של קבוצות זרות ולא ריקות, קיימת קבוצה שמכילה בדיוק איבר אחד מכל אחת מהקבוצות. נשמע מוכר? זו בדיוק \(M\) שלנו, והקבוצות הזרות-אך-לא-ריקות הן המסלולים של פעולת \(G\) על \(X\). בהוכחה שלי הנחתי במובלע ש-\(M\)קיימת; לרוע המזל, זה פשוט לא מובן מאליו, אם מנסים להיות פורמליים. אם הולכים לפי אקסיומות תורת הקבוצות, אין לנו דרך להבטיח שקבוצה כמו \(M\) אכן תתקיים; הסיבה לכך היא שבתורת הקבוצות האקסיומטית ממש לא כל דבר שניתן לתאר במילים הוא אכן קבוצה; זה מונע בעיות דוגמת הפרדוקס של ראסל, אבל גם מכריח אותנו להיות הרבה יותר זהירים בהנחות שאנחנו מניחים כלאחר יד.

האם יכלתי להסתדר כאן בלי אקסיומת הבחירה? זו שאלה מצויינת, והתשובה הקצרה היא שאני לא יודע, ושתשובה מדויקת לשאלה תיקח אותי רחוק מדי גם מתוכן הפוסט הזה וגם מתחום הדברים שאני עוד קצת בקיא בהם. לכן נצטרך לדחות את השאלה הזו לפעם אחרת.

בואו נעבור עכשיו להחלת המשפט הכללי שלנו על המקרה של איזומטריות בתלת מימד. האבחנה הראשונה היא שחבורת האיזומטריות של \(\mathbb{R}^{3}\) מכילה תת חבורה חופשית עם שני יוצרים; ליתר דיוק, שיש שתי איזומטריות סיבוב שהן בלתי תלויות זו בזו (אף מילה בתת החבורה שנוצרת על ידי שתיהן אינה שווה ל-\(e\) מלבד המילה הריקה). יש כמה וכמה דוגמאות שאפשר לתת; הדוגמה שלי היא של סיבוב בזווית \(\arccos\frac{1}{3}\) סביב ציר ה-\(z\), וסיבוב באותה זווית סביב ציר ה-\(x\). ההוכחה ששתי האיזומטריות הללו בלתי תלויות היא… ובכן, טכנית ולא כל כך מעניינת. נעזוב אותה לעתה ואם יהיה ביקוש אדיר מהקהל אולי אציג אותה.

אם כן, יש לנו חבורה חופשית על שני יוצרים \(G\) של איזומטריות. מה מונע מאיתנו להפעיל אותה על כדור היחידה ולקבל את בנך-טרסקי, אם אנחנו מוכנים להניח את אקסיומת הבחירה? בעיה אחת בלבד – יש בחבורה הזו איזומטריות עם נקודות שבת. חשבו למשל על סיבוב סביב ציר \(z\); סיבוב שכזה מקבע את כל ציר \(z\). אפשר עם קצת עבודה להראות שבאופן כללי, כל איבר ב-\(G\) מקבע בדיוק את כל הנקודות על ישר כלשהו שעובר דרך ראשית הצירים. בקיצור, בעיה.

מה האוסדורף עושה? ראשית, הוא לא מדבר על כדור היחידה אלא על ספירת (Sphere) היחידה \(S^{2}\) – ה"מעטפת" של כדור היחידה, אוסף כל הנקודות שמרחקן מהראשית הוא 1 בדיוק. זה אותו הבדל כמו ההבדל שבין מעגל לעיגול. כל איבר של \(G\) מקבע רק שתי נקודות על הספירה, כי כל ישר העובר דרך הראשית חותך את הספירה בשתי נקודות בדיוק. יש רק מספר בן מניה של איברים ב-\(G\), ולכן קבוצת כל הנקודות שאברי \(G\) מקבעות, \(D\), היא בת מניה, ולכן קטנה וחסרת חשיבות בהשוואה ל-\(S^{2}\). אם נזרוק את הנקודות הללו לפח ונביט בקבוצה \(X=S^{2}\backslash D\) (\(X\) היא כל הנקודות ב-\(S^{2}\) שאינן ב-\(D\)) נוכל להפעיל את המשפט מקודם באופן חלק, ולקבל ש-\(S^{2}\backslash D\) פרדוקסלית. זהו פרדוקס האוסדורף. בפוסט הבא (והאחרון!) נעבור ממנו לבנך-טרסקי המלא, אבל כפי שכבר אמרתי – מה שראיתם עכשיו זה לב ההוכחה של בנך-טרסקי.

לסיום, בואו נפעיל את כל עניין הפרדוקסליות הזה על מקרה קצת שונה ממה שראינו עד כה. \(X\) יהיה מעגל היחידה, \(S^{1}\), ואילו \(G\) תהיה \(\left(\mathbb{Q},+\right)\) – החבורה החיבורית של הרציונליים. הפעלה של \(q\in\mathbb{Q}\) על אברי \(X\) תהיה סיבוב בזווית \(2\pi\cdot q\) (\(2\pi\) כי זה מעגל שלם). \(G\) איננה פרדוקסלית במובן הרגיל שלנו אבל במובן מאוד קרוב היא כן – אפשר לפרק אותה לשתי סדרות אינסופיות של קבוצות זרות, \(A_{1},A_{2},\dots\) ו-\(B_{1},B_{2},\dots\), כך שכל אחת מהסדרות נותנת את כל \(G\) אחרי פעולות מתאימות עליה. את החלוקה אפשר לבצע באופן שרירותי לגמרי – מתבקש לבנות כל קבוצה כך שתכיל בדיוק רציונלי אחד (יש מספר בן מניה של רציונליים ולכן זה אפשרי). ההוכחה שאפשר לקבל מהסדרה \(A_{1},A_{2},\dots\) את כל \(G\) נובעת מכך שאפשר לקבל כל רציונלי על ידי חיבור של מספר רציונלי אחר (אתם ב-\(q\) ורוצים להגיע ל-\(p\)? חברו לו את המספר הרציונלי \(\left(p-q\right)\)!) ולכן אפשר להעביר את האיבר של \(A_{1}\) אל הרציונלי הראשון במספור כלשהו שלנו, את \(A_{2}\) אל הרציונלי השני וכן הלאה.

כעת בואו נמשיך כמו קודם – \(M\) תהיה אוסף כל הנציגים של המסלולים של פעולת \(G\) על \(X\) (כלומר, אוסף הנציגים של כל מחלקות השקילות של היחס "אפשר לסובב את \(x\) בזווית שהיא כפולה רציונלית של \(2\pi\) ולקבל את \(y\)"), נגדיר \(A_{i}^{*}\) ו-\(B_{i}^{*}\) כמו קודם, וקיבלנו שמעגל היחידה הוא פרדוקסלי אם מרשים פירוק אינסופי בן-מניה. על פניו זו סתם עוד דוגמה נחמדה, אבל אני מביא אותה כי הרעיון כאן הוא אותו רעיון כמו בהוכחה שאין מידה אינוריאנטית להזזות על הישר הממשי, שכבר הראיתי כאן פעם: גם שם בנינו את אותה \(M\) בדיוק (שם דיברנו על הקטע \(\left[0,1\right]\) עם הזזה מודולו 1, אבל זה אותו הדבר כמעט כמו מעגל היחידה עם סיבובים), ובנינו את הקבוצות \(A_{i}^{*}\) ו-\(B_{i}^{*}\) (שם קראתי להן פשוט \(A_{i}\) כי לא ניסינו לבנות שום דבר פרדוקסלי בסגנון בנך-טרסקי) והבעיה נבעה מכך שהמידה של כל ה-\(A_{i}^{*},B_{i}^{*}\) הללו הייתה צריכה להיות שווה לזו של \(M\) המקורי, והאיחוד של כולן (מבלי שנעשה עליהן מניפולציות נוספות) היה צריך להיות מצד אחד \(\left[0,1\right]\) ולכן בעל מידה 1, ומצד שני היו אינסוף קבוצות ולכן אם המידה שלהן (של כל אחת בנפרד) הייתה גדולה מאפס, המידה של האיחוד שלהן הייתה חייבת להיות אינסופית. הפרדוקסליות מאפשרת לנו לראות זאת בדרך טיפה שונה שלא מערבת מידה אינסופית – ראינו שבאמצעות הזזות, שהמידה לכאורה אינוריאנטית להן, הצלחנו "להכפיל" את \(\left[0,1\right]\) ולכן גם את המידה שלו. זה גם הדבר המוזר שקורה בבנך-טרסקי – באמצעות פעולות שהן לכאורה משמרות מידה אנחנו מצליחים להכפיל את הנפח של כדור.

מה המסקנה? פשוט מאוד – שלקבוצה \(M\) שלנו אין מידה. גם בבנך-טרסקי (וגם בהאוסדורף), הסוד הגדול הוא שהפלחים שנבנים הם פשוט לא מדידים (להבדיל מסרפינקי-מזורקביץ' שבו הם היו מדידים, אבל פשוט ממידה אפס). זה אולי שופך קצת אור על המוזרות של בנך-טרסקי – אם הצלנו לפצל את הכדור לכמה חלקים שכל אחד בפני עצמו הוא בכלל חסר מידה מוגדרת, פלא שכשמחברים את הכל מחדש מקבלים דברים מוזרים?

בפוסט הבא אני מקווה להציג את המעבר הסופי מפרדוקס האוסדורף אל בנך-טרסקי ובכך לסיים את התופעה המוזרה הזו, שפוסט בודד על פרדוקס בודד הצליח להכפיל את עצמו לשלושה פוסטים על אותו נושא.

הפרדוקס של בנך-טרסקי (חלק א')

פרדוקס בנך-טרסקי הוא אולי הדרך הטובה ביותר להמחיש להדיוטות כמה מוזרה המתמטיקה. בפשטות, הפרדוקס אומר את הדבר הבא: ניתן לקחת כדור, לחתוך אותו ל-5 חתיכות, להזיז אותן טיפה (ולסובב, ולשקף וכאלה) ולבנות מהן שני כדורים באותו הנפח של הכדור המקורי.

רגע, מה?

ברוכים הבאים למתמטיקה, העולם שבו קורים דברים מוזרים. מן הסתם אחרי תיאור הפרדוקס צריכה לבוא הסתייגות כלשהי שבאה להסביר למה זה לא יכול לקרות "בעולם האמיתי", ולרוב נשלפת בשלב הזה החשודה המיידית – אקסיומת הבחירה הידועה לשמצה. מהי אקסיומת הבחירה? אסביר זאת בהמשך (וגם הסברתי זאת בעבר), אבל לדעתי האישית התפקיד שהיא ממלאת בכל העניין הזה הוא שולי יחסית והיא אינה הגורם המרכזי לפרדוקסליות. ה"פרדוקסליות" של הפרדוקס איננה כה מפתיעה כפי שהיא נדמית ממבט ראשון, וכפי שאמרתי – היא צצה ועולה במתמטיקה כל הזמן. מה שמוזר בבנך-טרסקי הוא לא הקונספט של "לקחת אובייקט ולשכפל אותו", אלא העובדה שאותו אובייקט הוא כדור ושהשכפול מתבצע על ידי חיתוך למספר סופי של פלחים וביצוע הזזות וסיבובים וכדומה. כלומר, השכפול נדמה "פשוט" מדי – וכמובן שיש לזה מחיר, והמחיר הוא שאותם חמישה פלחים הם די מסובכים (וכאן אקסיומת הבחירה נכנסת לעניין).

בואו נתחיל בקטן. איפה במתמטיקה אפשר למצוא שכפול דומה לבנך-טרסקי שלא יהיה לנו כה מוזר? המספרים הטבעיים, \(\mathbb{N}\), הם דוגמה יפה. הבה נפצל את \(\mathbb{N}\) לשתי קבוצות – קבוצת הזוגיים, שאסמן ב-\(\left\{ 2,4,6,\dots\right\} \), וקבוצת האי זוגיים, שאותה אסמן ב-\(\left\{ 1,3,5,\dots\right\} \). עכשיו בואו נתעלל בהן באופן הבא: כל איבר בקבוצת הזוגיים נחלק ב-2, ולכל איבר בקבוצת האי זוגיים נחבר 1 ואז נחלק ב-2. בשני המקרים נקבל את הקבוצה \(\left\{ 1,2,3,4,\dots\right\} \), שהיא פשוט \(\mathbb{N}\) עצמה. אז מה קרה פה? לקחנו את \(\mathbb{N}\), פירקנו אותה לשתי קבוצות זרות, הפעלנו על כל קבוצה מניפולציות כלשהן שלא מוסיפות איברים חדשים לקבוצה, וקיבלנו שני עותקים של \(\mathbb{N}\). בצורה ציורית אפשר לתאר את העסק כך: \(\mathbb{N}=A\uplus B\) (הסימון הזה בא לציין איחוד זר – זה אומר ש-\(\mathbb{N}\) מורכב בדיוק משתי הקבוצות \(A,B\) ושאין להן איברים משותפים), וכמו כן \(\mathbb{N}=\frac{A}{2}\) ו-\(\mathbb{N}=\frac{B-1}{2}\) (זה לא סימון סטנדרטי אבל אתם מבינים את הכוונה).

למי מכם שזה מוזר להם – ברכותי, ברוכים הבאים למתמטיקה, לכו וקראו את הפוסט על המלון של הילברט ואז באמת יהיה לכם מוזר. אבל לכל היתר, שכבר רגילים לעסק הזה, יש לי שאלה קטנה – מה ההבדל המהותי בין זה ובין בנך-טרסקי? אני מודה שהבדל מהותי אני לא רואה. בכל זאת, הבדל משמעותי אחד הוא שבנך-טרסקי הוא פרדוקס גאומטרי – הוא מתעסק ביצור גאומטרי פשוט, כדור, ובפעולות שלכאורה משמרות את הנפח של הכדור ולכן לא יכולות לגרום להכפלה שלו. אבל מה המשותף לבנך-טרסקי ולמה שהראיתי כרגע? מה בעצם ההגדרה הכללית?

ובכן, נאמר שקבוצה \(X\) היא פרדוקסלית (ביחס לסט פעולות מסויים) אם אפשר לפרק את \(X\) לחלקים – \(A_{1},A_{2},\dots,A_{n}\) ו-\(B_{1},B_{2},\dots,B_{m}\), כך שכל החלקים זרים – אין לאף חלק איברים משותפים עם איברים אחרים – ואפשר להפעיל פעולות מסויימות (מתוך הסט המדובר) על כל אחת מסדרות החלקים בנפרד, כך שה-\(A_{i}\)-ים, לאחר שביצענו עליהם את הפעולות, יתנו לנו את \(X\) המקורית, וכך גם ה-\(B_{i}\)-ים. הדרישה שכל החלקים יהיו זרים היא קריטית, כמובן, אחרת היינו בוחרים \(A=B=X\), ואז מה עשינו? אין שום דבר מפתיע בשכפול שכל מה שעושים בו הוא לספור את אותו הדבר פעמיים.

למי שהדוגמה של הטבעיים לא עשתה עליו רושם, בואו נעבור לדבר על משהו הרבה יותר מהותי שגם בו צצה פרדוקסליות דומה: חבורות. בניגוד לדוגמת הצעצוע הקודמת, הדוגמה הנוכחית היא חשובה ביותר, כי על בסיס מה שקורה בה נבנה גם פרדוקס בנך-טרסקי עצמו.

לא אחזור כאן על ההגדרה של חבורה, אלא אתאר מייד את החבורה שמעניינת אותנו – החבורה החופשית עם שני יוצרים \(a,b\). זו קבוצה שכל איבר בה הוא סדרה של תווים מבין ארבעת הבאים: \(\left\{ a,b,a^{-1},b^{-1}\right\} \). הכלל הוא ש-\(a\) ו-\(a^{-1}\) "מצמצמים" זה את זה – אם שניהם נכתבים בסמיכות הם נמחקים מהמילה. כנ"ל לגבי \(b,b^{-1}\). כלומר, \(aba^{-1}b^{-1}\) זו מילה חוקית בחבורה, אבל המילה \(abb^{-1}a\) היא בעצם דרך מסורבלת לכתוב את \(aa\). בנוסף, יש מילה בת 0 תווים – המילה הריקה – שאסמן ב-\(e\). אם יש לנו שתי מילים אפשר לשרשר אותן: למשל, השרשור של \(aa\) ושל \(bbb\) הוא \(aabbb\), והשרשור של \(ab\) ו-\(b^{-1}a\) הוא \(abb^{-1}a\), כלומר \(aa\).

יש הצגה גרפית יפה לחבורה הזו:


אפשר לחשוב על החבורה הזו כעל "פתית שלג" שמחולק לארבע ענפים עיקריים – הענף של המילים שמתחילות ב-\(a\), אלו שמתחילות ב-\(b\), אלו שמתחילות ב-\(a^{-1}\) ואלו שמתחילות ב-\(b^{-1}\). באמצע יש את האיבר הגלמוד \(e\). בואו נסמן את החבורה כולה ב-\(F\) (מלשון Free), ואת קבוצת "האיברים שמתחילים ב-\(a\)" ב-\(F\left(a\right)\) (ובדומה, \(F\left(b\right)\), \(F\left(a^{-1}\right)\) ו-\(F\left(b^{-1}\right)\)). עכשיו מגיע הקסם: מהי \(a\cdot F\left(a^{-1}\right)\), כלומר הקבוצה שמתקבלת כאשר לוקחים את \(F\left(a^{-1}\right)\) וכופלים את כל האיברים שבה מצד שמאל ב-\(a\) (דהיינו, משרשרים את \(a\) משמאל להם)? לא קשה להשתכנע שזו קבוצת כל האיברים ב-\(F\) שאינם מתחילים ב-\(a\), כי מה שקורה הוא שה-\(a\) שכפלנו בו משמאל מבטל את ה-\(a^{-1}\) שבו התחילה המילה; ואם המילה התחילה ב-\(a^{-1}\) אז האות הבאה יכולה להיות כל אות למעט \(a\) (אחרת שתי האותיות הראשונות היו מבטלות זו את זו). המסקנה היא ש-\(F=F\left(a\right)\cup aF\left(a^{-1}\right)\). באותו אופן, \(F=F\left(b\right)\cup bF\left(b^{-1}\right)\). מה קרה כאן? לקחנו את \(F\), ופירקנו אותה לחמישה חלקים: \(F=F\left(a\right)\cup F\left(b\right)\cup F\left(a^{-1}\right)\cup F\left(b^{-1}\right)\cup\left\{ e\right\} \). זו חלוקה לקבוצות זרות, כמובן. את החלק של \(\left\{ e\right\} \) הגלמוד זרקנו לפח. את היתר חילקנו לשני זוגות. עכשיו עשינו להטוט כלשהו עם כל אחד מהזוגות – לקחנו קבוצה אחת, הפעלנו עליה מניפולציה כלשהי (כפל ב-\(a\) או כפל ב-\(b\)), איחדנו עם הקבוצה השניה וקיבלנו מחדש את \(F\) המקורית.

למה בעצם זה כל כך חשוב? ובכן, חבורות הן לא סתם אובייקטים שלא קשורים לכלום. לעתים קרובות מאוד, ובפרט בדיון הנוכחי, חבורות צצות כאובייקט שפועל על אובייקטים מתמטיים אחרים. אנחנו מזהים אוסף של פעולות שמבצעים על אובייקט, ואז שמים לב לכך שלאותו אוסף יש מבנה של חבורה – אפשר "להכפיל" שני איברים ממנו בצורה בעלת משמעות (לרוב על ידי הרכבה של הפעולות – הפעלה של אחת מהן ולאחר מכן השניה). הרעיון המרכזי הוא שאם יש לנו חבורה שהיא עצמה פרדוקסלית ופועלת על אובייקט מסויים, אז ייתכן שניתן יהיה "להרים" את הפרדוקסליות של החבורה אל פרדוקסליות של האובייקט שעליו היא פועלת (אך צריך להניח עוד דבר או שניים – ארחיב על כך בהמשך).

במקרה של בנך טרסקי, החבורה הרלוונטית היא חבורת האיזומטריות של המרחב. איזומטריה היא העתקה ששומרת על מרחקים; איזומטריה שמופעלת על קבוצה משמרת את "המבנה הפנימי" של הקבוצה. איזומטריה היא בדיוק מה שדיברתי עליו קודם כשדיברתי על "הזזות, סיבובים, שיקופים". כדי להבהיר איך העסק רלוונטי אלינו אתחיל בתיאור של פרדוקס דומה לבנך-טרסקי: פרדוקס סירפינקי-מזורקביץ'. ההבדלים העיקריים בינו ובין בנך-טרסקי: הוא מתרחש במישור, לא במרחב; הוא לא מתבסס על החבורה החופשית עם שני יוצרים אלא על משהו פשוט טיפה יותר; הקבוצה שבה הוא מתעלל היא לא יפה כמו כדור; והוא לא דורש את אקסיומת הבחירה. למעשה, הפירוק הפרדוקסלי שהוא מציג הוא קונסטרוקטיבי למדי. בנוסף, הפרדוקס הזה קודם היסטורית לבנך-טרסקי.

הפרדוקס מתעסק בקבוצה במישור, \(\mathbb{R}^{2}\), ולכן החבורה שמעורבת בסיפור, שאסמן ב-\(G\), היא חבורת האיזומטריות של המישור. עוד מעט אראה איך אפשר למצוא שני איברים \(\tau,\rho\in G\) שמקיימים את התכונה הבאה: קיים \(x\in\mathbb{R}^{2}\) (למעשה, הוא יהיה \(\left(0,0\right)\)) כך שכל שתי מילים ב-\(\tau,\rho\) (כלומר, מילים שמכילות רק את שני הסימנים הללו; לא את \(\tau^{-1}\) ו-\(\rho^{-1}\)) שהאחת מתחילה ב-\(\tau\) והשניה מתחילה ב-\(\rho\) מעבירות את \(x\) לאיברים שונים כשהן מופעלות עליו. במילים אחרות, אם יש סדרת פעולות של \(\tau\) ו-\(\rho\) שמפעילים על \(x\), אז סדרה שמסתיימת ב-\(\tau\) תניב פעולה שונה בהכרח מסדרה שמסתיימת ב-\(\rho\) (כשמפעילים מילה כלשהי על \(x\), קודם כל פועל על \(x\) מה שנמצא בסוף המילה; אלו עניינים טכניים-הגדרתיים לא קריטיים).

אם נמצא שני איברים שכאלו, כמעט מייד אפשר למצוא תת-קבוצה פרדוקסלית של \(\mathbb{R}^{2}\). בואו נסמן ב-\(E\) את אוסף כל האיברים ב-\(\mathbb{R}^{2}\) שמגיעים אליהם באמצעות כפל במילה שמורכבת מ-\(\tau\) ו-\(\rho\). עכשיו, ממה שאמרתי קודם נובע שלכל שתי מילים שכאלו \(w_{1},w_{2}\), מתקיים ש-\(\tau w_{1}\left(x\right)\ne\rho w_{2}\left(x\right)\). מכאן שהקבוצות \(\tau\left(E\right)\) ו-\(\rho\left(E\right)\) הן זרות. למה? ובכן, איך נראה איבר בקבוצה \(\tau\left(E\right)\)? הוא נראה כמו הפעלה של \(\tau\) על איבר מ-\(E\). ואיך נראה איבר ב-\(E\)? הוא נראה כמו הפעלה של מילה \(w\) כלשהי על \(x\), כלומר מה שסימנו ב-\(w\left(x\right)\). מכאן שהאיבר נראה בסך הכל כמו \(\tau\left(w\left(x\right)\right)\), אבל פעולת הכפל בחבורה שלנו היא בדיוק הרכבת האיזומטריות, כלומר \(\tau\left(w\left(x\right)\right)=\tau w\left(x\right)\).

אם כן, פירקנו את \(E\) לשתי קבוצות זרות, \(\rho\left(E\right)\) ו-\(\tau\left(E\right)\) (\(x\) המסכן נותר בחוץ). עכשיו כל מה שנותר לשים לב אליו הוא ש-\(\tau^{-1}\left(\tau\left(E\right)\right)=E\) וגם \(\rho^{-1}\left(\rho\left(E\right)\right)=E\). כלומר, אפשר לקחת את \(E\), לפרק אותו לשתי תת-קבוצות זרות, להפעיל על כל אחת מהן איזומטריה ולקבל את \(E\) המקורית. אז למה על בנך-טרסקי כולם מדברים ועל הפרדוקס הזה לא?

ובכן, \(E\) היא קבוצה "לא מעניינת" – לא ברור איך היא נראית והיא בוודאי לא משהו פשוט כמו כדור והיא מכילה רק מספר בן מניה של נקודות. התחמנות שלנו בפרדוקס הזה יותר מדי גלויה לעין, ו-\(E\) היא יותר מדי מלאכותית מכדי שיהיה לפרדוקס עוקץ של ממש במקרה הזה. אם לתת נימוק קצת יותר מתמטי, המידה של \(E\) היא אפס (מה זו מידה אפס? דיברתי על זה קצת כאן) כי היא בת מניה; אז זה שהצלחנו לשכפל את \(E\) לא נראה בעייתי כי בסך הכל הראינו ש-\(2\cdot0=0\). אם נעשה את אותו הדבר לקבוצה בעלת מידה גדולה מאפס, אז זה יתחיל להיות מוזר. אלא שלרוע המזל זה בלתי אפשרי במישור – ניתן להוכיח שכל קבוצה ב-\(\mathbb{R}^{2}\) בעלת פנים לא ריק (כלומר, שקיימת נקודה בקבוצה ש"מוכלת עמוק בתוכה" – יש לה סביבה שכולה בתוך הקבוצה) אינה יכולה להיות פרדוקסלית.

טוב, בואו נחזור אל הוכחת הפרדוקס. מה שנשאר לי לעשות הוא לתאר שתי איזומטריות של המישור \(\tau,\rho\) כך ש-\(\tau w_{1}\left(0\right)\ne\rho w_{2}\left(0\right)\) לכל \(w_{1},w_{2}\). כאן צריך לגלוש, מה לעשות, לגאומטריה ולדברים טכניים, ולכן שמרתי את זה לסוף. עם זאת, אל תוותרו כל כך מהר! ההוכחה גם נחמדה, גם מכילה רעיונות מעניינים, והיא גם קונסטרוקטיבית לגמרי.

דרך מאוד נוחה מבחינה טכנית לדבר על \(\mathbb{R}^{2}\) וטרנספורמציות עליו היא באמצעות המספרים המרוכבים, \(\mathbb{C}\). המספר המרוכב \(a+bi\) מתאים לקוארדינטה \(\left(a,b\right)\), והיתרון שבדיבור על מרוכבים הוא שקל לתאר איזומטריות באמצעות פעולות אריתמטיות במרוכבים. בואו נבחר מספר מרוכב \(u\) שנמצא על מעגל היחידה, ולכן התיאור שלו בהצגה הקוטבית של המרוכבים הוא \(u=e^{i\theta}\) עבור זווית \(\theta\) לבחירתנו. נבחר את \(\theta\) כך ש-\(u\) יהיה מספר טרנסנדנטלי, כלומר לא יהיה אף פולינום במקדמים רציונליים שמאפס אותו (אפשר להראות שקיים כזה משיקולי ספירה; יש מספר לא בר מניה של \(\theta\)-ות שאפשר לבחור אבל רק מספר בן מניה של מספרים אלגבריים). עכשיו בואו נגדיר \(\tau\left(z\right)=z+1\) – זוהי איזומטריה של הזזה – ו-\(\rho\left(z\right)=uz\) – זוהי איזומטריה של סיבוב.

בואו ניקח שתי מילים \(w_{1},w_{2}\) כך ש-\(w_{1}\) מתחילה ב-\(\tau\) ו-\(w_{2}\) מתחילה ב-\(\rho\). את \(w_{1}\) אפשר לכתוב באופן המבהיל הבא: \(w_{1}=\tau^{a_{1}}\rho^{a_{2}}\tau^{a_{3}}\rho^{a_{4}}\dots\tau^{a_{t}}\) – זוהי פשוט מילה ב-\(\tau,\rho\) וה-\(a_{1},a_{2},\dots\) מציינים כמה \(\tau\)-ים רצופים יש בהתחלה, ואז כמה \(\rho\) רצופים יש עד ה-\(\tau\) הבא וכן הלאה. שימו לב שאני מניח כאן באופן מובלע שהמילה גם נגמרת ב-\(\tau\). זאת מכיוון שסוף המילה הוא גם הפעולה הראשונה שמופעלת כשמפעילים את המילה על איבר כלשהו, והאיבר שעליו אנחנו הולכים לפעול כאן הוא \(0\), ו-\(\rho\left(0\right)=0\) ולכן מופעים של \(\rho\) בסוף המילה יהיו מיותרים.

אז איך נראה \(w_{1}\left(0\right)\)? ובכן, תעשו את החשבון… תקבלו ש-\(w_{1}\left(0\right)=a_{1}+a_{3}u^{a_{2}}+a_{5}u^{a_{2}+a_{4}}+\dots+a_{t}u^{a_{2}+a_{4}+\dots+a_{t-1}}\). לא יפה, אבל לא נורא (מי שבאמת בוער לו להוכיח את זה – קדימה, באינדוקציה).

מה שמעניין ביצור הזה הוא שבסופו של דבר, הוא פולינום ב-\(u\). באותו אופן מראים גם ש-\(w_{2}\left(0\right)\) הוא פולינום ב-\(u\), אבל כזה שהמקדם החופשי שלו הוא אפס, כי הפעולה האחרונה ש-\(w_{2}\) מבצע היא \(\rho\), שמתוארת על ידי כפל ב-\(u\). זה מבדיל את הפולינום הזה מ-\(w_{1}\left(0\right)\) שהמקדם החופשי שלו הוא בהכרח לא אפס (כי \(a_{1}\ne0\); אחרת \(w_{1}\) הייתה מתחילה ב-\(\rho\)). לכן \(w_{1}\left(0\right)-w_{2}\left(0\right)\) הוא פולינום במקדמים שלמים ב-\(u\) שאינו פולינום האפס, ולכן הוא אינו יכול להיות שווה אפס, כי בחרנו את \(u\) להיות טרנסנדנטי. לכן \(w_{1}\left(0\right)\ne w_{2}\left(0\right)\), כפי שרצינו.

איפה אקסיומת הבחירה פה? בשום מקום. האיזומטריות \(\tau,\rho\) הוצגו באופן מפורש, ולכן גם \(E\) נתונה באופן מפורש: היא אוסף הפולינומים ב-\(u\) עם מקדמים טבעיים (למה לא שליליים? נסו להבהיר זאת לעצמכם), והחלוקה של \(E\) גם היא מפורשת – מפרידים לפולינומים עם מקדם חופשי 0, ועם מקדם חופשי שונה מאפס. בנימה האופטימית הזו סיימנו עם סירפינקי-מזורקביץ'. בפוסט הבא אציג פרדוקס אחר, פרדוקס האוסדורף, או בשמו היותר מדויק – פרדוקס כמעט-בנך-טרסקי. הרעיונות המרכזיים של בנך-טרסקי נמצאים כבר בו ומה שהולך שם מעניין לטעמי יותר מהתיקון שיידרש אחר כך כדי להפוך את האוסדורף לבנך-טרסקי של ממש.