מהו גבול? (של סדרה)

בשעה טובה הגענו לשלב בסדרת הפוסטים על חדו"א שבו אפשר להתחיל לדבר על מושג הגבול – מושג שלא מתואר באופן מדויק בתיכון, ואני רוצה כן לתאר אותו כאן באופן מדויק עד הסוף. מכיוון שזהו מושג קשה יחסית לעיכול, אתחיל מתיאור מקרה פרטי (חשוב מאוד לכשעצמו) – גבול של סדרה. אם כן, נתחיל מלדבר על מהי סדרה בכלל. בהקשר שלנו, סדרה היא אוסף סדור של מספרים – אפשר לדבר על "המספר הראשון בסדרה", "המספר השני בסדרה" וכן הלאה. למשל, \(a_{1},a_{2},a_{3},\dots\) היא סדרה שהאיבר הראשון שלה הוא המספר \(a_{1}\), האיבר השני הוא המספר \(a_{2}\) וכן הלאה. משתמשים ב-\(a_{n}\) כדי לסמן את "האיבר הכללי" של הסדרה – לרוב נותנים תיאור של \(a_{n}\) כפונקציה כלשהי של המספר הטבעי \(n\) (למעשה, אפשר לחשוב על סדרות באופן כללי בתור פונקציות שהתחום שלהן הוא הטבעיים). שימו לב שיש לסדרה אינסוף איברים – לכל מספר טבעי (ויש אינסוף כאלו) יש איבר בסדרה. החדו"א מטבעה עוסקת ביצורים אינסופיים כאלו – עבור סדרות סופיות אין משמעות למושג הגבול.

סדרה פשוטה אחת היא \(a_{n}=n\), כלומר הסדרה \(1,2,3,\dots\) של כל הטבעיים. סדרה פשוטה אחרת היא \(1,0,1,0,\dots\), כלומר הסדרה ש"מזפזפת" בין 0 ו-1. אפשר לתאר אותה באמצעות נוסחה עם \(a_{n}=\frac{1+\left(-1\right)^{n+1}}{2}\) – נכון שהתיאור של \(1,0,1,0,\dots\) פשוט יותר? וסדרה שלישית היא \(1,\frac{1}{2},\frac{1}{3},\dots\) שניתן לתאר על ידי \(a_{n}=\frac{1}{n}\). מושג הגבול של סדרה בא לתאר את ההתנהגות "לטווח ארוך" של הסדרות הללו. בואו נגיד זאת במפורש: גבול של סדרה הוא מספר שאברי הסדרה מתקרבים אליו עוד ועוד, עד אין קץ. ההגדרה המילולית הזו מיועדת לתת אינטואיציה ותו לא; כהגדרה פורמלית היא מלאה חורים וחסרת טעם. מה זה "מתקרבים"? מה זה "עוד ועוד"? מה פשר "עד אין קץ"? למה בכלל קיים מספר כזה? האם יכולים להיות כמה מספרים כאלו? אלו שאלות מצויינות שהגדרה פורמלית ומדוייקת של הגבול אמורה לאפשר לנו לענות עליהן.

בואו נתמקד לעת עתה בסדרה \(a_{n}=\frac{1}{n}\). אנחנו רואים שככל ש-\(n\) גדול יותר, כך \(a_{n}\) קטן יותר. מצד שני, כל אברי הסדרה חיוביים – גדולים ממש מ-0. אם כן, יש לנו סדרה שאבריה הולכים וקטנים עוד ועוד, אבל כולם חיוביים. התחושה האינטואיטיבית שלנו היא שאיברי הסדרה הזו "הולכים לאפס", או, אם להשתמש במילה יותר גסה, "שואפים לאפס". מצד שני, איך אפשר לבטא תכונה כזו בצורה פורמלית? והאם האינטואיציה הזו בכלל נכונה? הרי הסדרה לא מגיעה לאפס. אף פעם! אף איבר בסדרה הוא לא אפס. אם כן, מאחר ואפס לא מופיע בכלל בסדרה, האם נכון לטעון בכל זאת שגבול הסדרה הוא אפס?

לעומת זאת, בסדרה \(1,0,1,0,\dots\) אנחנו מקבלים את הרושם שהסדרה לא "מתקרבת" לשום מקום. היא לפעמים קרובה ל-1 ולפעמים קרובה ל-0, אבל היא כל הזמן מזפזפת בין שני הערכים הללו וקשה להגיד שהיא קרובה לאחד מהם באופן מיוחד. אינטואיטיבית אולי נרצה לומר שיש לסדרה שני גבולות. אמנם, אמירה זו אינה חסרת טעם ובחדו"א אכן מתייחסים אליה באופן מסויים, אבל לא נכון לקרוא ל-1 "גבול" במקרה הזה, פשוט כי מחצית מאברי הסדרה לא מגלים שום נטייה מיוחדת להתקרב אליו יותר מאשר הם מגלים נטייה להתקרב אל \(-1\), למשל. באותו אופן גם 0 לא ראוי לכינוי "גבול" ואכן, כשאציג את ההגדרה הפורמלית נראה שזוהי דוגמה לסדרה שאין לה גבול.

ומה עם הסדרה \(1,2,3,\dots\)? גם במקרה שלה, לא נראה שהיא מתקרבת למספר מסויים. אם ננסה לטעון שהיא מתקרבת, למשל, ל-137, הרי שנשים לב שמהאיבר ה-137 והלאה בסדרה, כל האיברים גדולים מ-137, והם ממשיכים לגדול עוד ועוד – הסדרה מתרחקת מ-137. לכן לא סביר ש-137 הוא גבול של הסדרה; ומכיוון ש-137 היה שרירותי לגמרי, אין לסדרה גבול. מצד שני, במובן מסויים אפשר לומר שהסדרה שואפת לאינסוף – אמירה שבאה לציין את ההתנהגות של "גדלים עוד ועוד מעבר לכל מספר ממשי".

מה שצריך להיות ברור בשלב הזה הוא שאנחנו רוצים לדבר בצורה פורמלית כלשהי על המושג של מרחק כדי שאפשר יהיה לדבר על גבולות. עבור מספרים ממשיים ההגדרה אינה מסובכת. מהו, למשל, המרחק שבין 1 ו-3? אינטואיטיבית אנחנו אומרים 2, ואפשר לתת לזה משמעות קצת יותר פורמלית – זהו אורך הקטע שמחבר את הנקודה 1 עם הנקודה 3 על גבי ציר המספרים. הדרך לתאר את זה באופן פורמלי היא זו: אם \(a,b\) הם שני מספרים ממשיים, אז המרחק ביניהם הוא \(\left|a-b\right|\), כלומר הערך המוחלט של ההפרש שלהם. הערך המוחלט בא להבטיח שהמרחק יהיה תמיד מספר חיובי (כי אורך של קטע הוא תמיד חיובי) ושנוכל לדבר על המרחק בין \(a\) ו-\(b\) בלי לטרוח לחשוב מי הגדול מבין שניהם.

שימו לב לשלוש תכונות שהמרחק מקיים: הראשונה היא שאם \(a=b\) אז המרחק ביניהם הוא \(0\), מה שהגיוני כמובן – המרחק שלי מעצמי הוא תמיד אפס. מצד שני, אם \(a\ne b\) המרחק ביניהם תמיד יהיה גדול מאפס. בנוסף, המרחק הוא סימטרי; המרחק מ-\(a\) אל \(b\) הוא כמו המרחק מ-\(b\) אל \(a\) (פורמלית: \(\left|a-b\right|=\left|b-a\right|\)). לבסוף, ואת זה לא קל לראות או להוכיח, מושג המרחק שלנו מקיים את מה שנקרא "אי שוויון המשולש", שמשמעותו הפורמלית היא שאורך הקו הישר מ-\(a\) אל \(b\) תמיד קצר יותר מאורך המסלול שבו קודם כל עוברים מ-\(a\) לאיזו נקודה אחרת \(c\), ואז הולכים מ-\(c\) אל \(b\). פורמלית, \(\left|a-b\right|\le\left|a-c\right|+\left|c-b\right|\).

שלוש התכונות הללו מאפיינות בצורה חזקה למדי את הרעיון האינטואיטיבי של "מרחק" – בצורה כל כך חזקה, שאפשר להגדיר מרחקים גם על קבוצות שאינן של מספרים ממשיים דווקא באמצעות פונקציות שרירותיות, שכל מה שדורשים מהן הוא שיקיימו את שלוש התכונות הנ"ל. פונקציות כאלו נקראות מטריקות, ואני לא הולך לפרט עליהן כאן, כי מדובר בחומר מתקדם מדי עבור תיכון; אני רק רוצה לציין את עובדת קיומן , וכפועל יוצא מכך את העובדה שאת כל מה שאני הולך להציג כעת אפשר להכליל בצורה פרועה ביותר וזה בדיוק גם מה שעושים. במילים אחרות, החדו"א של מספרים ממשיים הוא רק תחילתו של קצה הקרחון.

עכשיו משאנחנו מצויידים בהגדרת המרחק, אפשר לגשת להגדרת הגבול עצמה. לפני כן, למען בניית המתח, אני רוצה להגיד מילה או שתיים על למה לדעתי ההגדרה הזו כל כך קשה לעיכול במבט ראשון עבור מי שאינו מנוסה במתמטיקה. הסיבה היא, לדעתי, רמת הכימות של ההגדרה. "כימות" כאן הוא שימוש בכמתים לוגיים – באמירות "לכל" ו"קיים". לדוגמה, ההגדרה של מספר מושלם היא "מספר ששווה לסכום מחלקיו הקטנים ממנו". כאן אין כימות בכלל. ההגדרה של מספר פריק הוא "מספר שקיים לו מחלק הקטן ממנו וגדול מ-1". את השערת גולדבך ניתן לנסח בתור "לכל מספר זוגי גדול מ-4, קיים פירוק שלו לסכום שני מספרים ראשוניים". כאן כבר יש שני כמתים שבאים האחד אחרי השני. ומכיוון שאחד הוא "לכל" והשני הוא "קיים", לא ניתן לאחד אותם (כלומר, להפוך טענה בסגנון "לכל \(x\) ולכל \(y\) מתקיים בלה בלה" ל"לכל זוג \(x,y\) מתקיים בלה בלה"). ההתעסקות בכמות הכמתים נראית מטופשת לגמרי במבט ראשון, אך יש בה הגיון רב; בלוגיקה ובמדעי המחשב ניתן להשתמש ברמת כימות כדי לסווג "קושי" או "כוח" של דברים מסויימים, אך לא ארחיב על כך כעת. הפאנץ' הוא שהגדרת הגבול כוללת שלושה כמתים (שכל אחד מהם אומר משהו לא פשוט) ולכן היא אולי מהווה קפיצה ברמת הקושי-לעיכול-בסיסי מאשר דברים כמו השערת גולדבך.

הנה הגדרה שמחביאה בתוכה את מרבית הכמתים אבל שומרת על המשמעות האינטואיטיבית: \(L\) הוא גבול הסדרה \(a_{n}\) (ומסמנים זאת \(\lim_{n\to\infty}a_{n}=L\) או בקיצור \(a_{n}\to L\)) אם כמעט כל אברי \(a_{n}\) קרובים ככל שנרצה ל-\(L\).

נתחיל בלהבין למה הכוונה ב"קרובים ככל שנרצה". כבר ראינו עם הסדרה \(a_{n}=\frac{1}{n}\) שהסדרה לא בהכרח חייבת "לגעת" בגבול שלה. אם כן, אנחנו לא יכולים לדרוש שאברי הסדרה יהיו במרחק 0 מהגבול. אנחנו כן דורשים שלכל מרחק גדול מאפס, כמעט כל אברי הסדרה לא יהיו מרוחקים יותר מהגבול מאשר המרחק הזה. כלומר – כמעט כל איברי הסדרה נמצאים במרחק \(1\) מהגבול; כמעט כולם נמצאים במרחק \(\frac{1}{2}\); כמעט כולם נמצאים במרחק \(\frac{1}{5432}\) וכן הלאה וכן הלאה. פורמלית כותבים זאת בתור "לכל \(\varepsilon>0\), כמעט כל איברי הסדרה \(a_{n}\) מקיימים \(\left|a_{n}-L\right|<\varepsilon\)"(האות היוונית נקראת אפסילון).

טוב ויפה, אז הבנו מה זה "קרוב ככל שנרצה". אבל מה זה "כמעט כל"? הכוונה היא – כל אברי הסדרה, חוץ אולי ממספר סופי שלהם. בפועל זה אומר שהחל ממקום מסויים בסדרה, כל האיברים מקיימים את מה שאנחנו רוצים. הנקודה החשובה, המרכזית, המהותית פה היא שהמקום המסויים הזה תלוי ב-\(\varepsilon\)! כלומר, ייתכן שהחל ממקום 3 בסדרה כל האיברים בה קרובים ל-\(L\) עד כדי \(\frac{1}{2}\), אבל רק ממקום 3,000,000 בסדרה כל האיברים קרובים ל-\(L\) עד כדי \(\frac{1}{4}\). זה מוביל אותנו לתיאור המדויק הבא: עבור \(\varepsilon>0\) נתון, אומרים שכמעט כל אברי הסדרה קרובים ל-\(L\) עד כדי \(\varepsilon\) אם קיים \(N\) טבעי כך שלכל \(n>N\) מתקיים \(\left|a_{n}-L\right|<\varepsilon\). לעתים נהוג לכתוב \(N_{\varepsilon}\) כדי להדגיש את התלות של \(N\) ב-\(\varepsilon\).

בואו נחבר את החלקים ונצטט במפורש פעם אחת ולתמיד את הגדרת הגבול הפורמלית. הסדרה \(a_{n}\) שואפת לגבול \(L\) אם לכל \(\varepsilon>0\) קיים \(N_{\varepsilon}\) טבעי כך שלכל \(n>N_{\varepsilon}\) מתקיים \(\left|a_{n}-L\right|<\varepsilon\). זו ההגדרה כולה. זו הגדרה קצרה למדי; הקושי, כאמור, טמון כנראה בשלושת הכמתים.

פרט לקושי של הבנת ההגדרה, יש גם את הקושי של עבודה איתה. אז יופי, הבנו איך מגדירים גבול, אבל איך מוכיחים ככה דברים בתכל'ס? התשובה היא שלעתים זה לא פשוט, ושיש כאן טכניקה שצריך להשתלט עליה. בואו נטפל בסדרה הפשוטה \(a_{n}=\frac{1}{n}\) ונראה איך על פי הגדרת הגבול מתקיים \(a_{n}\to0\). הוכחות על פי הגדרה הן מעין "משחק" שאני משחק עם יריב ערמומי כלשהו. היריב נותן לי "אתגר" בדמות \(\varepsilon>0\), אני משיב לאתגר הזה במענה משלי, \(N_{\varepsilon}\), שמבוסס על האתגר שקיבלתי; וכעת מטרת היריב שלי היא לתת \(n>N\) ש"מקלקל", כלומר שעבורו מתקיים \(\left|a_{n}-L\right|\ge\varepsilon\). אם הוא מצא כזה, הפסדתי; ואחרת ניצחתי. המטרה שלי היא להראות שאני תמיד יכול לנצח במשחק הזה.

אם כן, יהא \(\varepsilon>0\) כלשהו. אנו רוצים למצוא \(N\) כך שלכל \(n>N\) מתקיים \(\left|a_{n}-0\right|<\varepsilon\), ובמילים אחרות, שמתקיים \(\left|\frac{1}{n}\right|<\varepsilon\), ובמילים אחרות, שמתקיים \(n>\frac{1}{\varepsilon}\). אם כן, נבחר \(N=\left\lceil \frac{1}{\varepsilon}\right\rceil \) – הסימון הזה מתאר את הערך השלם העליון של \(\frac{1}{\varepsilon}\) – המספר השלם הקטן ביותר שגדול מ-\(\frac{1}{\varepsilon}\). זה בבירור מספר טבעי כי \(\varepsilon\) חיובי. כעת אם \(n>N\) אז בפרט \(n>\frac{1}{\varepsilon}\) ולכן נקבל \(\left|a_{n}-0\right|<\varepsilon\) כנדרש. זה הסגנון של כל הוכחות הגבולות בחדו"א; רק שכאן היה טריוויאלי למצוא את \(N\) הדרוש ולהראות שהוא מקיים את התכונה המבוקשת, ואילו בדרך כלל זה קשה בהרבה.

בואו נדגים עכשיו שימוש תיאורטי יותר של ההגדרה – נוכיח שלא ייתכן שלסדרה יהיה יותר מגבול אחד. האינטואיציה לא קשה – אם יש לסדרה שני גבולות, בואו נעשה "זום" על שניהם, ונתבע שאברי הסדרה יהיו קרובים אליהם עד כדי \(\varepsilon\) זעום ביחס למרחק שבין שני הגבולות. התוצאה תהיה שכמעט כל אברי הסדרה יהיו חייבים להיות גם קרובים מאוד לגבול הראשון וגם קרובים מאוד לגבול השני למרות ששני הגבולות הללו מרוחקים, וזו תהיה סתירה.

פורמלית ההוכחה הולכת כך: אם \(a_{n}\to L_{1}\) וגם \(a_{n}\to L_{2}\), נגדיר \(\varepsilon=\left|\frac{L_{1}-L_{2}}{2}\right|\). על פי הגדרת הגבול קיימים קבועים \(N_{1},N_{2}\) כך שאם \(n>N_{1}\) אז \(\left|a_{n}-L_{1}\right|<\varepsilon\), ובאופן דומה עבור \(N_{2}\). נגדיר \(N=\max\left\{ N_{1},N_{2}\right\} \), וכעת אם \(n>N\) מובטח שמתקיים גם \(\left|a_{n}-L_{1}\right|<\varepsilon\) וגם \(\left|a_{n}-L_{2}\right|<\varepsilon\). כלומר, הנקודה \(a_{n}\) קרובה מאוד הן ל-\(L_{1}\) והן ל-\(L_{2}\), ומזה אני יכול להסיק את המסקנה ש-\(L_{1},L_{2}\) לא יכולים להיות מרוחקים מדי! זהו בדיוק שימוש של אי שוויון המשולש שהזכרתי לעיל: \(\left|L_{1}-L_{2}\right|\le\left|a_{n}-L_{1}\right|+\left|a_{n}-L_{2}\right|<\varepsilon+\varepsilon=\left|L_{1}-L_{2}\right|\). מכאן קיבלתי סתירה: \(\left|L_{1}-L_{2}\right|<\left|L_{1}-L_{2}\right|\), והרי מספר לא יכול להיות קטן מעצמו.

שימו לב שהמשפט הזה מוכיח שלסדרה \(1,0,1,0,\dots\) אין גבול, אם אתם מוכנים להיות קצת פיזיקאים ולהגיד ששיקולי סימטריה מראים שאם 0 היה גבול של הסדרה, גם 1 היה גבול שלה (הוכחה על פי הגדרה שאין לסדרה הזו גבול היא פשוטה ביותר גם היא אבל אלגנטית פחות).

בואו נעבור עכשיו למשהו שמשלב את התיאורטי עם המעשי – נניח ש-\(a_{n},b_{n}\) הן שתי סדרות, וש-\(a_{n}\to A\) ו-\(b_{n}\to B\). בואו נגדיר עכשיו סדרה חדשה על ידי חיבור "איבר איבר" שלהן: \(c_{n}=a_{n}+b_{n}\). טבעי לחשוב שיתקיים \(c_{n}\to A+B\) וזה גם נכון. ההוכחה? ניקח \(\varepsilon>0\). אז יש \(N_{1},N_{2}\) כך שאם \(n>N_{1}\) אז \(\left|a_{n}-A\right|<\frac{\varepsilon}{2}\), ואם \(n>N_{2}\) אז \(\left|b_{n}-B\right|<\frac{\varepsilon}{2}\). ניקח כעת \(N=\max\left\{ N_{1},N_{2}\right\} \) (האם אתם מזהים תבנית בהוכחות שלי?) ולכל \(n>N\) יתקיים \(\left|a_{n}+b_{n}-\left(A+B\right)\right|\le\left|a_{n}-A\right|+\left|b_{n}-B\right|<\left|a_{n}-A\right|<\frac{\varepsilon}{2}+\left|a_{n}-A\right|<\frac{\varepsilon}{2}=\left|a_{n}-A\right|<\varepsilon\).

כמו שאפשר לנחשב, באופן דומה (מסובך קצת יותר) מוכיחים ש-\(a_{n}b_{n}\to AB\), ש-\(a_{n}-b_{n}\to A-B\) וש-\(\frac{a_{n}}{b_{n}}\to\frac{A}{B}\), כשהאחרון נכון רק אם \(B\ne0\). התכונות הללו מכונות אריתמטיקה של גבולות, והן מאוד יעילות ככלי לחישוב גבולות; במקום שיהיה צורך לחשב גבול של סדרה מסובכת, אפשר לחשוב עליה כבנויה מסדרות פשוטות יותר ולטפל בכל אחת בנפרד. למשל, הסדרה \(a_{n}=\frac{2n+2}{n+2}\) אולי נראית בעייתית ממבט ראשון, אבל אפשר לנקוט עבורה בתעלול הבא: ראשית, \(2n+2=2\left(n+1\right)\) ולכן די אם נמצא את הגבול של \(\frac{n+1}{n+2}\) ונכפול את התוצאה ב-2 (כי אפשר לחשוב על \(\frac{2n+2}{n+2}\) כאילו הוא \(\frac{n+1}{n+2}\) כפול הסדרה הקבועה \(b_{n}=2\), שגבולה הוא כמובן 2). נשים לב ש-\(\frac{1}{n+2}\to0\) (ההוכחה דומה להוכחה עבור \(\frac{1}{n}\to0\)) ולכן \(\lim\frac{n+1}{n+2}=\lim\frac{n}{n+2}+0\). לסיום ניתן לכפול מונה ומכנה ב-\(\frac{1}{n}\) ולקבל את הסדרה \(\frac{1}{1+\frac{2}{n}}\). מכיוון ש-\(\frac{2}{n}\to0\) נקבל ש-\(\frac{1}{1+\frac{2}{n}}\to\frac{1}{1+0}=1\), ולכן קיבלנו סך הכל ש-\(\frac{2n+2}{n+2}\to2\).

אם כן, סיימנו לדבר על גבול של סדרות. עם זאת, אני לא יכול להתאפק ורגע לפני שאעבור לדבר על פונקציות אני רוצה להכניס עוד מושג לתמונה – טורים אינסופיים. טור אינסופי הוא פשוט סדרה אינסופית של מחוברים, למשל \(\frac{1}{2}+\frac{1}{4}+\frac{1}{8}+\dots\). אנחנו רוצים לתת משמעות לסכום של אינסוף איברים שכאלו, ומושג הגבול של סדרה נותן לנו משמעות שכזו במתנה. אם יש לנו טור מהצורה \(a_{1}+a_{2}+a_{3}+\dots\) אז מגדירים סכום חלקי בתור \(S_{n}=a_{1}+\dots+a_{n}\) – הסכום החלקי ה-\(n\)-י הוא הסכום (הסופי) של \(n\) האיברים הראשונים בטור. כעת נתבונן בסדרת הסכומים החלקיים \(S_{n}\); אם יש לה גבול, אז מגדירים את סכום הטור \(a_{1}+a_{2}+a_{3}+\dots\) בתור גבול זה. כך למשל לא קשה מדי להראות ש-\(\frac{1}{2}+\frac{1}{4}+\frac{1}{8}+\dots=1\) על פי הגדרה זו. אולי תשאלו איך זה קשור לפוסט במתמטיקה תיכונית; ובכן, בתיכון לומדים על יצור שנקרא סדרה הנדסית – סדרה שכל איבר בה גדול פי \(q\) מקודמו, עבור \(q\) קבוע כלשהו. כלומר, אבריה הם מהצורה \(a_{1},qa_{1},q^{2}a_{1},\dots\) וכן הלאה. אפשר להראות (בצורה פשוטה למדי, אבל לא אעשה זאת כעת) כי סכום \(n\) האיברים הראשונים בסדרה שכזו הוא \(a_{1}\cdot\frac{q^{n-1}-1}{q-1}\). כעת, לא הוכחתי זאת אבל אם \(q\) הוא מספר קטן קטן מ-1 בערכו המוחלט, כלומר \(\left|q\right|<1\), אז מתקיים \(q^{n}\to0\) (שימו לב: כאן \(q\) הוא קבוע ואילו \(n\) מופיע בכלל בחזקה). שימוש בנוסחה זו מראה לנו ש-\(a_{1}\cdot\frac{q^{n-1}-1}{q-1}\to\frac{a_{1}}{1-q}\) וערך זה, \(\frac{a_{1}}{1-q}\), נלמד בתיכון בתור "הסכום של סדרה הנדסית אינסופית", לרוב ללא הוכחה או הסבר. ובכן, כעת יש לכם הסבר; הוכחה מדויקת (כלומר, הוכחה ש-\(q^{n}\to0\)) תחכה לפעם אחרת.

מהן פונקציות? (גרסה מכוונת-חדו"א)

הפוסט הזה הוא חלק מסדרת הפוסטים שמטרתה להציג חדו"א באופן פשוט, ומכיוון שהחדו"א עוסק בפונקציות הכרחי להציג כאן פונקציות – אבל ההצגה הזו רלוונטית לעוד דברים פרט לחדו"א, מהסיבה הפשוטה שפונקציה היא אחד מהמושגים המרכזיים ביותר במתמטיקה כולה, אם לא המושג המרכזי ביותר. בפרט, מי שחשב שמספרים הם המושג המרכזי – ובכן, לא, מצטער, טעיתם; פונקציות הן מושג מרכזי יותר.

פונקציה היא דרך לתאר קשר מסויים בין אובייקטים מסוג א' לאובייקטים מסוג ב', אבל לא סתם קשר כללי (המושג הכללי לתיאור קשרים שכאלו מכונה "יחס"; פונקציה היא סוג של יחס אבל ישנם יחסים אחרים) אלא קשר של סיבה ותוצאה. קשר של קלט ופלט. למה הכוונה? ובכן, בואו נתחיל מלדבר על הפונקציות שעליהן מדברים בדרך כלל בחדו"א – פונקציות שמקבלות מספר ממשי כקלט ומוציאות מספר ממשי כפלט (מהו מספר ממשי? על זה דיברתי בפוסט הקודם).

פונקציות נוהגים לסמן באותיות מכל הסוגים והמינים, בהתאם להקשר שלהן, אבל האות הנפוצה ביותר לתיאור פונקציה היא \(f\), ככל הנראה מהמילה Function. לכתוב \(f\left(x\right)=y\) פירושו לומר "הערך שמתקבל כאשר מפעילים את הפונקציה \(f\) על הקלט \(x\) הוא הפלט \(y\)" אם כותבים משהו בסגנון \(f\left(x\right)=x^{2}\), אומרים בזה "הפונקציה \(f\), כשמפעילים אותה על קלט \(x\), מחזירה את הפלט \(x^{2}\)", כלומר זוהי פונקציה של "העלאה בריבוע". כזו שקושרת בין כל מספר והריבוע שלו. עוד דוגמאות: \(f\left(x\right)=x+3\) מוסיפה 3 לקלט; \(f\left(x\right)=7x^{2}+2x+5\) מעלה את הקלט בריבוע, מכפילה ב-7, מוסיפה לזה את הקלט כפול 2, ולזה מוסיפה 5. אפשר לחשוב על פונקציה שכזו כאילו התיאור שלה מכילה גם "הוראות הכנה": \(7x^{2}+2x+5\) הוא בעצם "מתכון" שמסביר איך אפשר להפיק מתוך \(x\) את הערך של \(f\left(x\right)\). המונח המקובל במתמטיקה למתכונים שכאלו הוא אלגוריתם.

לפעמים גם משתמשים בסימון \(y=x^{2}\) כדי לתאר פונקציה; כאן המשמעות של \(y\) היא "המשתנה שמייצג את הפלט", שמכונה גם "המשתנה הקשור" (כי הוא קשור ל-\(x\); כאשר הערך של \(x\) משתנה, הערך של \(y\) משתנה בהתאם). זה סימון נפוץ בספרי לימוד חדו"א אבל אני לא אוהב אותו ולא אשתמש בו יותר.

הבה ונעבור לפונקציה יותר בעייתית, מבחינות רבות: \(f\left(x\right)=\sqrt{x}\). הפונקציה שבהינתן מספר ממשי, מתאימה לו את השורש שלו. מה הבעיות כאן? ובכן, שלוש בעיות עיקריות: ראשית, לא לכל מספר ממשי יש שורש ממשי; שנית, יש מספרים שיש להם שני שורשים ממשיים; שלישית, גם אם למספר יש שורש לא ברור איך מוצאים אותו.

ובכן, נתחיל מהבעיה הראשונה – למספר \(-1\) אין שורש ממשי, כלומר אין מספר ממשי שכאשר נעלה אותו בריבוע ייתן לנו \(-1\). לעומת זאת, קיימת קבוצת מספרים אשר מרחיבה את הממשיים ובה כן יש שורש למינוס 1 – המספרים המרוכבים. אם כן, הדרך לפתור את הבעיה הזו היא להגיד שהפונקציה לא חייבת להחזיר רק מספרים ממשיים, אלא יכולה גם להחזיר מספרים מרוכבים. במילים אחרות, יש חשיבות לקבוצת האיברים שממנה נלקחים הפלטים של הפונקציה. לקבוצה הזו קוראים טווח. שימו לב: אנחנו לא דורשים שכל ערך שנמצא בטווח בהכרח יוחזר על ידי הפונקציה בעבור קלט כלשהו; אנחנו פשוט מציינים בדרך שנוחה לנו קבוצת ערכים שמובטח לנו שכל פלטי הפונקציה ישתייכו אליה. למשל, עבור \(f\left(x\right)=x^{2}\) אפשר לציין בתור הטווח את קבוצת כל המספרים הממשיים, \(\mathbb{R}\). אך למעשה אפשר גם לדבר על הקבוצה \(\mathbb{R}^{+}\) שמכילה רק את המספרים הממשיים האי-שליליים (החיוביים ואפס), שכן אם מעלים מספר ממשי בריבוע יתקבל מספר אי שלילי. אם כן, מהו הטווח ה"נכון" כאן? אין משמעות לשאלה זו; \(\mathbb{R}\) ו-\(\mathbb{R}^{+}\) שניהם טווחים לגיטימיים של \(f\left(x\right)=x^{2}\). מכיוון שלפעמים כן יש חשיבות לשאלה מיהו הטווח של הפונקציה, נוהגים לומר זאת במפורש כאשר יש בכך צורך.

דרך אחרת לפתור את הבעיה של \(-1\) היא להגיד שהפונקציה \(f\left(x\right)=\sqrt{x}\) פשוט לא מוגדרת על ערכים שליליים של \(x\). כלומר, אנחנו מגבילים מראש את טווח הערכים שהפונקציה יכולה לקבל. עשינו זאת כבר קודם, כאשר הגבלנו את \(f\left(x\right)\) לקבל רק מספרים ממשיים ולא, למשל, ספרי מתמטיקה. אם כן, מה הבעיה להגביל עוד קצת את אוסף הערכים ש-\(f\) יכולה לקבל? לקבוצת הערכים שאותם \(f\) מקבלת קוראים התחום של \(f\) – ובדומה לטווח, לגיטימי לדבר על תחומים שונים ומשונים (כך למשל לפונקציה \(f\left(x\right)=x^{2}\) תחום לגיטימי הוא \(\mathbb{R}\), אבל גם \(\mathbb{R}^{+}\) הוא תחום לגיטימי).

אם כן, פונקציה מאופיינת על ידי שלושה דברים: התחום שלה, הטווח שלה, ומה שהיא עושה – המיפוי שהיא מבצעת בין קלט ופלט. כאשר יש חשיבות לתחום ולטווח נוהגים לכתוב \(f:A\to B\) כדי להגיד "הפונקציה \(f\) היא בעלת תחום \(A\) וטווח \(B\)". כדי לציין את מה שהפונקציה עושה משתמשים בסימון דוגמת \(f\left(x\right)=x^{2}\) שראינו קודם, אבל עוד סימון מקובל הוא \(x\mapsto x^{2}\), שיש לקרוא כ"\(x\) מתמפה אל \(x^{2}\)". אלו בסך הכל שיטות סימון שונות ואין ביניהן הבדל מהותי.

אם כן, את פונקצית השורש אפשר לתאר כך: \(f:\mathbb{R}^{+}\to\mathbb{R}^{+}\), \(x\mapsto\sqrt{x}\). פתרנו את הבעיה הראשונה.

הבעיה השניה היא שאם \(x\) הוא מספר ממשי חיובי (גדול מאפס) יש לו שני שורשים. למשל, ל-4 יש את השורשים \(2\) ו-\(-2\). עם זאת, לפונקציה יכול להיות פלט יחיד. מה עושים? פשוט – בוחרים את אחד מהפלטים האפשריים וחסל. פונקצית השורש מוגדרת ככזו שלוקחת תמיד את השורש החיובי מבין השניים (השורשים של מספר ממשי הם תמיד מהצורה \(a\) ו-\(-a\) עבור \(a\) ממשי חיובי כלשהו). כמובן שמתמטיקאים תמיד ששים להכליל כל דבר ולשבור את החוקים בכל הזדמנות (באמת!) ולכן קיים גם מושג של "פונקציה רב-ערכית" – פונקציה שבה לכל קלט יכולים להיות כמה פלטים – אך זה מושג שמופיע בהקשרים ספציפיים, וניתן לפרמל אותו תוך שימוש במושג ה"רגיל" של פונקציה ובלי באמת לשבור את הכללים, ולכן לא נדבר עליו כעת.

הבעיה השלישית היא אולי המהותית ביותר כאן. מה קורה כאשר מזינים לפונקציה \(f\left(x\right)=\sqrt{x}\) את הערך \(2\)? איך מוצאים את התשובה? יותר חשוב – אפילו אם מצאנו אותה, באיזה מובן מצאנו אותה? האם אנחנו יכולים לכתוב את כולה על נייר בבסיס עשרוני? האם \(\sqrt{2}\) איננה תשובה מספיקה? כמו שאתם רואים, השאלה הזו היא פילוסופית בעיקרה – לא ברור לנו מה נחשב תשובה "לגיטימית". לכן אנחנו מבצעים הפרדה חדה, כשמדברים על פונקציות, בין ההגדרה של הפונקציה ובין החישוב שלה. זה שהצלחנו להגדיר פונקציה במילים או בנוסחה עדיין לא אומר שאנחנו יודעים לחשב אותה – ולמעשה, ידועות פונקציות שניתנות להגדרה במילים, אך הן בלתי ניתנות לחישוב, לפחות לא באופן שבו אנחנו מבינים כיום את המושג "חישוב". בהקשר זה פונקציות כמו \(f\left(x\right)=7x^{2}+2x+5\) הן פשוטות מאוד יחסית – ההגדרה שלהן כבר כוללת אלגוריתם (ואפילו אלגוריתם יעיל) לחישוב שלהן. אבל חשוב להבין שזה בשום פנים ואופן לא מאפיין כללי של כל הפונקציות.

אם כן, הבה וננסה להביא הגדרה קצת יותר מדוייקת של "מהי פונקציה"- ההגדרה האמיתית שאיתה עובדים המתמטיקאים. לשם כך נתחיל מלדבר על התחום והטווח – ניקח שתי קבוצות \(A,B\), ונגדיר פונקציה בתור קבוצה של זוגות מהצורה \(\left(a,b\right)\) כך ש-\(a\in A,b\in B\) (\(a\) שייך ל-\(A\) ו-\(b\) שייך ל-\(B\)), באופן כזה שלכל איבר של \(A\) קיים זוג יחיד שבו הוא מופיע בצד שמאל. במילים אחרות, אם נסתכל על כל הזוגות, כל איבר של \(A\) יופיע מתישהו בצד שמאל של הזוגות, ולא יופיע פעמיים. זה הכל. המשמעות של זוג \(\left(a,b\right)\) כזו היא בדיוק \(f\left(a\right)=b\), כלומר שהפונקציה מעבירה את \(a\) ל-\(b\).

העובדה שכל איבר של \(A\) מופיע בצד שמאל של אחד מהזוגות מבטיח שהפונקציה מוגדרת על כל האיברים של \(A\). העובדה שהוא מופיע רק בזוג אחד מראה שההגדרה הזו היא "בסדר" – שאנחנו לא מתאימים לאותו איבר כמה ערכים אפשריים.

שימו לב שעשינו כאן קפיצה מחשבתית מסויימת – אם אנחנו מתארים פונקציה בתור אוסף של זוגות, אנחנו אפילו לא נזקקים לדיבורים על איזה שהוא כלל שמגדיר את התנהגות הפונקציה; כל אוסף שרירותי לגמרי של זוגות נחשב פונקציה. התוצאה של כך היא (ועכשיו אני גולש למתמטיקה מחוכמת למדי ולא מצפה שכולם יבינו) שבהינתן \(A,B\) אפשר לדבר על דברים כמו "קבוצת כל הפונקציות מ-\(A\) ל-\(B\)" למרות שייתכן שאין לנו שום דרך לתאר איך חלק מהפונקציות הללו נראות.

בואו נראה כמה דוגמאות לפונקציות. הדוגמאות הנוחות ביותר הן של פונקציות \(f:\mathbb{R}\to\mathbb{R}\) כי הן גם נפוצות למדי וקרוב לודאי שכל מי שלמד מתמטיקה בתיכון נתקל בהן. כתבתי שהתחום הוא \(\mathbb{R}\), אבל זו הייתה הכללה גסה – בחלק מהפונקציות התחום ייאלץ להיות קטן יותר, ואני אגיד במפורש מהו במקרה הזה. יותר מכך – במקרה של פונקציות כאלו, אפשר לתאר אותן בצורה גאומטרית נוחה – בתור קו כלשהו במישור. הרעיון הוא שלכל נקודה בציר \(x\), מוצאים ה"גובה"בציר \(y\) שמתאים ל-\(f\left(x\right)\) ומציירים שם נקודה. כלומר, מציירים נקודה בקוארדינטה \(\left(x,f\left(x\right)\right)\). מכיוון שלכל \(x\) מתאים בדיוק \(f\left(x\right)\) יחיד, הרי שאם נמתח קו אנכי שקוארדינטת ה-\(x\) שלו היא \(x\) שלנו, הוא יחתוך את הקו שציירנו בדיוק בנקודה אחת. זו התכונה שמאפיינת ציורים של פונקציות. באופן כללי ציורים כאלו נקראים גרף.

ובכן, נתחיל מ-\(f\left(x\right)=a\) כאשר \(a\in\mathbb{R}\). זוהי פונקציה קבועה – לא משנה מה הקלט, הפלט תמיד זהה ושווה ל-\(a\). זהו אולי הסוג הפשוט ביותר של פונקציות. הגרף של הפונקציה הזו הוא פשוט קו ישר בעל גובה קבוע – \(a\).

לאחר מכן יש את \(f\left(x\right)=x\) – זוהי פונקצית הזהות שבה הקלט שווה לפלט. כאן הגרף הוא קו אלכסוני שעובר דרך ראשית הצירים.

עכשיו אפשר להתחכם – \(f\left(x\right)=ax+b\), כלומר מכפילים את הקלט ב-\(a\) ומוסיפים לו \(b\). פונקציות כאלו מכונות לינאריות (שם מדויק יותר הוא "אפיניות", אבל נעזוב את זה). כאן הגרף הוא קו נטוי שחותך את ציר \(y\) בדיוק בנקודה \(b\) (למה?) והשיפוע של הקו (ה"כמות" שבה הוא נוטה) תלויה ב-\(a\); ככל ש-\(a\) קטן יותר, כך הקו יותר אופקי, עד שב-\(a=0\) הוא הופך להיות אופקי לגמרי (ואז חזרנו למקרה של פונקציה קבועה), וככל ש-\(a\) גדול יותר כך הקו יותר אנכי (שימו לב שלא משנה כמה הוא גדול, לא נגיע לקו אנכי לגמרי; קו אנכי לגמרי אינו מייצג פונקציה). עבור \(a=1\) נקבל קו שהוא בדיוק "באמצע הדרך" – וזה נראה קצת מוזר בהתחשב בכמה ש-1 הוא מספר קטן. ומה קורה כאשר \(a\) שלילי? נסו לצייר בעצמכם ולראות.

עוד פונקציה שכבר דיברנו עליה היא \(f\left(x\right)=x^{2}\). הגרף שלה הוא מה שנקרא פרבולה. כמו קודם, אפשר לעשות כאן מניפולציות של כפל בקבוע וחיבור של \(x\) וכדומה, ולדבר על פונקציה כללית יותר: \(f\left(x\right)=ax^{2}+bx+c\). כל תלמיד תיכון כנראה כבר מכיר (ושונא…) את היצור הזה, אבל גם יודע שהנקודות שבו הוא חותך את ציר ה-\(x\) מתאימות בדיוק לפתרונות של המשוואה הריבועית \(ax^{2}+bx+c=0\). אני רוצה לעצור רגע ולהדגיש עד כמה זה דבר יפה. תשכחו מכל התרגילים הטכניים המזוויעים שקשורים לכך – יש לנו כאן קשר בין נקודות חיתוך בין שני יצורים גאומטריים, ובין פתרונות של משוואה אלגברית. זה לא קשר טריוויאלי או מובן מאליו; והרעיון הזה, של קשר בין גאומטריה ובין אלגברה, נותר אחד מהרעיונות החשובים ביותר גם בענפים מתקדמים מאוד של המתמטיקה (בפרט הגאומטריה האלגברית).

אם ההגדרה של הפונקציות עבדה לנו עד \(x^{2}\), למה לא להמשיך? ואכן, אפשר להגדיר גם \(f\left(x\right)=x^{3}\), \(f\left(x\right)=x^{4}\) וכן הלאה. באופן כללי: \(f\left(x\right)=x^{n}\), עבור \(n\) שהוא מספר טבעי (גדול או שווה לאפס) כלשהו. ואז אפשר לעשות קפיצת מדרגה קדימה ולהגדיר פונקציה שנראית כך: \(f\left(x\right)=a_{n}x^{n}+a_{n-1}x^{n-1}+\dots+a_{2}x^{2}+a_{1}x+a_{0}\). פונקציה כזו נקראת פולינום ("רב-איבר"), והיא הצורה הכללית ביותר של כל הפונקציות שהצגנו עד כה. לפולינומים חשיבות עצומה בשל הפשטות הרבה שלהם, שבאה לידי ביטוי גם בתיאור הפשוט שלהם וגם בעובדה שקל לחשב אותם – הם הדבר הראשון שבו אנו מטפלים במסגרת החדו"א, ובעזרתם אפשר לדעת דברים מעניינים על פונקציות מסובכות בהרבה (למשל, איך לחשב עבורן קירוב).

מה שעד כה לא היה בפונקציות שלנו הוא חילוק. למשל, \(f\left(x\right)=\frac{1}{x}\) טרם הופיע. שימו לב לסיבוך שהפונקציה הזו גוררת – היא לא מוגדרת ב-\(x=0\) ולכן תחום ההגדרה שלה הוא כל שאר המספרים הממשיים. כשמציירים אותה רואים שאכן קרה כאן משהו מוזר – הפונקציה מפוצלת לשני "ענפים"שמתנהגים שונה, האחד מימין לציר ה-\(y\) והשני משמאל לו.

ומה על פונקציה כמו \(f\left(x\right)=\frac{1}{x+1}\)? גם בה יש בעיה, אבל לא ב-\(x=0\) אלא דווקא ב-\(x=-1\). וזה יכול להסתבך: \(f\left(x\right)=\frac{1}{x^{2}-1}\) הוא בעל שתי נקודות בעייתיות שונות – \(x=1\) ו-\(x=-1\). בקיצור, הבעיה עם שברים היא בכל הנקודות שבהן המכנה מתאפס. כשמבקשים למצוא את תחום ההגדרה של פונקציות כאלו, כמו שמאוד אוהבים לעשות בתיכון, המטרה היא למצוא את הנקודות שבהן המכנה מתאפס. שימו לב שזה לא בהכרח קורה בכלל, אפילו אם יש לנו שבר: \(f\left(x\right)=\frac{1}{x^{2}+1}\) מוגדר לכל \(x\) כי המכנה לא יכול להתאפס כלל (במספרים ממשיים).

באופן כללי אם \(p\left(x\right),q\left(x\right)\) הם שני פולינומים, אז אפשר להגדיר פונקציה \(f\left(x\right)=\frac{p\left(x\right)}{q\left(x\right)}\). פונקציה שכזו (שהיא מנה של שני פולינומים) מכונה פונקציה רציונלית. אפשר לחשוב עליה בתור "רמת הסיבוך הבאה" אחרי פולינומים. תחום ההגדרה שלה כולל את כל הנקודות שבהן \(q\left(x\right)\) שונה מאפס; מכיוון שלפולינום מדרגה \(n\) יש לכל היותר \(n\) ערכים שמאפסים אותו (זהו משפט לא מסובך במיוחד, אך גם כזה שלא רואים בתיכון) הפונקציה מוגדרת "כמעט בכל מקום".

בדיקה קצרה מראה שסכום של פונקציות רציונלית הוא בעצמו פונקציה רציונלית, וגם מכפלה או חלוקה שלהן; לכן פונקציות רציונליות מתארות את כל הפונקציות שהחישוב שלהן דורש רק הפעלה של מספר סופי של פעולות החשבון הבסיסיות. מכאן שפונקציות אחרות שנתאר יהיו אינהרנטית מסובכות יותר וכבר לא יהיה אפשר לתאר אותן בצורה פשוטה ויפה; למעשה, חלק ממה שעושים בחדו"א הוא לפתח כלים שמאפשרים חישוב יעיל של הפונקציות הללו.

יותר מכך, עבור פונקציות נוספות אין ממש טעם להציג אותן ותו לא; צריך לתת מוטיבציה כלשהי לקיומן. עשיתי זאת לא מזמן עבור הפונקציות העיקריות שאציג כעת, אם כי יש עוד הרבה דרכים שונות לתת מוטיבציה לדיבורים על הפונקציות הללו. אני מדבר על פונקציות הסינוס והקוסינוס \(\sin\left(x\right),\cos\left(x\right)\) (והפונקציות שמתוארת באמצעותם, דוגמת \(\tan\left(x\right)=\frac{\sin\left(x\right)}{\cos\left(x\right)}\), על הפונקציה המעריכית \(e^{x}\) והפונקציה ההפוכה לה, הלוגריתם \(\ln x\). יש עוד מחלקה של פונקציות פופולריות – הפונקציות ההיפרבוליות – אך נעזוב אותן בשקט כי הן לא מופיעות בתיכון, וגם במתמטיקה מתקדמת יותר הן מופיעות רק בהקשרים מאוד ספציפיים (בעוד שהפונקציות הטריגונומטריות – סינוס וקוסינוס – והפונקציה המעריכית והלוגריתמית מופיעות כל הזמן כמעט). כאמור, אין לי תיאור פשוט לאף אחת מהפונקציות הללו כך שלא אתאר אותן עכשיו בכלל; למעשה, לא רק שאפשר להשתמש בחדו"א כדי לתת דרכים טובות לחשב את הפונקציות הללו, אלא אפשר להשתמש בחדו"א כדי לספק להן הגדרות משביעות רצון. זה בדיוק מה שעשיתי בפוסטים שעסקו בפונקציות הטריגונומטריות ובפונקציה המעריכית, שבהם הראיתי איך ניתן להשתמש בנגזרת כדי לתאר את הפונקציות הטריגונומטריות והפונקציה המעריכית; תיאור טוב של הלוגריתם (שהוא מאוד מקובל בספרים בנושא) הוא באמצעות האינטגרל.

אם כן, דיברתי כאן על קצה המזלג על פונקציות וסיפרתי קצת על הפונקציות הממשיות הבסיסיות שבהן עוסקים בחדו"א. הקרקע כעת הוכנה ואפשר לעבור ולדבר במפורש על החדו"א עצמה; ואתחיל מהמושג הבסיסי שבו היא עוסקת, מושג הגבול.

מהם המספרים הממשיים?

בהמשך לפוסט הקודם, אני מתחיל כעת בסדרת הפוסטים שתנסה לתאר בצורה פשוטה את יסודות החשבון הדיפרנציאלי והאינטגרלי ברמה שתתאים גם לתלמידי תיכון, ואנחנו חייבים להתחיל מלתאר את ה"עולם" שבו פועל החשבון הזה – עולם שכוכביו הראשיים הם מה שנקרא "המספרים הממשיים" (Real Numbers). כמו שקורה בדרך כלל במתמטיקה, קיימות הכללות רבות של החדו"א לעולמות אחרים, שבהם אין מספרים ממשיים (או שיש הרחבות של המספרים הממשיים – דוגמת המספרים המרוכבים, למי שמכיר) והתוצאה היא תיאוריות יפות ומרתקות; אבל כדי להבין אותן רצוי להבין קודם את המקרה הפשוט של המספרים הממשיים (ואנסה להסביר בהמשך באיזה מובן זהו אכן "המקרה הפשוט ביותר"). הפוסט יהיה ארוך למדי כי אני לא חושב שנכון לפצל אותו לכמה חלקים; אני ממליץ לכם לקחת הפסקה מתישהו.

במושג "מספרים ממשיים" נתקלים כבר בתיכון, ולכן יש לי שאלה לקוראים, בפרט לאלו שחסרים השכלה מתמטית אוניברסיטאית – האם תוכלו להגיד לי מהם המספרים הממשיים? בספרי לימוד תיכוניים לרוב מופיעה הגדרה בסגנון "כל המספרים שעל ציר המספרים"שלא אומרת לנו יותר מדי – מהו ציר המספרים ואיך מחליטים מה מופיע בו בכלל? עם זאת, ההגדרה הזו גם תופסת באופן מסויים תכונה חשובה של המספרים הממשיים – הרצף שלהם, העובדה שאנחנו תופסים את ציר המספרים כולו באמצעותם. גם לזה נחזור מאוחר יותר.

לעת עתה בואו נעשה חזרה מהירה על מהם מספרים בכלל – בראשית ימי הבלוג כתבתי סדרת פוסטים בנושא למעוניינים, וכעת אקצר יותר. המשחק מתחיל עם המספרים \(1,2,3,\dots\) ודומיהם המוכרים לנו כבר מחיי היום יום – אלו הם המספרים הטבעיים. בשלב הבא אפשר להוסיף למשחק את אפס. בתרבות שלנו, שבה רווח המנהג לקרוא לאנשים "אפס", המושג נראה לנו טבעי לגמרי – אבל בעבר הוא לחלוטין לא היה מובן מאליו ואפשר לכתוב פוסטים היסטוריים מרתקים (אפילו ספרים) בעניין זה. התכונה שמעניינת אותנו באפס היא שהוא איבר נייטרלי ביחס לחיבור – כאשר מוסיפים אותו למספר, נאמר \(n\), מקבלים שוב \(n\). השלב הבא הוא הוספת מספרים מוזרים עוד יותר – המספרים השליליים. מינוס \(n\) הוא מספר שהתכונה המאפיינת אותו (אפילו המגדירה אותו, במובן מסויים) הוא שכאשר מחברים לו \(n\) מקבלים אפס. גם המספרים השליליים השתרשו בחיי היום יום שלנו זה לא מכבר – יש לנו חוב בבנק, שהוא יתרה של מינוס כך וכך שקלים; יש לנו קומות שמתחת לקומת הכניסה לבניין, שהן קומות מינוס משהו. בדומה, ים המלח נמצא בגובה מינוס 421 מטר ביחס לפני הים.

משיש לנו את כל המספרים הללו, אנחנו מציירים את "ציר המספרים"- קו ישר שבמרכזו 0, ועליו מסומנות נקודות במרווחים שווים. שתי הנקודות הראשונות סביב 0 הן 1 ומינוס 1 (הנוהג הוא ש-1 יופיע מימין ל-0 ומינוס 1 משמאל). שתי הנקודות הבאות הן 2 ומינוס 2, וכן הלאה. קו הוא יצור "רציף"- ציירנו אותו במשיכת עט בודדת, בלי להרים את העט מהדף. לכן אינטואיטיבית ניתן לחשוב שכל נקודה על ציר המספרים – לא רק אלו שסימנו במיוחד – מסמנת מספר, ולכל המספרים שמתקבלים כך לקרוא "מספרים ממשיים". למי שזה מפריע לו (בצדק…) אפשר לנקוט בגישה קצת יותר פורמלית – להגיד שנקודה כלשהי על חלקו הימני של הציר מסמנת מספר שמתאים לאורך של הקטע שבין נקודה זו ובין 0 (ונקודה על חלקו השמאלי מתאימה למינוס האורך של קטע זה). אם אנחנו יוצאים מנקודת הנחה שאורכים של קווים הם משהו "אמיתי", ושנכון להגדיר מספרים על פיהם, האינטואיציה שלנו מפוייסת מאוד; כמובן שזו עדיין לא הגדרה מתמטית-פורמלית, אבל זו ההגדרה שאליה ספרי הלימוד מכוונים – והיא לא כל כך גרועה, בהתחשב בכמה שהסיפור האמיתי מסובך יותר.

ציר המספרים

כעת אנחנו מרחיבים את המספרים שלנו על ידי הכנסת שברים לתמונה. נניח שניקח בציר המספרים את הקטע שבין 0 ל-1, ונשים בו נקודה חדשה בדיוק באמצע – איזה מספר הנקודה הזו תייצג? אפשר לחשוב על זה כך – היחס שבין מרחק הנקודה הזו מאפס, לבין מרחק הנקודה 1 מאפס, הוא בדיוק 1 ל-2; כלומר, המרחק של הנקודה הזו מאפס נכנס בדיוק פעמיים במרחק של 1 מאפס. כותבים את זה \(\frac{1}{2}\) וקוראים לזה "חצי", או "1 חלקי 2".

באופן דומה אפשר לסמן שתי נקודות במרווחים שווים בקטע שבין 0 ו-1, ולקבל את \(\frac{1}{3}\) ו-\(\frac{2}{3}\) (למה?). ובאופן כללי אפשר לסמן \(n\) נקודות במרווחים שווים ולקבל את המספרים \(\frac{1}{n},\frac{2}{n},\dots,\frac{n-1}{n}\). ולא חייבים להסתפק בקטע שבין 0 ו-1. למשל, אם נסמן נקודה בדיוק באמצע הדרך בין 1 ו-2, נקבל את \(\frac{3}{2}\); הרעיון כאן הוא שאם נחבר קטע זה לעצמו פעמיים, נקבל בדיוק את 3. בצורה הזו קיבלנו את כל השברים מהצורה \(\frac{a}{b}\) כאשר \(a,b\) שניהם מספרים שלמים (אין בעיה עם זה שהם יהיו שליליים), פרט למקרה אחד בעייתי – אין משמעות לכל המשחק הזה אם \(b=0\). למשל, \(\frac{1}{0}\) היה צריך להתפרשן אצלנו בתור "אורך הקטע שכאשר מסתכלים על 0 עותקים סמוכים שלו, מקבלים את 1", אבל לא קיים כזה קטע – 0 עותקים של קטע כלשהו הם 0, ולעולם לא יהיו 1. אם כן, מדוע לא לומר ש-\(\frac{0}{0}=0\), משהו שאוסרים עליו במפורש בתיכון? ובכן, כי הגדרה כזו תשבור את חוקי החשבון שאנחנו מכירים. אם אנחנו רוצים לחבר את \(\frac{a}{b},\frac{x}{y}\) אנחנו משתמשים במה שנקרא "מכנה משותף" – את \(\frac{a}{b}\) אנו כופלים ומחלקים ב-\(y\) ומקבלים \(\frac{ay}{by}\). ל-\(\frac{x}{y}\) אנחנו מעניקים טיפול דומה ומקבלים את \(\frac{bx}{by}\), ועכשיו יש לנו מכנה משותף לשני המספרים ואפשר לחבר אותם "כרגיל"ולקבל \(\frac{ay+bx}{by}\). אם ננסה להפעיל את זה על \(\frac{0}{0}\) יקרה הדבר המוזר הבא: \(\frac{a}{b}=\frac{a}{b}+0=\frac{a}{b}+\frac{0}{0}=\frac{a\cdot0+b\cdot0}{b\cdot0}=\frac{0+0}{0}=\frac{0}{0}=0\). כלומר, קיבלנו שכל מספר שווה לאפס – ואנחנו לא רוצים שדבר כזה יקרה. לכן ההגדרה של \(\frac{0}{0}=0\) היא ממש הרסנית אם אנחנו לא משנים את כללי החשבון שלנו בהתאם – וכללי החשבון שלנו יקרים לנו בהרבה מאשר האפשרות לתת שם אחר לאפס. אגב, שימו לב שהשתמשתי כאן בכך ש-\(a\cdot0=0\) לכל \(a\); האם אתם יכולים להוכיח זאת ממש, על פי כללי החשבון? (אפשר, וההוכחה אפילו אינה כה מסובכת אף כי יכול להיות בעייתי לגלות אותה בלי נסיון קודם בתעלולים כאלו).

נראה ששברים מסיימים לנו את העניין. יש להם את התכונה היפה שבין כל שני שברים קיים עוד שבר (להבדיל, בין המספרים השלמים 1 ו-2 לא קיים עוד מספר טבעי) – למשל, אפשר לקחת את הקו שמחבר את שתי הנקודות על ציר המספרים שמתאימות השברים ואז להסתכל באמצע שלו – גם נקודה זו תהיה שבר. הדעת נותנת שכל נקודה על ציר המספרים תוכל להתקבל באופן שכזה. אלא שזה לחלוטין לא נכון. כאן אני קופץ לחומר שלא בהכרח מראים בבית הספר – לא כל המספרים על ציר המספרים הם שברים. למעשה, רובם לא. עבורי, ההבנה של הדבר הזה (שלא הבנתי כלל בתיכון, וגם לא נתתי עליו את דעתי כלל) הייתה אחת מנקודות הציון החשובות בדרך שלי להתאהבות במתמטיקה.

אם כן, אילו מספרים אינם שברים? למשל, \(\sqrt{2}\) אינו שבר. אם נצייר ריבוע שאורך צלעו הוא 1, אז אורך אלכסונו יהיה \(\sqrt{2}\) (ממשפט פיתגורס), כך שבבירור \(\sqrt{2}\) הוא אורכו של קטע "חוקי" כלשהו, ולכן – על פי ההגדרה שלנו – מספר ממשי. אלא שכל נסיון לכתוב את \(\sqrt{2}\) כשבר יוביל לסתירה. הראיתי בעבר את ההוכחה לכך, והנה תקציר: אם \(\sqrt{2}=\frac{a}{b}\) אז \(2=\frac{a^{2}}{b^{2}}\), כלומר \(a^{2}=2b^{2}\), ומכיוון שהריבוע של \(a\) זוגי גם הוא זוגי, כלומר \(a=2c\), כלומר \(4c^{2}=2b^{2}\), כלומר \(2c^{2}=b^{2}\), ומכיוון שהריבוע של \(b\) זוגי, גם \(b\) זוגי. מכאן שגם \(a\) וגם \(b\) זוגיים. אבל אם כך היה הדבר, אפשר היה לחלק את שניהם ב-2 ולקבל מ-\(\frac{a}{b}\) שבר אחר (שבו המונה והמכנה קטנים יותר) וגם הוא שווה ל-\(\sqrt{2}\), וגם בו המונה והמכנה שניהם מתחלקים ב-2. אבל אי אפשר לחזור על התעלול הזה לנצח כי בכל פעם המונה והמכנה קטנים (ושניהם שלמים חיוביים) ולכן בסוף בהכרח נגיע לסתירה (כלומר, ניווכח שלא ייתכן שגם \(a\) וגם \(b\) זוגיים). ההוכחה הזו היא דוגמה מובהקת להוכחה מתמטית "אמיתית" – יש בה הנחה בשלילה, יש בה תעלול רעיוני מחוכם למדי של "נצא ממצב מסויים ונגיע למצב דומה לו, אבל עם מספרים קטנים יותר – וזה תהליך שאי אפשר לחזור עליו לנצח" (רעיון זה נפוץ מאוד במתמטיקה), וכן – יש בו גם טיפה טכניקה.

באופן דומה ומחוכם קצת יותר אפשר להראות שגם \(\sqrt{n}\) הוא לא שבר עבור כל \(n\) שאיננו ריבוע של מספר טבעי. אבל הסיפור לא נגמר במספרים כאלו בלבד. למשל, גם השורש השלישי של 2 איננו שבר, והרביעי וכן הלאה. והמצב מסובך עוד יותר: שורש של \(n\) הוא בסך הכל פתרון של המשוואה \(x^{2}=n\), ומה שאמרנו כאן הוא שאין למשוואה הזו פתרון שהוא שבר. אבל יש עוד המון משוואות בעולם, למשל \(x^{2}+x-1=0\), וגם למשוואה זו אין פתרון שהוא שבר, אבל הוא כן נמצא על ציר המספרים הממשיים (איך רואים דבר כזה? ובכן, משוואה כזו מגדירה את מה שנקרא פרבולה, שהיא עקומה בעלת צורה מסויימת. אם מציירים אותה במישור רואים שהיא חותכת את ציר המספרים בשתי נקודות – אלו הם ה"פתרונות" של המשוואה). אלו מכם שנוסחת השורשים עוד לא נמאסה עליהם לחלוטין יוכלו לראות שפתרון למשוואה הוא \(\frac{-1+\sqrt{5}}{2}\) – כלומר משהו שמערבב שברים עם שורשים. וגם כאן הסיפור עוד לא נגמר ואפשר לדבר על יצורים מסובכים עוד יותר. הבה וניקח למשל מעגל שאורך קוטרו הוא בדיוק 1 – מהו היקפו? אם מקבלים זה שההיקף גם הוא מספר ממשי, אפשר להראות (וזה כבר קצת מאתגר) שהיקף זה איננו שבר, ואפשר גם להראות (וזה כבר ממש מאתגר) שהיקף זה אפילו איננו פתרון של משוואה (פורמלית – משוואה שמקדמיה הם בעצמם שברים). להיקף זה יש שם שבו הוא מוכר קצת יותר טוב: \(\pi\).

התגלית הזו, שקיימים מספרים שאינם שברים, מיוחסת לפיתגוראים (פיתגורס ותלמידיו – לא ברור מי גילה מה). גרסא אחת מדברת על \(\sqrt{2}\) שמגיע מריבוע; גרסא אחרת מדברת על \(\sqrt{5}\) שמופיע בפנטגרם, ובכל מקרה ההוכחה היא גאומטרית באופיה ולא זהה להוכחה שתיארתי למעלה. האגדה מספרת שאחד מתלמידיו של פיתגורס – היפאסוס – גילה את התגלית הזו לעולם הרחב והוטבע בשל כך על ידי הפיתגוראים; הפיתגוראים ביססו את תפיסת העולם שלהם על כך שכל מספר ניתן להצגה כיחס בין שני שלמים, והתגלית הזו ערערה אותם. כך נוצרה הבדלה בין מספרים שניתן להביע בתור יחס כזה, שנקראו מספרים רציונליים (כאשר רציו כאן פירושו ככל הנראה יחס והשם ככל הנראה אינו מרמז שהמספרים הללו "הגיוניים"יותר מאחרים – אם כי קראתי גם טענות שטוענות אחרת), וכאלו שלא – "אי רציונליים". הממשיים הם המספרים הרציונליים והאי רציונליים יחדיו, אבל זוהי כמובן אמירה ריקה כי לא ברור אילו מספרים אי רציונליים קיימים בכלל. אם אתם תוהים כעת מדוע הממשיים נקראים "ממשיים"- ובכן, ככל הנראה כדי להנגיד אותם למספרים הדמיוניים (למי שלא מכיר – יש דבר כזה), ואם זו אכן הסיבה מדובר בתקלה היסטורית מצערת שכבר מאוחר מדי לשנות.

בתקופת היוונים, מספרים נתפסו כאורכים של קטעים, כך שלאפס ולמספרים שליליים לא הייתה משמעות רבה. עם השנים והתהפוכות שהמתמטיקה עברה, גם אופן ההתייחסות למספרים השתנה, כשלמהפך החשוב ביותר אחראית שיטת הספרה שהשתרשה בסופו של דבר – ייצוג מספרים באמצעות ספרות, כאשר הערך שאותו כל ספרה מייצגת תלוי במיקום שלה בייצוג. למשל, 21 פירושו "עשרים ואחד" ואילו 12 פירושו "שניים-עשר"למרות ששני הייצוגים הללו מכילים בדיוק את אותן הספרות. ההבדל הוא ששתיים מייצג את ספרת העשרות בייצוג הראשון, ואת ספרת האחדות בייצוג השני. כיום הדברים הללו די מובנים מאליהם עבורנו, שכן הורגלנו אליהם; אבל בשעתו הייתה זו דרך הצגה חדשנית ורבת עוצמה, שפישטה עד מאוד את היכולת לבצע חישובים אריתמטיים (שעד כה נעשו במהירות באמצעות כלי עזר דוגמת חשבוניה – בציור רואים תחרות של ממש שנערכה בין משתמש חשבוניה ו"אלגוריסט" שהשתמש באריתמטיקה) בעוד ששיטת הייצוג שהייתה רווחת עד אז, באמצעות ספרות רומיות (שבהן אין את הרעיון של קביעת ערך על פי מיקום – \(\mbox{I}\) הוא תמיד המספר 1, אם כי לעתים מופע שלו במספר אומר שצריך לחסר אותו ולא לחבר אותו) הייתה מסורבלת ולא צלחה לכאלו מטלות.

תחרות חישוב בין מפעיל חשבוניה ואריתמטיקאי

ראוי להעיר כאן שהרעיון של ספרות שערכן נקבע לפי מקומן היה ידוע כבר לבבלים ולבני המאיה (הם השתמשו בבסיסי הספירה 60 ו-20 בהתאמה, בעוד שאצלנו משתמשים בבסיס 10; מן הסתם בבסיסים אלו יש המון "ספרות" ולכן כל ספרה יוצגה באופן דומה לשיטה הרומית), אך השיטה "שלנו" הומצאה בידי ההודים אי שם במאה ה-6 לספירה, ורק במאה ה-9 לספירה התגלתה למערב בזכות המתמטיקאי הפרסי אל-ח'ואריזמי – אולי חשוב המתמטיקאים של תקופת ימי הביניים, שבה המתמטיקה האירופאית (שכה פרחה בימי היוונים העתיקים) הייתה מצויה בעידן חושך משלה, בעוד התרבות הערבית היא זו שקידמה את המתמטיקה בימים הללו.

בשיטה העשרונית הספרה הראשונה מייצגת אחדות, השנייה מייצגת עשרות וכן הלאה – אבל איך מייצגים שברים? כותבים נקודה בתוך המספר, ואז הספרה הראשונה שמימין לנקודה מייצגת עשיריות, הספרה השניה מייצגת מאיות וכדומה. כך למשל \(0.123\) מייצג את המספר \(\frac{1}{10}+\frac{2}{100}+\frac{3}{1000}=\frac{123}{1000}\). אנחנו לומדים בבית הספר איך לכתוב שברים בצורה עשרונית באמצעות חילוק ארוך עם שארית; ומהר מאוד מגלים שיש מספרים שבהם העסק לא נגמר ויש להם אינסוף ספרות אחרי הנקודה. כך למשל \(\frac{1}{3}=0.333\dots\) (שלוש הנקודות אומרות "כאן המספר לא נגמר אלא ממשיך וממשיך"). תזכורת קצרה לגבי האופן שבו זה קורה עבור \(\frac{1}{3}\): אנחנו לא יכולים לחלק את 1 ב-3 כי 1 קטן מדי, ולכן אנו כותבים 0 (1 נכנס ב-3 0 פעמים) ונותרים עם שארית 1. כעת אנו מכפילים את השארית הזו ב-10 ומקבלים 10; וכעת אפשר לחלק את זה ב-3 ומקבלים 3 (שאותו אנו כותבים מייד אחרי הנקודה) ושארית 1. גם את השארית הזו כופלים שוב ב-10 ומחלקים ב-3, ושוב מקבלים תוצאה 3 ושארית 1, וכן הלאה וכן הלאה; בבירור אפשר להמשיך עם תהליך החלוקה הזה לנצח ובכל פעם נקבל תוצאה 3 ושארית 1. אנחנו "תקועים בלולאה אינסופית".

אפשר להראות שכל מספר רציונלי שננסה לכתוב כשבר עשרוני יתנהג כך – או שהכתיבה שלו תהיה סופית (כמו \(\frac{123}{1000}\) מיודענו) ואז אפשר לחשוב עליו כאילו מרגע מסויים מופיעים בו רק אפסים (כלומר, \(0.123=0.123000\dots\)), או שהכתיבה שלו תהיה אינסופית, אך מחזורית – תהיה קבוצת ספרות כלשהי שפשוט תחזור על עצמה מרגע מסויים ועד אינסוף. אבל כדאי לשים לב שאפשר לכתוב מספרים עשרוניים אינסופיים שאינם מחזוריים באופן הזה, למשל \(0.101100111000\dots\) שבו בהתחלה מופיע \(10\), אחר כך \(1100\) ובאופן כללי – מופיעה סדרה באורך \(n\) של אחדות, אז סדרה באורך \(n\) של אפסים, אז סדרה באורך \(n+1\) של אחדות, וכן הלאה. אתם מוזמנים להציע עוד מספרים לא מחזוריים משל עצמכם (ויש דברים יצירתיים שאפשר להציע למשל, מספר שבו יש 0 אחרי הנקודה למעט בספרות שהמיקום שלהן הוא ראשוני, ושם יש 1), אבל אני מניח שכבר הבנתם את הרעיון – מצאנו דרך תיאור כלשהי למספרים שאינם רציונליים. הגישה של המתמטיקאים במשך שנים רבות הייתה לחשוב על כל סדרה כזו כמספר לגיטימי; ולמעשה, זה המצב גם כיום, אך כבר איננו בוחרים להגדיר את המספרים הממשיים באופן זה, בגלל קשיים טכניים שהדבר יוצר (איך מחברים שני מספרים אינסופיים? הרי החיבור צריך להתחיל מהקצה הימני!).

רק לקראת סוף המאה ה-19, הציעו שני מתמטיקאים דרכים מדוייקות "לבנות" את המספרים הממשיים, ובשני המקרים הבנייה התבססה על המספרים הרציונליים. שניהם הושפעו מהרוח שנשבה במאה ה-19 וכבר תיארתי בפוסט הקודם, של הגברת הדיוק (מילה אהובה על מתמטיקאים בהקשר הזה היא "ריגורוזיות") של המתמטיקה. ריכארד דדקינד המציא את הבניה שלו כבר ב-1858 אך לא טרח לפרסם אותה שכן לא חשב שיש בה עניין גדול לקהילה המתמטית. רק כאשר גאורג קנטור פרסם ב-1872 את הגישה שלו דדקינד חש שגם לו יש מה להציע ופרסם את רעיונותיו. שתי הבניות הן שונות באופיין ולכל אחת הכללות משל עצמה; אציג כאן את זו של דדקינד שכן זו של קנטור מצריכה מושגים שכדי להבין אותם צריך להכיר קצת חדו"א קודם כל. עם זאת, אני רוצה לחכות מעט עם הבניה ולפני כן לשאול את עצמנו – מה בעצם אנחנו רוצים להשיג?

בשורה התחתונה אנחנו רוצים לעשות חדו"א. עוד לא אמרתי מה זה חדו"א, כך שלא ברור מה בעצם אנחנו צריכים, אבל אני יכול לרמוז – במערכת המספרים שבה נעבוד, יהיה הכרחי עבורנו שנוכל לבצע חיבור, חיסור, כפל וחילוק. את זה אי אפשר לעשות רק עם המספרים השלמים, למשל (אי אפשר לחלק את 1 ב-2 ולקבל מספר שלם) אבל בהחלט אפשר לעשות עם הרציונליים. לקבוצה שבה אפשר לבצע את פעולות החשבון הללו והן מתנהגות "כפי שאנחנו מצפים מהן" (כלומר: מקיימות את חוקי החילוף, הקיבוץ והפילוג, 0 הוא נייטרלי לחיבור ו-1 הוא נייטרלי לכפל) קוראים שדה. אם כן, אנו רוצים לעבוד בתוך שדה, לכל הפחות. אפשר היה להגיד כעת שנזדקק גם להוצאות שורש, אבל זה לא כל כך נכון – לא באמת נזדקק להוצאות שורש. אם כן, למה הכרחי למי שעוסק בחדו"א להגדיל את המספרים הרציונליים? זו אינה שאלה טריוויאלית כלל. כדאי להעיר כאן שהרבה דברים יפים במתמטיקה נעשים תוך התמקדות במספרים הרציונליים ובשדות שמקבלים מהם אחרי שמוסיפים להם מספר מוגבל של שורשים (למשל, מסתכלים על שדה כל המספרים מהצורה \(a+b\sqrt{2}\) כאשר \(a,b\) רציונליים). זהו, למשל, התחום שבו עוסקת תורת המספרים האלגברית (שהיא תחום מתקדם יותר במתמטיקה מאשר החדו"א שעליו אדבר). אם כן, הממשיים אינם הכרחיים לצורך עיסוק "כללי" במתמטיקה. אבל בחדו"א מתבססים לעתים קרובות על תכונה של הממשיים שמכונה "אקסיומת החסם העליון". כדי להסביר מדוע מסתמכים עליה ובאיזה מקומות הצורך הזה צץ, צריך להעמיק קצת בחדו"א ולא אוכל לעשות זאת כרגע; בינתיים אתאר את האקסיומה עצמה (לא להתבלבל – "אקסיומה" במובן המתמטי המודרני אינה משהו שהוא מובן מאליו לכל; זהו פשוט דרך להגיד "תכונה שאנו מצפים שתתקיים באובייקט שעליו אנחנו מדברים, ואם הוא לא מקיים אותה אין משחק").

תכונה אחת של המספרים שטרם דיברתי עליה כלל היא קיום סדר עבורם. ניתן להשוות כל שני איברים ולהגיד מי מהם גדול יותר. 1 גדול מ-0 ובוודאי שגדול ממינוס 1, אבל קטן מ-2. מסמנים \(a\le b\) אם \(a\) קטן או שווה ל-\(b\). גם ברציונליים נשמרת תכונת הסדר הזו, ואנו רוצים שגם בממשיים היא תתקיים. כעת, אם נתונה קבוצה כלשהי של מספרים, אז כל מספר שגדול מכל המספרים בקבוצה מכונה "חסם מלמעלה" (או "חסם מלעיל" כמו שאוהבים לומר לפעמים) של הקבוצה. למשל, 0 הוא חסם מלמעלה של קבוצת כל השליליים; לקבוצת כל החיוביים אין חסם מלמעלה; קבוצת "כל השנים שבהן מכבי ת"א זכתה באליפות" חסומה מלמעלה על ידי, נניח, 3,000; אבל גם על ידי 2,100 וכדומה. אם כן, לקבוצה \(A\) יכולים להיות הרבה מאוד חסמים, ואנחנו יכולים לדבר על (זהירות, הגענו לקטע מבלבל) – החסם מלמעלה הקטן ביותר של הקבוצה \(A\). החסם הזה (המינימום של קבוצת כל החסמים מלמעלה של \(A\)) נקרא החסם העליון של \(A\), ובעברית – הסופרמום (קרי: סופרימום) של \(A\), ומסמנים אותו כ-\(\sup A\).

וכעת לפאנץ', עוד לפני שתספיקו לשאול את השאלה. אם אנחנו מגבילים את העולם שלנו למספרים רציונליים, ישנן קבוצות שחסומות מלמעלה אך אין להן חסם עליון. והנה הדוגמה: קבוצת כל המספרים הרציונליים הקטנים מ-\(\sqrt{2}\), ובכתיב מתמטי: \(A=\left\{ a\in\mathbb{Q}|a<\sqrt{2}\right\} \). זהו סימון סטנדרטי אך קשה למי שאינו מכיר – האות \(\mathbb{Q}\), מהמילה Quotient, מייצגת את הרציונליים; \(\in\) מייצג "שייך ל-", והקבוצה מתוארת באמצעות שני חלקים. צריך לקרוא אותה משמאל לימין ואז יוצא משהו בסגנון "כל המספרים הרציונליים אשר מקיימים (ופה מגיע החלק השני) שהם קטנים מ-\(\sqrt{2}\)). קרוב לודאי שחלק מכם יתרגזו כעת, ובצדק, על ההגדרה הטיפשית הזו – אמרתי ש-\(\sqrt{2}\) איננו רציונלי אבל עכשיו אני מתעקש לדבר רק על רציונליים, ולכן "אסור"לי בכלל לאזכר את \(\sqrt{2}\)! אין בעיה, אני אומר, אז נשנה את הגדרת \(A\) באופן הבא: \(A=\left\{ a\in\mathbb{Q}|a^{2}<2\right\} \). עם הגדרה זו אין בעיה של ממש והיא תופסת בדיוק את אותם האיברים פרט למספרים שליליים קטנים מספיק, שממילא לא מעניינים אותנו.

למה אין ל-\(A\) חסם עליון? הבה וניקח מספר רציונלי חיובי כלשהו, \(a>0\). אז אנחנו יודעים ש-\(a^{2}\ne2\). נניח לרגע ש-\(a^{2}<2\), אז אני טוען שקיים \(b\) רציונלי כך ש-\(a<b\) ועם זאת \(b^{2}<2\). והדרך שבה אני הולך להוכיח זאת כבר תהיה דרך חדו"אית למהדרין – זו ההזדמנות הראשונה שלנו לראות את סגנון ההוכחות שהולך בחדו"א.

אני אגדיר את \(b\) להיות המספר הבא: \(b=a+\delta\), כאשר \(\delta\) (האות היוונית דלתא) הוא מספר רציונלי שאני טרם מתחייב על גודלו. בינתיים נחשוב עליו כעל משתנה, ועוד מעט נחליט מה הוא יהיה על פי מה שיהיה לנו נוח; לעת עתה אני רק דורש ש-\(\delta>0\) ולכן אכן מתקיים ש-\(b>a\); וש-\(\delta\) רציונלי ולכן גם \(b\) רציונלי (סכום של שני רציונליים הוא רציונלי). כעת, אני רוצה שיתקיים \(b^{2}<2\), כלומר שיתקיים \(\left(a+\delta\right)^{2}<2\). לאחר פתיחת סוגריים אקבל שאני רוצה שיתקיים \(a^{2}+\delta\left(2a+\delta\right)<2\).

עכשיו אשתמש בתעלול כדי להיפטר מה-\(\delta\) שבסוגריים. עוד לא בחרתי את ערכו של \(\delta\) אבל אתם אולי מרגישים כבר כעת שאני רוצה שהוא יהיה קטן. אם כן, אין לי בעיה להוסיף עוד הנחה למשחק: \(\delta<a\). מכאן ש-\(\delta\left(2a+\delta\right)<\delta\cdot3a\), ולכן אם אראה ש-\(a^{2}+\delta\cdot3a<2\) מתקיים עבור \(\delta\) כלשהו, הראיתי גם ש-\(a^{2}+\delta\left(2a+\delta\right)<2\) מתקיים עבורו. שימו לב להזנחה הזו! היא מקלה עלי את החיים מבחינה טכנית, ולא פוגמת כלל בנכונות ההוכחה. הקושי שב"התרגלות" לביצוע הזנחות שכאלו היא אחד מהקשיים העיקריים של סטודנטים באוניברסיטה כשהם מתמודדים לראשונה עם חדו"א. בלי לזהות מקומות שבהם אפשר "להקל על החיים" כך, התרגילים הטכניים הקשים של חדו"א אוניברסיטאית הופכים לקשים פי כמה.

נמשיך. אני רוצה למצוא \(\delta\) כך ש-\(a^{2}+\delta\cdot3a<2\). זה כבר תרגיל אי שוויונים תיכוני: מעבירים אגף, מחלקים, ומקבלים \(\delta<\frac{2-a^{2}}{3a}\). מכיוון ש-\(a^{2}<2\) (כך הנחנו – זוכרים?) הרי שהמספר באגף שמאל הוא גדול מאפס. בנוסף, \(a\) רציונלי ולכן גם הוא עצמו רציונלי; לכן אפשר פשוט לבחור \(\delta=\frac{1}{2}\cdot\frac{2-a^{2}}{3a}\) ולקבל את מה שרצינו: \(\delta\) שהוא גם גדול מאפס וגם מקיים את אי השוויון שנדרש בהתחלה. וכעת אפשר… לא, לא, לא! לא כל כך מהר. מה פספסתי? ובכן, שכחתי את ההנחה ש-\(\delta<a\) שהוספתי לעצמי קודם. זו לא בעיה – אני אגדיר את \(\delta\) להיות המספר הקטן יותר מבין זוג המספרים \(\frac{1}{2}\cdot\frac{2-a^{2}}{3a}\) ו-\(\frac{1}{2}\cdot a\). אבל זה בור שצריך להכיר ולא ליפול לתוכו.

תמה לה ההוכחה. מצד אחד, זו הוכחה טכנית. מצד שני, היא שונה מאוד באופייה מתרגיל תיכוני רגיל. בפרט שימו לב להזנחה שביצעתי באמצע, לכך שכל התרגיל הוא עם הפרמטר \(a\) שלא נראה שמשרת מטרה כלשהי, ולכן שהפתרון הסופי נראה מכוער לאללה (\(\frac{1}{2}\cdot\frac{2-a^{2}}{3a}\)) וזה ממש לא מפריע לי ואני לא מחפש דרך "לפשט" אותו. אבל ההבדל האמיתי הוא שלתרגיל הזה הייתה מטרה – אני מנסה לשכנע אתכם שלקבוצה כלשהי אין חסם עליון.

ובכן, הראיתי שאם \(a\) הוא רציונלי בתוך \(A\) עצמה, אז קיים רציונלי אחר בתוך \(A\) שגדול ממנו; מכאן שאם יש ל-\(A\) חסם עליון, הוא לא יכול להיות איבר של \(A\) עצמה. אבל אם \(a^{2}>2\) אז בהוכחה דומה מאוד לזו שנתתי (תבחרו \(b=a-\delta\)) אפשר להראות שקיים \(b\) רציונלי כך ש-\(b^{2}>2\) ועם זאת \(b<a\). בגלל ש-\(b^{2}>2\) אז \(b\) הוא חסם מלמעלה של \(A\); ולכן הראיתי כרגע ש-\(a\) איננו חסם עליון של \(A\), כי קיים חסם למעלה אחר שקטן ממנו. המסקנה: \(a\) היה יכול להיות חסם עליון של \(A\) רק אם הוא היה מקיים \(a^{2}=2\), אבל אין מספר רציונלי שמקיים זאת. סוף הסיפור.

אם כן, מה החסם העליון של \(A\)? כמובן, \(\sqrt{2}\). ההוכחה שנתתי למעלה "נשברת" כשמפעילים אותה על \(a=\sqrt{2}\) פשוט כי \(2-a^{2}=0\). לכן לקבוצה \(A\) כן יש חסם עליון אם מכניסים למשחק את \(\sqrt{2}\). ועכשיו אפשר סוף סוף להגדיר את הממשיים בצורה כמעט פורמלית: הממשיים הם בדיוק המספרים שאנחנו צריכים שיהיו במשחק כדי שלכל קבוצה (לא ריקה) שחסומה מלמעלה יהיה חסם עליון. התכונה הזו, "לכל קבוצה לא ריקה חסומה מלמעלה יש חסם עליון" היא מה שנקרא "אקסיומת החסם העליון". העובדה שהרציונליים לא מקיימים את האקסיומה הזו מצביעה שבמובן מסויים, בקבוצת הרציונליים יש "חורים"והיא לא תופסת את כל הישר הממשי, בעוד שבקבוצת הממשיים שכן מקיימת אותה אין חורים כאלו – היא "רציפה".

הזכרתי כבר קודם את המושג "שדה" והערתי שהרציונליים והממשיים שניהם שדות. אם מוסיפים לתמונה את היכולת להשוות בין כל שני איברים, השדה הופך לשדה סדור. המספרים הממשיים הם השדה הסדור היחיד בו מתקיימת אקסיומת החסם העליון. מנקודת מבט מתמטית, זוהי ההגדרה של המספרים הממשיים; מה שדדקינד וקנטור עשו היה להציג בניות של הממשיים באמצעות אבני בניין פשוטות יותר, שהראו שההגדרה אינה ריקה מתוכן אלא באמת קיים אובייקט העונה לתנאי ההגדרה. קנטור ודדקינד שניהם מגיעים אל אותו האובייקט, אך בדרכים שונות. קשה להסביר פורמלית בשלב זה למה הכוונה ב"מגיעים אל אותו האובייקט בדרכים שונות" (כי אם מסתכלים על התוצר הסופי ה"יבש"של מה שהם עשו, הוא לא נראה זהה) ולכן אסתפק בהצגת הבניה של דדקינד ואסיים בזאת.

דדקינד ממשיך עם הרעיון שאיתו התחלתי קודם, של הקבוצה \(A\) שלא היה לה חסם עליון. הוא מגדיר חתך בתור קבוצה \(A\) של מספרים רציונליים כך שאם \(a\in A\) ו-\(b<a\), אז גם \(b\in A\). במילים, אם \(a\) הוא איבר של \(A\) ו-\(b\) קטן מ-\(a\), אז גם \(b\) שייך ל-\(A\). למה "חתך"? שכן הקבוצה הזו "חותכת" את המספרים הרציונליים לשתי קבוצות – כל מי ששייך ל-\(A\), וכל מי שאינו שייך ל-\(A\) ולכן הוא בהכרח גדול מכל אברי \(A\) (אם \(a\) אינו שייך ל-\(A\) אבל קטן מ-\(b\) שכן שייך ל-\(A\), אז מהגדרת \(A\) גם \(a\) חייב להיות שייך אליה…). על ציר המספרים \(A\) היא קו שנמתח ממינוס אינסוף ואז נעצר איפה שהוא, ומייד אחר כך מתחילה הקבוצה של כל מי שאינו ב-\(A\). השאלה היא רק מה קורה בנקודת החיתוך עצמה.

עוד שתי דרישות שדדקינד דורש מ-\(A\) הוא ש-\(A\) תהיה חסומה, אך שלא תכיל את החסם העליון של עצמה, אפילו אם הוא קיים. כעת דדקינד מגדיר את המספרים הממשיים באמצעות החתכים הללו – כל מספר ממשי מתאים ל-\(A\) כלשהי, כאשר, כפי שניתן היה לנחש, הקבוצה \(A\) מייצגת את המספר שהוא החסם העליון של \(A\). בתמונה אנחנו רואים את החתך שמגדיר את שורש 2.

חתך דדקינד שמגדיר את שורש שתיים

כאן הכיף רק מתחיל – צריך להגדיר פעולות של חיבור, חיסור, כפל וחילוק על הקבוצות הללו באופן שעדיין יהיה הגיוני, וצריך להוכיח שאקסיומת החסם העליון מתקיימת עבור אוסף הקבוצות הזה. אלו הם פרטיים טכניים לא טריוויאליים שאיני רוצה להפיל עליכם בפוסט הזה; העיקר הוא ברעיון הבניה עצמו, שלדעתי הוא זר ומוזר לכל מה שרואים בתיכון. כמובן, ייתכן שתרגישו ש"מרמים" אתכם בבנייה הזו שלכאורה מניחה את המבוקש; אך אני מבטיח שקריאה זהירה בטקסט שמתאר את הבניה במפורש עשויה להניח את דעתכם שלא מניחים כאן מאום מראש.

אם כן, אלו הם המספרים הממשיים, ומעתה ואילך נוכל לשכוח את רוב הדיון שהתרחש כאן ולחשוב עליהם פשוט בתור "שדה סדור שמקיים את אקסיומת החסם העליון". אני מקווה שהצלחתי להמחיש כאן שיש בהם מעט יותר מאשר רק "כל המספרים שעל ציר המספרים".

אז מה זה חשבון דיפרנציאלי ואינטגרלי?

אני ממשיך את הפוסטים שלי שבהם אני מנסה להציג נושאים בסיסיים במתמטיקה ברמה שתתאים גם לתלמידי תיכון, והפעם אני רוצה לעסוק באחד מעמודי התווך המרכזיים של המתמטיקה – החשבון הדיפרנציאלי והאינטגרלי, או בקיצור החדו"א (ובשם אחר – החשבון האינפיניטסימלי, האינפי). על החדו"א נבנה הענף המתמטי הרחב שמכונה "אנליזה מתמטית", והחדו"א מופיעה בתחומים רבים נוספים במתמטיקה. זהו נושא כה חשוב ומרכזי עד כי כל מתמטיקאי לומד אותו כבר בשנתו הראשונה באקדמיה, ולרוב נדרשים לכך שניים או שלושה קורסים. חדו"א היא כלי עבודה מתמטי מרכזי עבור הפיזיקיאים. בקיצור – זה תחום חשוב. אבל במה הוא עוסק, בכלל?

תיאור פשטני אבל יחסית מדויק הוא שהחדו"א עוסקת בגדלים שהם "קטנים עד אינסוף" ו"גדולים עד אינסוף" ומנסה לתת להם משמעות מדוייקת ולעבוד איתם בצורה מסודרת. תיאור קצת יותר כללי הוא שהחדו"א עוסקת בשני מושגים מתמטיים מרכזיים – הנגזרת והאינטגרל – ששניהם קשורים לאותם רעיונות של "קטן/גדול עד אינסוף", ובין שניהם יש קשרים לא טריוויאליים. יש כמה דרכים שונות להציג את שני המושגים הללו ואני לא מתחייב לבחור את הנכונה ביותר – רק את זו שנראית לי הכי ברורה ומעניינת.

הנגזרת מנסה לתאר את קצב השינוי של דברים. נניח שאנחנו משגרים טיל לחלל. המיקום שלו משתנה ככל שהזמן עובר – הוא עף גבוה יותר ויותר. לקצב השינוי של המיקום של הטיל אנחנו קוראים מהירות. גם המהירות של הטיל משתנה, כי הדלק שנשרף בכל רגע מפעיל עליו כוח ובכך נותן לו "דחיפה" שמגדילה את המהירות – לקצב השינוי של מהירות הטיל אנחנו קוראים תאוצה. המהירות והתאוצה שתיהן דוגמאות לנגזרת: המהירות היא נגזרת המיקום, והתאוצה היא נגזרת המהירות. במובן מסויים הנגזרת מנסה להכליל את מושג הממוצע החשבוני – הנגזרת היא מה שמתקבל כשאנחנו מנסים לחשב את המהירות הממוצעת של הטיל עבור פרקי זמן קטנים מאוד – "קטנים עד אינסוף".

מרגע שידועה לנו הנגזרת של דבר מה שכזה (דבר מה שנקרא פשוט "פונקציה" – במקרה שלנו, משהו שקושר בין הזמן שחלף ובין המיקום של הטיל), ניתן להפיק עליו מידע. כך למשל מציאת הזמן המדוייק שבו מהירות הטיל היא 0 (כלומר, הנגזרת של המקום היא 0) מראה לנו את הזמן שבו גובה הטיל היה מקסימלי. זהו שימוש אלמנטרי וחשוב של הנגזרת – מציאת נקודות מקסימום ומינימום. שימוש אחר של הנגזרת הוא בבניית מודלים מתמטיים של סיטואציות מורכבות. למשל, כזו שבה המיקום של גוף נע משפיע על המהירות שלו, ולא רק ההפך (למשל, בדוגמת הטיל – ככל שהטיל גבוה יותר, כך כוח המשיכה שכדור הארץ מפעיל עליו חלש יותר, ולכן קל יותר להגדיל את מהירות הטיל – למעשה, אפשר לתאר זאת במשוואה כקשר בין המיקום ובין התאוצה). תיאורים מורכבים שכאלו מכונים משוואות דיפרנציאליות, ומודלים רבים בפיזיקה מתבססים עליהן. עוד שימוש לנגזרת הוא בבניית קירובים לפונקציות – ידע על הנגזרות של פונקציות מסויימות מאפשר לנו לחשב אותן ביעילות באמצעות מחשב (זה האופן שבו מחשבונים "יודעים" לחשב פונקציות מסובכות).

המושג השני, האינטגרל, מנסה לתאר סכום של מספר אינסופי "גדול" של דברים ("גדול", כי יש מובן גם ל"סכום של מספר אינסופי קטן של דברים" וגם בזה עוסקים במסגרת החדו"א אך אני מעדיף לא לדבר על כך כעת). הדוגמה הקלאסית היא זו של חישוב שטח של צורה – אפשר לחשוב על שטח הצורה כמורכב מסכום גדול של יחידות שטח קטנות (קחו את הצורה, חלקו אותה למשבצות, וסכמו את השטח של כל משבצת…). מכיוון שצורות יכולות להיות בעלות מבנה מאוד מסובך ומפותל, לא תמיד פשוט לחלק אותן למשבצות – הרעיון שבאינטגרל הוא לחלק את הצורה לכמות "גדולה עד אינסוף" של יחידות שטח "קטנות עד אינסוף", ואז לסכום את כולן באופן שיתן לנו את השטח המדויק של הצורה. דוגמה אחרת לשימוש באינטגרל באה מפיזיקה: נניח שרכב כלשהו נע במסלול מפותל ואנו רוצים לדעת כמה אנרגיה הוא מוציא בתנועתו. אז אנחנו מתארים (באמצעות פונקציה) את הכמות הקטנה עד אינסוף של אנרגיה שהוא מוציא בכל תנועה קטנה עד אינסוף שהוא מבצע; ואז אנחנו סוכמים את הכל ומקבלים את האנרגיה הכוללת שהוא הוציא במהלך תנועתו. זה שאפשר לעשות משהו כזה נשמע מוזר, אפילו קסום – ובמידה מסויימת זו גם התחושה שלי עד היום.

מבחינה היסטורית החדו"א התחיל להתפתח באופן רציני במאה ה-17 (אף שהדים קלושים שלו נמצאים כבר בעבודתם של היוונים הקדמונים – בפרט אצל ארכימדס). תרומה נכבדה להתפתחות החדו"א נזקפת לזכות פייר דה פרמה (שאולי שמעתם את שמו בהקשר של "המשפט האחרון של פרמה"), אך פריצת הדרך האמיתית הגיעה בעבודותיהם של אייזק ניוטון וגוטפריד לייבניץ שפיתחו (בנפרד, מאוד בנפרד) מאוד את התיאוריה ובפרט מצאו את הקשר שבין הנגזרת והאינטגרל. מכיוון שכל אחד מהם טען לזכות הראשונים על ההמצאה התפתחה מעין "מלחמה" בין שתי אסכולות מתמטיות – תומכי ניוטון ותומכי לייבניץ – שהדים לה קיימים אף כיום, בשיטות סימון שונות שבהם משתמשים כדי לתאר נגזרות.

לאחר ניוטון ולייבניץ החדו"א הפסיק להיות אוסף של כמה טכניקות מבודדות והפך להיות תורה מתמטית סדורה – וכזו שעליה הסתמך ניוטון במודל הפיזיקלי שהציע לעולם (מודל כה חשוב ומוצלח עד כי גם כיום הוא הראשון שאותו לומדים בלימודי הפיזיקה; ואכן, אף שהמציאות מורכבת יותר ממנו, הוא מהווה תיאור טוב של הפיזיקה בה אנו נתקלים בחיי היום יום). אלא שהחדו"א אז עדיין היה שונה במהותו מהחדו"א שנלמד היום, שכן חסר לו ביסוס פורמלי. את הרעיון של "קטן עד אינסוף" שהוא לב לבה של החדו"א תיארו באמצעות יצור מתמטי שכונה "אינפיניטסימל" שהיה בדיוק זה – מספר "קטן עד אינסוף", אף שלא היה ברור עד הסוף מה זה אומר. חשוב להבין שהמתמטיקה של אותן שנים הייתה שונה מאוד מהמתמטיקה של ימינו ברמת הפורמליות והדיוק שלה ציפו המתמטיקאים; הגישה הכללית הייתה שאם התוצאה יוצאת נכונה, אז סוף טוב הכל טוב. גם מתמטיקאי מאוחר יותר, אחד מגדולי המתמטיקאים בכל הזמנים – לאונרד אוילר – נקט בגישה זו. רבות מההוכחות שלו כיום לא היו עומדות במבחן הפורמליות שאנו דורשים מהוכחה מתמטית; התוצאות היו נכונות לחלוטין, וניתן לשער שאוילר היה מצליח להוכיח לפחות את חלקן גם תחת דרישות הפורמליות של ימינו, אך בזמנו (המאה ה-18) זה כלל לא נראה רלוונטי. כמובן שכבר באותם ימים נמתחה ביקורת על החדו"א במתכונתו זו, כשהביקורת המפורסמת ביותר הייתה של הבישוף ג'ורג' ברקלי, אך את המתמטיקאים זה לא עניין כל כך.

שינוי בגישה זו חל במאה ה-19, כאשר מספר מתמטיקאים החלו לשים דגש נרחב יותר על דיוק ועל ניסוח מחודש של ההגדרות באופן שיהיה פחות סתירתי. המפורסמים מבין העוסקים בכך היו אוגוסטין קושי, ברנרד רימן וקרל ויירשטראס. האחרון נודע במיוחד בהקפדה שלו על ניסוח מדוייק והחיבה שלו למציאת דוגמאות נגדיות מחוכמות שמראות כיצד ניסוחים לא מדוייקים מובילים לסתירות. ויירשטראס נודע גם כמרצה מצויין, ובין תלמידיו היו מתמטיקאים משפיעים רבים; הניסוח שלו של החדו"א (שהתבסס במידת מה על מה שעשו מתמטיקאים קודמים ובמיוחד קושי) הפך לסטנדרט שאותו לומדים גם כיום באוניברסיטאות. ההבדל המרכזי בין החדו"א החדש והחדו"א הישן הוא סילוקו של מושג האינפיניטסימל הסתירתי, ובמקומו שימוש במושג חדש, מדויק לגמרי, שכלל לא הצריך שימוש באינסוף כדי לתארו – מושג הגבול.

הגבול הוא הבסיס לחדו"א כפי שאנו מכירים אותו כיום. הוא משמש בהגדרת הנגזרת והאינטגרל, אך גם באלף ואחד שימושים אחרים. ניתן אף להגדיל ולומר שהחדו"א ניתנת לתיאור בתור הענף שעוסק בגבולות, לא בתור הענף שעוסק בנגזרות ואינטגרלים (למעשה זה יהיה שקר גס, היות ומושג הגבול מופיע בהקשרים רבים נוספים, כשהוא מוכלל באופן מתאים). בבסיסו, מושג הגבול בא לתאר באופן מדוייק את התנהגותה של סדרה או של פונקציה כאשר היא "שואפת" לאינסוף או לנקודה כלשהי. תיארתי בבלוג בעבר את ההגדרה המדוייקת של הגבול, אך אעשה זאת שוב במסגרת סדרת הפוסטים הנוכחית.

לשימוש הזה בגבולות יש מחיר כלשהו – מדובר במושג שאינו קל להבנה במבט ראשון, ועוד יותר קשה "לעבוד" איתו בצורה מסודרת עד שמתרגלים. זו ככל הנראה הסיבה שבגללה בלימודי החדו"א התיכוניים נמנעים לרוב מניסוח מדוייק של הגבול והסתפקות בתיאור אינטואיטיבי שלו ומתן מספר כללי אצבע לחישובו במקרים מסויימים. בכך לטעמי מתפספס אחד מהדברים החשובים ביותר בלימודי החדו"א – ההבנה של האופן המחוכם (ואגדיל ואומר – גאוני ממש) שבו ניתן לתאר תהליכים "קטנים עד אינסוף" ו"גדולים עד אינסוף" מבלי להזדקק לאינסוף.

עוד מושג שלא הזכרתי עד כאן באופן מפורש הוא ה"עולם" שבו עוסק החדו"א. מיהם היצורים שאותם החדו"א חוקר, וכיצד? ובכן, החדו"א עוסק בפונקציות, שאפשר לחשוב עליהן כעל התאמות בין קלטים לפלטים (למשל, "העלאה בריבוע" היא פונקציה שמקבלת כקלט מספר ומוציאה כפלט את הריבוע שלו). הפונקציות שבהן עוסקים מקבלות כקלט מספרים ממשיים ומוציאות כפלט מספרים ממשיים; בשלב מתקדם יותר עוברים לדבר על חדו"א שעוסק בפונקציות מתוחכמות יותר, אך רעיונות הבסיס המרכזיים מצויים כבר במקרה הפשוט הזה (אם כי – חשוב מאוד להדגיש זאת – לא כל רעיונות הבסיס מופיעים בו). מהם המספרים הממשיים? ובכן, אולי למרבה הפלא, זו השאלה שהכי קשה לענות עליה בשלב זה, ובלימודי המתמטיקה התיכוניים בוחרים להתעלם ממנה לחלוטין (בלימודי חדו"א באוניברסיטה, לעומת זאת, לרוב טורחים להקדיש לה שיעור).

אם כן, אלו המושגים שעליהם יש לדבר: מספרים ממשיים ופונקציות שלהם; מושג הגבול; ומושגי הנגזרת והאינטגרל. כמובן שלא אוכל להסביר את המושגים הללו ברמת הדיוק של ספר לימוד בנושא, אך אנסה שלא להסתיר את הרעיונות המרכזיים ואת ההגדרות המדוייקות. נקווה שלא אאבד יותר מדי קוראים בדרך.

אז אולי רק הראשוניים בטור ההרמוני מתכנסים ל-137?

בפרשיית הטרחן הכפייתי והטור ההרמוני שדיווחתי עליה אתמול חלו התפתחויות מרעישות – הטרחן שינה את עמדתו (דבר נדיר למדי), וטענתו החדשה היא שהטור ההרמוני אכן אינו מתכנס ל-137, כי אם מה שנותר מהטור ההרמוני כאשר משאירים בו רק את האיברים שהם הופכיים של ראשוניים. במילים אחרות, הטור \(\frac{1}{2}+\frac{1}{3}+\frac{1}{5}+\frac{1}{7}+\frac{1}{11}+\dots\) מתכנס ל-137, ובקיצור: \(\sum\frac{1}{p}=137\) (זהו סימון מקובל שכן בתורת המספרים נהוג לסמן ב-\(p\) מספרים טבעיים ראשוניים).

ובכן, כמו שכבר כתבתי בפוסט של אתמול, גם טור זה מתבדר לאינסוף, והייתי רוצה לנצל את ההזדמנות הזו כדי לתאר את ההוכחה, שהיא פשוטה למדי ומתבססת על רעיון שהוא כה יפה עד שכדאי להזכיר אותו שוב – ההצגה הכפלית של הטור ההרמוני (או יותר במדוייק, ההצגה הכפלית של פונקצית הזטה של רימן). כבר הראיתי אותה בפוסט שהציג את הוכחת אוילר לקיום אינסוף ראשוניים וגם על ההוכחה שאציג כעת אפשר לחשוב בתור הוכחה חזקה עוד יותר לקיום אינסוף ראשוניים, שכן אם היה רק מספר סופי שלהם אז הטור \(\sum\frac{1}{p}\) היה סופי ולא יכל להתבדר; למעשה, העובדה שהטור הזה מתכנס מלמדת אותנו משהו על "כמות" הראשוניים. זכרו שטורים כמו \(\sum\frac{1}{n^{2}}\) מתכנסים, כך שאנו למדים שהראשוניים נפוצים יותר מאשר מספרים שהם ריבועים. לטעמי זהו רעיון מקסים – היכולת שלנו למדוד "כמות"באמצעות התבדרות של טור.

בשורה התחתונה, זוהי תוצאה מעניינת ויפה, ומכיוון שהיא גם פשוטה להוכיח, אוכיח אותה כעת. אני מזהיר מראש שההוכחה היא טכנית ומתבססת על ידע בסיסי בחשבון אינפיניטסימלי שאניח הפעם שקיים אצל הקורא; אבל כפי שאני מבהיר לעתים קרובות בבלוג הזה, בלי "ללכלך את הידיים" לפעמים לא רק שאי אפשר להבין מתמטיקה, גם קשה להבין למה החלקים בה שנראים לנו "טכניים" הם למעשה יפים.

לב ההוכחה הוא במה שכבר כיניתי פעם "הגרסה האנליטית של המשפט היסודי של האריתמטיקה". המשפט היסודי של האריתמטיקה אומר לנו שכל מספר טבעי ניתן להצגה באופן יחיד בתור מכפלה של מספרים ראשוניים (ומן הסתם כל מכפלה של ראשוניים נותנת לנו מספר טבעי). זה מאפשר לנו להציג באופן שונה למדי את הסכום החלקי של הטור ההרמוני, \(1+\frac{1}{2}+\frac{1}{3}+\dots+\frac{1}{n}\), באמצעות מכפלה של גורמים שמערבים ראשוניים; כפי שנראה בקרוב, כל עוד אנחנו מנסים להצטמצם לטורים סופיים לא נוכל לתפוס במדוייק את \(1+\frac{1}{2}+\frac{1}{3}+\dots+\frac{1}{n}\) אלא רק משהו שתופס גם אותו וגם איברים נוספים; אבל זה לא אכפת לנו.

אם כן, יהיה \(n\) מספר טבעי כלשהו, ויהיו \(p_{1},p_{2},\dots,p_{\pi\left(n\right)}\) כל הראשוניים הקטנים מ-\(n\) (\(\pi\left(n\right)\) הוא מספרם; זהו סימון סטנדרטי). הפאנץ' המרכזי הוא שכל מספר טבעי עד וכולל \(n\) הוא מכפלה של חזקות של הראשוניים הללו בלבד; ראשוניים גדולים יותר מן הסתם אינם רלוונטיים כי לא ניתן להגיע על ידי מכפלה שלהם אלו באלו למספר שקטן יותר מהם. כאן מגיע התעלול ודומני שהכי פשוט להציג אותו. נתבונן במכפלה \(\lambda\left(n\right)=\frac{1}{1-\frac{1}{p_{1}}}\cdot\frac{1}{1-\frac{1}{p_{2}}}\cdots\frac{1}{1-\frac{1}{p_{\pi\left(n\right)}}}\). מה יש לנו כאן?

מצד אחד, זוהי מכפלה סופית של מספרים רציונליים, כך שברור שאין כאן שום בעייתיות מבחינת התכנסות וכדומה. מהצד השני אני הולך לעשות להטוט. הבה ונתבונן באיבר הכללי של המכפלה הזו: \(\frac{1}{1-\frac{1}{p_{k}}}\). חלקכם ודאי שמים לב שהיצור הזה דומה לסכום של סדרה הנדסית אינסופית: \(1+q+q^{2}+\dots=\frac{1}{1-q}\) כאשר \(\left|q\right|<1\). ובכן, כאן \(\left|\frac{1}{p_{k}}\right|<1\) בבירור, שכן \(p_{k}\ge2\); ולכן \(\frac{1}{1-\frac{1}{p_{k}}}=1+p_{k}^{-1}+p_{k}^{-2}+\dots\). במילים אחרות, את המכפלה שלעיל אפשר לכתוב גם כ:

\(\left(1+p_{1}^{-1}+p_{1}^{-2}+\dots\right)\cdots\left(1+p_{\pi\left(n\right)}^{-1}+p_{\pi\left(n\right)}^{-2}+\dots\right)\)

יש לנו כאן מכפלה סופית של טורים אינסופיים. על פניו לא ברור האם ניתן "לפתוח" אותה – ואכן, במקרים מסויימים לא ניתן לעשות זאת כי זה מוביל לתוצאות ההרסניות שעליהן מצביע משפט רימן. עם זאת, תוצאה בסיסית בתורת הטורים מראה שניתן "לפתוח"מכפלה כזו במקרה שבו כל הטורים במכפלה מתכנסים בהחלט, כלומר הטור הערכים המוחלטים שלהם מתכנס. מכיווון שכל הטורים המעורבים כאן הם חיוביים וכולם בוודאי מתכנסים, הקריטריון הזה מתקיים מאליו ולכן ניתן לפתוח את הסוגריים. מה המשמעות של פתיחת סוגריים? אנחנו מקבלים סכום שכל איבר בו הוא מכפלה שכוללת איבר אחד מכל אחד מהסוגריים. אם להיות ממש פורמליים, הסכום הוא של איברים מהצורה \(p_{1}^{-a_{1}}p_{2}^{-a_{2}}\cdots p_{\pi\left(n\right)}^{-a_{\pi\left(n\right)}}\) לכל וקטור אפשרי \(\left(a_{1},a_{2},\dots,a_{\pi\left(n\right)}\right)\) של מספרים שלמים אי שליליים.

כעת, שימו לב שאת המכפלה שלעיל אפשר גם לכתוב בתור \(\left(p_{1}^{a_{1}}p_{2}^{a_{2}}\cdots p_{\pi\left(n\right)}^{a_{\pi\left(n\right)}}\right)^{-1}\) וכעת מה שכתוב בתוך הסוגריים הוא פשוט מספר טבעי שהפירוק לגורמים שלו מכיל רק את הראשוניים \(p_{1},\dots,p_{\pi\left(n\right)}\). במילים אחרות, \(\lambda\left(n\right)\) (המכפלה שכתבנו בהתחלה) שווה ל-\(\lambda\left(n\right)=\sum\frac{1}{k}\) כאשר \(k\) רץ על כל המספרים הטבעיים שהפירוק שלהם לגורמים מכיל רק את \(p_{1},\dots,p_{\pi\left(n\right)}\) – וכאמור, זה מכיל גם את כל הטבעיים הקטנים או שווים ל-\(n\), אבל גם דברים גדולים יותר (למשל, חזקות גדולות של 2 שעוברות את \(n\)). במילים אחרות, מה שאנחנו יכולים בודאות לכתוב הוא \(1+\frac{1}{2}+\frac{1}{3}+\dots+\frac{1}{n}\le\lambda\left(n\right)\). מכיוון שהטור ההרמוני מתבדר, כפי שראינו בפוסט הקודם, נובע מכך שכאשר משאיפים את \(n\) לאינסוף, \(\lambda\left(n\right)\) שואף לאינסוף. שימו לב שכרגע הוכחנו שוב את קיומם של אינסוף ראשוניים (כי אם היה מספר סופי, אז \(\lambda\left(n\right)\) היה הופך לקבוע החל ממקום מסויים).

עד כאן הכל טוב ויפה, אבל איך \(\lambda\left(n\right)\) המדובר קשור לטור ההרמוני כאשר משאירים בו רק את הראשוניים? אמנם, הוא מיוצג בדרך אחת כמכפלה של ראשוניים, אבל זה בדיוק העניין – הם מכפלה, לא סכום. כאן נחלץ לעזרתנו כלי בסיסי נוסף במתמטיקה – הלוגריתם. לוגריתם הופך מכפלות לסכומים בצורה "יפה" שמאפשרת את המשך הטיפול בהם, ולכן העניין שלנו עובר כעת מ-\(\lambda\left(n\right)\) עצמו אל \(\ln\lambda\left(n\right)\). שימו לב שאם \(\lambda\left(n\right)\to\infty\) כך ש-\(\ln\lambda\left(n\right)\to\infty\) (כי \(\ln\left(n\right)\to\infty\)). כעת בואו וננסה להבין אך \(\ln\lambda\left(n\right)\) נראה – וכמו שכבר הבנתם שאנחנו עושים כל הזמן לא באמת נמצא את הצורה המדוייקת שלו, כי זה קשה, אלא חסם. במקרה זה, חסם עליון. ברשותכם, אעבור להשתמש בסימון מתמטי עוד יותר קומפקטי מזה שהשתמשתי בו עד כה:

\(\ln\lambda\left(n\right)=\ln\left(\prod\left(1-p_{k}^{-1}\right)^{-1}\right)=\sum\ln\left(1-p_{k}^{-1}\right)^{-1}=-\sum\ln\left(1-p_{k}^{-1}\right)\)

הלוגריתם עשה את מלאכתו והעביר לנו את המכפלה לסכום. אבל מה שכרגע יש בסכום הוא לא להיט גדול במיוחד – איך מתקדמים מכאן? הרי לוגריתם לא יודע "לטפל" בסכומים שנמצאים בתוכו.

כאן נכנס לתמונה להטוט מתמטי אחר – טור טיילור. לא אוכיח זאת כרגע, אבל באופן כללי ידוע כי \(\ln\left(1-x\right)=-\sum_{m=1}^{\infty}\frac{x^{m}}{m}\) כאשר \(\left|x\right|<1\). כאן \(x=p_{k}^{-1}\) ולכן ניתן להשתמש בתוצאה הזו. מקבלים:

\(-\sum_{k=1}^{\pi\left(n\right)}\ln\left(1-p_{k}^{-1}\right)=\sum_{k=1}^{\pi\left(n\right)}\sum_{m=1}^{\infty}\frac{p_{k}^{-m}}{m}\)

עכשיו כבר יש לנו סכום כפול מפלצתי באגף ימין  ולא ברור איך אנחנו הולכים להיחלץ מהצרה הזו, אבל עכשיו מגיע הקסם האחרון: את הסכום הזה אפשר לחלק לשני סכומים, כשאחד הוא בדיוק מה שמעניין אותנו והשני הוא חסר חשיבות. שימו לב שכאשר \(m=1\) מקבלים באגף שמאל איברים מהצורה \(p_{k}^{-1}\). אם כן, אפשר לכתוב:

\(\sum_{k=1}^{\pi\left(n\right)}\sum_{m=1}^{\infty}\frac{p_{k}^{-m}}{m}=\sum_{k=1}^{\pi\left(n\right)}\frac{1}{p_{k}}+\sum_{k=1}^{\pi\left(n\right)}\sum_{m=2}^{\infty}\frac{p_{k}^{-m}}{m}\)

הסכום השמאלי מבין השניים הוא בדיוק סכום חלקי של הטור שאנחנו רוצים לתקוף. ומה לגבי הסכום הימני? ובכן, הוא לא יכול להיות כל כך גדול, שכן:

\(\sum_{m=2}^{\infty}\frac{p_{k}^{-m}}{m}<\sum_{m=2}^{\infty}p_{k}^{-m}=p_{k}^{-2}\left(\sum_{m=0}^{\infty}p_{k}^{-m}\right)=p_{k}^{-2}\left(1-p_{k}^{-1}\right)^{-1}<2p_{k}^{-2}\)

כל המעברים הללו הם פשוטים יחסית – הקורא יכול כתרגול להבין מה הולך פה (סטודנט שמכיר קצת אינפי אמור להסתדר).

במילים אחרות, מה שהצלחנו להראות הוא את התוצאה הבאה:

\(\ln\lambda\left(n\right)<\sum_{k=1}^{\pi\left(n\right)}\frac{1}{p_{k}}+2\sum_{k=1}^{\pi\left(n\right)}\frac{1}{p_{k}^{2}}\). מה קורה כאשר משאיפים את \(n\) לאינסוף? ובכן, הטור \(\sum_{k=1}^{\infty}\frac{1}{p_{k}^{2}}\) הוא טור מתכנס (כי \(\sum\frac{1}{n^{2}}\) מתכנס). ומצד שני, כבר אמרנו כי \(\ln\lambda\left(n\right)\) שואף לאינסוף ולכן אגף ימין של אי השוויון חייב לשאוף לאינסוף בעצמו; מכאן ש-\(\sum_{k=1}^{\pi\left(n\right)}\frac{1}{p_{k}}\) חייב לשאוף לאינסוף, דהיינו \(\sum_{k=1}^{\infty}\frac{1}{p_{k}}\) מתבדר, וזה מה שהיה צריך להוכיח.

האם טרחן ישתכנע מההוכחה הזו? ספק גדול. אני מקווה שלפחות אלו מכם שעקבו עד הסוף נהנו.

האם הטור ההרמוני מתכנס ל-137?

בדיחה גסה ידועה (למתמטיקאים) מספרת על שני מתמטיקאים העומדים בקצה האחד של חדר כאשר בקצה השני נמצאת בחורה נאה, והם חפצים להגיע אליה. הראשון אומר "כדי לעבור את החדר צריך לעבור קודם את מחציתו; ואחרי שאגיע למחציתו, אצטרך עוד להגיע למחצית של המחצית הנותרת; ואחרי שאעבור אותה אצטרך להגיע למחצית של הרבע הנותר וכן הלאה – וכך עד אינסוף, ומכאן שלעולם לא אגיע אל הבחורה". המתמטיקאי השני עונה לו "כן; אבל תתקרב מספיק לכל צורך מעשי" (בגרסאות מסויימות ה"מעשי" הוא פיזיקאי, אך אני מוחה נגד כך בתוקף – ההתמודדות עם הסיטואציה שמתוארת בבדיחה היא המצאה של מתמטיקאים).

מה הלך כאן? נניח שאורך החדר הוא 1. המתמטיקאי הראשון תיאר את מעבר החדר כסדרה של "צעדים", שבה בכל צעד עוברים את חצי הדרך שעברנו בצעד הקודם. כלומר, אחרי צעד אחד עברנו \(\frac{1}{2}\), אחרי שניים עברנו \(\frac{1}{2}+\frac{1}{4}\), אחרי שלושה עברנו \(\frac{1}{2}+\frac{1}{4}+\frac{1}{8}\) וכן הלאה. הסכומים הללו הם מקרים פרטיים של טור הנדסי ולכן קיימת לנו נוסחה פשוטה שנותנת את ערכם: \(1-\frac{1}{2^{n}}\) הוא המרחק שנעבר עד וכולל הצעד ה-\(n\) (למי שאינו מאמין – שיציב \(n=1,2,3\) בנוסחה וישווה זאת לסכומים שכתבתי למעלה). לא קשה לראות שלא משנה איזה ערך של \(n\) אציב בנוסחה הזו לא אוכל לקבל 1, כך שהמתמטיקאי הראשון לא יגיע אף פעם אחרי מספר סופי של צעדים אל הקצה השני של החדר (באופן המאוד מוזר שבו אנחנו בוחרים למדוד "צעדים"). מה שהשני אומר הוא שאנחנו לא באמת חייבים להגיע ל-1 כדי לקטוף את הפירות של מעבר החדר; נניח שכל מה שאנחנו צריכים הוא שהמרחק בינינו ובין הבחורה יהיה \(0.0000001\); אז לא קשה למצוא \(n\) שהוא גדול כל כך עד שהמרחק שלנו מהבחורה קטן מה-\(0.0000001\) הזה (תרגיל למשועממים – מצאו \(n\) שכזה). על סיטואציה שכזו אומרים שהסדרה \(1-\frac{1}{2^{n}}\) שואפת ל-1; היא לא בהכרח מגיעה ל-1, אבל לכל רמת קרבה שרק נרצה שהיא תתקרב בה ל-1 מבלי שתגיע אליו ממש, מובטח לנו שמתישהו זה יקרה (התנאי המדוייק שמגדיר שאיפה למספר כלשהו הוא טיפה יותר מורכב וכבר פירטתי עליו בעבר).

הסיטואציה שמתוארת בבדיחה היא הלעגה של אחד מהפרדוקסים של זנון, ש"מוכיח" שאכילס לא מסוגל לחצות חדר. על הפרדוקסים כתבתי כבר בפוסט נפרד ולא אחזור על כך כאן – הבאתי את הבדיחה בתור חימום לנושא האמיתי של הפוסט, שהוא סכום תמים למראה באופן דומה, אך מטעה וחמקמק למדי.

נניח שכעת אנחנו מנסים למדוד את צעדינו באופן הבא: בצעד הראשון נפסע מרחק של 1. בשני מרחק של \(\frac{1}{2}\). בשלישי מרחק של \(\frac{1}{3}\); ברביעי מרחק של \(\frac{1}{4}\) ובאופן כללי, בצעד ה-\(n\) נפסע מרחק של \(\frac{1}{n}\). די ברור שאחרי צעד אחד כבר נעבור מרחק של 1; גם ברור שאחרי ארבעה צעדים נעבור מרחק של 2, אבל מכאן ואילך המאמץ שנדרש מאיתנו כדי לעבור את 3 הוא גדול למדי, והמאמץ לעבור את 4 גדול עוד יותר, וכן הלאה וכן הלאה. אם כן, מה המספר המקסימלי שעוד נצליח לעבור? איזה חדר הוא גדול מספיק כדי שלא נוכל להגיע לקצה השני שלו? זו השאלה שלפנינו. בניסוח פורמלי, מדברים על הסכום \(1+\frac{1}{2}+\frac{1}{3}+\dots+\frac{1}{n}+\dots\), שמכונה "הטור ההרמוני" ונכתב בקיצור כ-\(\sum_{n=1}^{\infty}\frac{1}{n}\) ושואלים מהו סכום הטור הזה – למה הוא שואף באותו מובן של קודם.

כאן אפשר לחלק את בני האדם לשלושה סוגים: יש את אלו שאומרים שמובן מאליו שסכום הטור יהיה אינסוף כי יש בו אינסוף איברים. אלא שכבר ראינו דוגמה לטור שבו הטענה הזו שגויה בתכלית – \(\sum_{n=1}^{\infty}\frac{1}{2^{n}}\) שעליו דיברנו קודם מתכנס ל-1 ולא לאינסוף. לכן מי שטוען שהטור אינסופי מסיבה זו פשוט אינו "משתתף במשחק" שלנו ואינו דובר את אותה שפה כמונו; כבר עסקתי פעם בבלוג באדם מסוג זה.

הסוג השני, המתמטיקאי, יגיד שסכום הטור הזה הוא אינסוף, אבל שהדבר אינו מובן מאליו כלל וכלל, ויש להוכיח זאת. והוא גם יציג הוכחה או שתיים. אני מתעתד לעשות זאת בפוסט הזה. כדי להבהיר עד כמה הטענה הזו בלתי מובנת מאליה רק אעיר שעבור הטור \(\sum_{n=1}^{\infty}\frac{1}{n^{\alpha}}\) כאשר \(\alpha\) הוא מספר ממשי כלשהו הגדול ממש מ-1 (\(\alpha>1\)), הטור כן מתכנס ("מתכנס" פירושו שסכומו קטן מאינסוף). כלומר, \(\sum_{n=1}^{\infty}\frac{1}{n}\) הוא "כמעט" מתכנס וזה לא מובן כלל מאליו שהוא מתקלקל כך.

ויש את הסוג השלישי של אנשים, שיטענו שהטור מתכנס, ואולי אף יציגו מספר שהוא סכום הטור. בפורום של הבלוג התפתח דיון שכזה עם אדם הטוען שסכום הטור ההרמוני הוא 137 – דיון שאין דרך לסווג אותו מלבד "דיון קלאסי עם טרחן מתמטי כפייתי". אנסה להציג משהו מהטיעונים שלו אחרי שיסתיים החלק המתמטי של הפוסט הזה.

הבה ונעבור להסבר מדוע הטור אינו מתכנס. ראשית, אינם חייבים לסמוך עלי – במהלך הדיון בפורום ניתן קישור למאמר שמציג 20 הוכחות שונות לתוצאה הזו. שנית, צריך להסביר מה בעצם אני מנסה להוכיח. לומר שהטור מתכנס לאינסוף פירושו (במקרה הספציפי הזה; ההגדרה הכללית היא מעט יותר מסובכת) שלכל מספר טבעי \(k\) שרק תגידו לי, אוכל לתת לכם מספר איברים כלשהו \(n\) כך שאחרי שסוכמים \(n\) איברים מקבלים סכום שגדול מ-\(k\). למשל, עבור \(k=137\), שהוא הסכום המשוער שהזכרתי קודם, אפשר לראות שאם נסכום \(2^{300}\) איברים נקבל תוצאה שגדולה מ-137. איך? למה? מאיפה המספר הזה הגיע? זה מה שנראה עכשיו. ראשית כל, הנה המחשה ציורית של ההוכחה, שמציגה בבירור את הרעיון המרכזי בה – קיבוץ איברים:

\(1+\frac{1}{2}+\frac{1}{3}+\frac{1}{4}+\frac{1}{5}+\frac{1}{6}+\frac{1}{7}+\frac{1}{8}+\dots>\)

\(1+\frac{1}{2}+\left(\frac{1}{4}+\frac{1}{4}\right)+\left(\frac{1}{8}+\frac{1}{8}+\frac{1}{8}+\frac{1}{8}\right)+\dots=\)

\(1+\frac{1}{2}+\frac{1}{2}+\frac{1}{2}+\dots\)

כעת נעבור לתיאור יותר מדויק של מה שקורה כאן. לצורך נוחות, הבה ונסמן ב-\(H_{n}\) את מה שמקבלים אחרי שסוכמים את \(n\) האיברים הראשונים של הטור. המספר הזה נקרא "המספר ההרמוני ה-\(n\)-י". לא קל לחשב במדוייק את הערכים של ה-\(H_{n}\)-ים ולכן במקום זה נותנים להם חסם תחתון – משהו שמובטח ש-\(H_{n}\) יהיה גדול ממנו. ההוכחה הפשוטה ביותר לכך שהטור ההרמוני אינו מתכנס, שנמצאה כבר במאה ה-14, מתבססת על שיטה פשוטה ויפה לתת חסם תחתון ל-\(H_{n}\)-ים: נסתכל רק על ה-\(n\)-ים שהם חזקות של 2, כלומר \(H_{2^{n}}\), לכל \(n\ge0\) . כדי לקבל תחושה, הבה ונתבונן באיברים הראשונים:

\(H_{2^{0}}=1\)

\(H_{2^{1}}=1+1\cdot\frac{1}{2}\)

\(H_{2^{2}}=1+\frac{1}{2}+\frac{1}{3}+\frac{1}{4}>1+\frac{1}{2}+\left(\frac{1}{4}+\frac{1}{4}\right)=1+2\cdot\frac{1}{2}\)

רגע, רגע, רגע – מה עשינו עבור \(H_{2^{2}}\)? ויתרנו על חישוב מדוייק שלו ובמקום זה הלכנו על חסם תחתון. אמרנו שאפשר לקחת את \(\frac{1}{3}+\frac{1}{4}\) ולהשתמש בשיקול הבא: \(\frac{1}{3}\) הוא גדול מ-\(\frac{1}{4}\) ולכן \(\frac{1}{3}+\frac{1}{4}>\frac{1}{4}+\frac{1}{4}=\frac{1}{2}\). הצמצום הזה עוזר לנו לחשב את החסם. כדי לראות זאת יותר בבירור הבה ונסתכל על המספר ההרמוני הבא בתור:

\(H_{2^{3}}=H_{2^{2}}+\frac{1}{5}+\frac{1}{6}+\frac{1}{7}+\frac{1}{8}>H_{2^{2}}+4\left(\frac{1}{8}\right)>1+2\cdot\frac{1}{2}+\frac{1}{2}=1+3\cdot\frac{1}{2}\)

מה עשינו כאן? אמרנו ש-\(H_{2^{3}}\) שווה בדיוק ל-\(H_{2^{2}}\) ובנוסף כל האיברים ה"חדשים" שלא הופיעו ב-\(H_{2^{2}}\) – שהם כל האיברים מהצורה \(\frac{1}{k}\) עבור \(2^{2}<k\le2^{3}\). זה כבר מכתיב לנו את הדרך למקרה הכללי: נניח שהוכחנו ש-\(H_{2^{k}}\ge1+\frac{k}{2}\) ואנחנו רוצים למצוא חסם על \(H_{2^{k+1}}\), מה עושים? ראשית, כותבים \(H_{2^{k+1}}=H_{2^{k}}+\frac{1}{2^{k}+1}+\frac{1}{2^{k}+2}+\dots+\frac{1}{2^{k+1}}\). כעת, הסכום \(\frac{1}{2^{k}+1}+\frac{1}{2^{k}+2}+\dots+\frac{1}{2^{k+1}}\) כולל בדיוק \(2^{k+1}-2^{k}=2^{k}\) איברים, והאיבר הקטן ביותר מביניהם הוא \(\frac{1}{2^{k+1}}\), כך שאנו מקבלים את החסם \(H_{2^{k+1}}\ge H_{2^{k}}+\frac{2^{k}}{2^{k+1}}\ge1+\frac{k}{2}+\frac{1}{2}=1+\frac{\left(k+1\right)}{2}\). בעצם הוכחנו כאן באינדוקציה שלכל \(k\) טבעי מתקיים \(H_{2^{k}}\ge1+\frac{k}{2}\), וזהו זה – עבור \(k\) גדול מספיק אפשר לעבור כל מספר טבעי שמפריע לנו.

נחזור לדוגמת ה-137: עבור \(k=300\) מקבלים \(H_{2^{300}}\ge1+\frac{300}{2}=151\). כך שלמעשה, \(2^{300}\) הוא מספר גדול מדי של איברים; אפשר היה להסתפק בהרבה פחות. כמה פחות? בדיוק פתרון המשוואה \(1+\frac{k}{2}>137\), ובמילים אחרות – \(k=273\). אם כן, הוכחנו שהטור ההרמוני עובר את 137 ב-\(H_{2^{273}}\), ובאותה דרך בדיוק נוכל לרמוס כל טענה שהטור ההרמוני מתכנס לסכום סופי אחר.

לאלו מכם שאינם מפחדים מלוגריתמים ואסימפטוטיקה, זוהי הזדמנות לראות שההוכחה הזו גם אומרת לנו משהו על קצב הגידול של \(H_{n}\): אם \(n=2^{k}\) אז \(k=\lg n\) ולכן \(H_{n}\ge1+\frac{\lg n}{2}=\lg\left(2\sqrt{n}\right)\). למעשה, זה חסם תחתון די גרוע – המספרים ההרמוניים מתנהגים בערך כמו \(\ln\left(n\right)\) (ועוד תיקון כלשהו).

ההוכחה הבאה שאציג היא לטעמי לא פחות מיפהפיה, ומספקת הדגמה נוספת לאופן שבו שימוש באקספוננט יכול לפשט בעיות חיבוריות על ידי הפיכתן לכפליות (מוטיב נפוץ למדי בתורת המספרים…). הרעיון הוא לא לחשב את \(H_{n}\) ישירות, אלא את \(e^{H_{n}}\) (כאשר \(e^{x}\) היא פונקצית האקספוננט שכתבתי עליה לא מזמן). גם כאן נצטרך לבצע קירוב כלשהו כדי לקבל נוסחה יפה, ונשתמש בכך ש-\(e^{x}>1+x\) לכל \(x>0\) (אי השוויון מובן מאליו אם זוכרים ש-\(e^{x}=1+x+\frac{x^{2}}{2!}+\frac{x^{3}}{3!}+\dots\) – פשוט לקחנו את שני האיברים הראשונים).

ובכן: \(e^{H_{n}}=e^{\sum_{k=1}^{n}\frac{1}{k}}=\prod_{k=1}^{n}e^{\frac{1}{k}}>\left(1+1\right)\left(1+\frac{1}{2}\right)\left(1+\frac{1}{3}\right)\cdots\left(1+\frac{1}{k}\right)=2\cdot\left(\frac{3}{2}\right)\cdot\left(\frac{4}{3}\right)\cdots\left(\frac{k+1}{k}\right)=k+1\).

השורה האחת הזו מסיימת את הסיפור. למי שלא הבין את המעבר שבו נעלמים הפלוסים -\(1+\frac{1}{k}=\frac{k+1}{k}\) באופן כללי, ולכן כאן מתקבל \(1+\frac{1}{2}=\frac{3}{2}\) וכן הלאה. המעבר האחרון נובע מכך שהמכפלה שקיבלנו היא "מכפלה טלסקופית" שבה כל איבר מצמצם את האיבר הבא: \(2\cdot\frac{3}{2}=3\), ו-\(3\cdot\frac{4}{3}=4\) וכן הלאה.

הוכחה אלגנטית ומקסימה נוספת מתבצעת בשלילה: מניחים שהטור ההרמוני אכן מתכנס למספר ממשי \(S\) כלשהו, ומשתמשים במניפולציות שמותר לבצע על טורים מתכנסים כדי להגיע לסתירה. הרעיון פשוט: אם \(1+\frac{1}{2}+\frac{1}{3}+\frac{1}{4}+\dots=S\) אז אפשר לכפול את שני האגפים בחצי ולקבל \(\frac{1}{2}+\frac{1}{4}+\frac{1}{6}+\frac{1}{8}+\dots=\frac{S}{2}\). שימו לב שבאגף שמאל יש לנו בדיוק את האיברים ה"זוגיים" של הטור ההרמוני והם מתכנסים בדיוק למחצית מסכום הטור ההרמוני. מסקנה? גם האיברים הנותרים, האי זוגיים, מתכנסים למחצית הטור ההרמוני, כלומר \(1+\frac{1}{3}+\frac{1}{5}+\dots=\frac{S}{2}\). אלא מה? כל איבר בטור האי זוגיים גדול ממש מהאיבר המתאים לו בטור הזוגיים: \(1>\frac{1}{2}\), \(\frac{1}{3}>\frac{1}{4}\) וכן הלאה. על כן לא ייתכן שסכום שני הטורים זהה – ההפרש חייב להיות לפחות \(\frac{1}{2}\)! (כי ההפרש בין שני האיברים הראשונים הוא \(\frac{1}{2}\) והאיברים הבאים רק מגדילים אותו).

הערה או שתיים לסיום החלק המתמטי. ראשית, חבל להזכיר את התבדרות הטור ההרמוני בלי להזכיר הקשר רחב יותר שבו הטור ההרמוני מופיע – פונקצית הזטה של רימן, שמוגדרת כ-\(\zeta\left(s\right)=\sum_{n=1}^{\infty}\frac{1}{n^{s}}\) עבור \(s>1\) (ובאופן יותר מחוכם עבור ערכים אחרים של \(s\), כולל מרוכבים). התבדרות הטור ההרמוני מראה כי \(\zeta\left(1\right)=\infty\), ואפשר לנצל את התופעה הזו, למשל, כדי להוכיח (בצורה מסובכת יחסית, אמנם) את קיומם של אינסוף ראשוניים; ווריאציה מחוכמת על ההוכחה הזו מובילה למשפט דיריכילה על ראשוניים בסדרות חשבוניות. בקיצור, מדובר בנושא מעניין.

עוד דבר הוא שיש דברים "חלשים יותר" מהטור ההרמוני שעדיין מתבדרים. הדוגמה הקלאסית היא הטור \(\sum\frac{1}{p}\) שבו משתתפים רק אותם איברים של הטור ההרמוני שמתאימים למספרים ראשוניים. במובן מסויים זה מראה כי יש כמות "אינסופית גדולה יחסית" של ראשוניים (ומצד שני, כדאי לזכור שכמות הראשוניים איננה מאותו סדר גודל של כמות הטבעיים אלא בערך לוגריתמית).

אוקיי, בואו נעבור לטרחנות. כאמור. מה אפשר לומר על מי שטוען שהטור מתכנס? ראשית, צריך לברר איתו האם הוא מדבר על אותו מושג התכנסות כמונו. יש תורה עשירה ויפה שעוסקת בטורים שמתבדרים על פי ההגדרה הקלאסית, אבל קיימות הגדרות מוכללות להתכנסות שעל פיהן הם אכן מתכנסים. כך למשל הטור \(1-1+1-1+1-\dots\) הידוע לשמצה אינו מתכנס בהגדרה הקלאסית, אך כן יש משמעות מסויימת לאמירה שסכומו הוא \(\frac{1}{2}\) (לא אכנס לכך כעת, אבל אינטואיציה כפולה: ראשית, הסכומים החלקיים של הטור הם \(1,0,1,0,\dots\) והממוצע שלהם הוא \(\frac{1}{2}\); שנית, אם מפתחים את \(\frac{1}{1-x}\) לטור פורמלי מקבלים \(1+x+x^{2}+\dots\) וכשמציבים \(x=-1\) מקבלים את הטור המדובר, וכשמציבים ב-\(\frac{1}{1-x}\) את הערך \(x=-1\) מקבלים \(\frac{1}{2}\)).

בדיון עם טרחנים לרוב כאן יקיץ הקץ על המתמטיקה – הם לא יספקו אף פעם הגדרה כלשהי ל"התכנסות", ולו בגלל שהגדרה כזו תקבע כללי משחק שעל פיהם הם מפסידים. בדרך כלל הם יעברו לשימוש בטרמינולוגיה הפרטית שלהם. הבה ונעבור לתיאור קצר של הדיון בפורום, עם אחד המכנה את עצמו א. עצבר (שם שודאי יהיה מוכר לכל מי שעוקב קצת אחרי דיוני מתמטיקה באינטרנט הישראלי), על הטור ההרמוני (דיון שהתפתח מדיון על נושאים אחרים, כמו זה שפאי אינו קבוע אלא משתנה ושאין מספרים אי רציונליים). הטיעון מתחיל ב:

ויש עוד אגדה, והיא טוענת שאין מספר גבול, לסכום מספרי תג שאין להם סוף.

"מספרי תג" בהקשר זה הם פשוט הופכיים של מספרים טבעיים. כלומר, \(n^{\prime}=\frac{1}{n}\). דומני שהסימון הזה איננו המצאה של עצבר, אך בכל מקרה הוא איננו סטנדרטי ואין שום טעם להשתמש בו בהקשר הנוכחי. זו המחשה להבדלי הטרמינולוגיות בין המתמטיקאי והטרחן – בין מי שרוצה שיבינו אותו, ובין מי שלא ברור מה הוא רוצה. כמובן שגם הדיבורים על "אגדה" אינם מבשרים טובות.

הטיעון נמשך ב:

אני מחזיק בדעה כי הטור ההרמוני מתכנס, והשערתי היא שהוא מתכנס ל 137.

זה כמובן לגיטימי לכשעצמו, רק תלוי מהם הנימוקים. אלא שהם כלל לא מגיעים בשום שלב שהוא. אם כן, מתבקש להציג את אחת מההוכחות שלעיל. אז מה שעושים הוא לנסות להציג לעצבר את הגרסה בת השורה האחת של שיטת קיבוץ האיברים (הדבר הראשון שהראיתי). התגובה לכך היא מרתקת:

ההוכחה הזו הופכת דעכן לטור מונוטני, אבל הפיכה זו אינה אפשריתזו אינה הוכחה.

א.עצבר.

שימו לב להכנסת המושג החדש "דעכן" (מושג שאינו קיים בשום מקום, למיטב ידיעתי) ולאופן שבו הפסילה נעשית – הפיכה זו אינה אפשרית, וחסל. כמו תמיד, הקו המפריד בין טרחן ומתמטיקאי אינו כה מובהק – גם מתמטיקאי יכול לפסול הוכחות שמבוססות על מניפולציות של טורים; אלא שהמתמטיקאי ככל הנראה יספק הפניה או אזכור כלשהו של הסיבה לכך שהמניפולציות אינן חוקיות, למשל משפט רימן. מניפולציית כינוס האיברים של הטור ההרמוני היא חוקית לחלוטין, וכבר הראיתי דרך פשוטה לחשוב עליה שאינה כוללת התעסקות עם טורים אינסופיים כלל, כך שהפסילה של עצבר לא קשורה למציאות – אבל היא נחרצת לחלוטין, ופשוט מתעלמת מתוכן ההוכחה.

השלב הבא בדיון עם הטרחן הוא לבקש ממנו, אם כן, להתייחס לתוכן ההוכחה. התגובה שלו פשוטה – חזרה על ההוכחה בטרמינולוגיה שלו, וסיום עם משפט המחץ:

זו בערך ההוכחה שאתה מציג, ואני משאיר לך למצוא לבד את נקודת התורפה שלה.

זו הנקודה שבה אי אפשר שלא להתחיל לתהות האם הטרחן אינו סתם טועה, אלא ממש מנסה ללעוג למתדיינים עמו (אפשרות סבירה בהחלט).

אבל אז הדיון (אחרי עוד כמה וכמה הודעות מבוזבזות) מגיע לתפנית מפתיעה – עצבר כותב פירוט של הנימוק שלו לכך שהטור מתכנס, והנימוק הזה הוא מרתק. אצטט קטע מדיאלוג ארוך שעצבר כותב כדי להמחיש את הרעיון:

לוי: הדעכן ההרמוני הזה 2' 3' 4' 5' 6' 7' 8'מתחיל עם מספרי הדעיכה הבאים 66.0 75.0 8.0 0.833 0.86 0.87

ראובן: אני רואה שמספר הדעיכה מתחיל ב 0.66 והוא נוסק לעבר 1

לוי: אם מספר הדעיכה ישאר 0.66 יש נוסחה לחישוב הסכום

ואם מספר הדעיכה יגיע ל 0.75 וישאר קבוע, יש נוסחה לחישוב הסכום

ואם מספר הדעיכה יגייע ל 0.8 וישאר קבוע, יש נוסחה לחישוב הסכום

לכן, שינוי מספר הדעיכה לא משנה את העובדה שיש לדעכן מספר סכום, אבל כאשר מספר הדעיכה משתנה, אין לנו נוסחה לחישוב הסכום.

מה שמכונה "מספרי דעיכה" הם היחסים בין איברים עוקבים בסכום. אכן, \(\frac{1}{3}/\frac{1}{2}=0.66\dots\), ו-\(\frac{1}{4}/\frac{1}{3}=0.75\dots\) וכן הלאה. עוד אומר עצבר נכון שאם "מספר הדעיכה" של טור הוא קבוע, אז הטור מתכנס – זו דרך מסובכת להציג את המושג המוכר של טור הנדסי מתכנס. למעשה, צריך להיות מדוייקים – "מספר הדעיכה" של הטור צריך להיות קבוע וקטן מ-1 (הטור \(1+2+4+8+\dots\) הוא טור הנדסי בעל "מספר דעיכה" 2 והוא אינו מתכנס). אלא שעצבר מבצע כעת קפיצה מחשבתית איומה: המחשבה שאם עבור מספר דעיכה קבוע הטור מתכנס תמיד, זה אומר שגם עבור מספר דעיכה משתנה הטור מתכנס תמיד – טענה שגויה לחלוטין. והוא עוד מגדיל לעשות ואומר:

כל דעכן דועך אל האפס,יש דעכן הדועך אל האפס במספר דעיכה קבוע

ויש דעכן הדועך אל האפס במספר דעיכה משתנה

ואיזה הבדל עקרוני יכול להיות בינהם ?

איזה הבדל? כל ההבדל שבעולם! ההבדל בין טור מתכנס וטור מתבדר! וזו מהות השגיאה של עצבר – חוסר היכולת לבצע את ההבדלה הזו. הקפיצה הגסה הזו מעל דברים "מובנים מאליהם" שבעצם אינם מובנים כלל מאליהם ודורשים הצדקה קפדנית. זה לב הבעיה – לא השימוש בטרמינולוגיה פרטית וגם לא היוהרה והדיבורים על "אגדות" וכדומה – אלא עצימת העיניים כאשר העובדות לא מסתדרות עם התיאוריה.

לסיום רק אעיר שבאופן כללי הטעות שעצבר מבצע היא טעות נפוצה למדי בקרב מי שעדיין לא פיתח אינטואיציה מתמטית סבירה. עצבר מבצע קפיצה מחשבתית מהצורה "אם משהו מתקיים לכל מספר טבעי, הוא מתקיים גם באינסוף". במקרה שלו – אם "נקפיא" את מספר הדעיכה של הטור אחרי מספר סופי של צעדים, הטור יתכנס; אז אם זה קורה כשמקפיאים בכל שלב, למה שזה לא יתכנס גם כשהולכים לאינסוף?

שגיאה דומה (אבל בלבוש ערמומי יותר) צצה במקומות רבים במתמטיקה שבהם משתמשים באינסוף. אתן דוגמה או שתיים. ראשית, נניח שיש לנו סדרה \(a_{n}\), ומתקיימת התכונה שלכל \(n\) טבעי, מתקיים \(\inf\left\{ a_{1},a_{2},\dots,a_{n}\right\} >0\), כלומר האינפימום של \(n\) האיברים הראשונים בקבוצה הוא גדול מאפס. האם ניתן להסיק מכך שהאינפימום של הקבוצה כולה גדול מאפס? בפירוש לא, והסדרה \(a_{n}=\frac{1}{n}\) מראה זאת בבירור (מה שכן ניתן לעשות הוא לומר שהאינפימום של הקבוצה כולה הוא גדו או שווה לאפס).

דוגמה מתחום שונה לגמרי – בתורת החישוביות מראים כי כל שפה שיש בה רק מספר סופי של מילים היא כריעה (שפה היא קבוצת מילים; להכריע שפה פירושו להריץ אלגוריתם שבהינתן מילה תמיד מסיים את ריצתו עליה ואומר אם היא שייכת לשפה או לא). עכשיו בואו ניקח שפה \(L\) כלשהי ונסתכל על \(L_{n}\) – כל המילים ב-\(L\) שאורכן לכל היותר \(n\). אז כל \(L_{n}\) שכזו היא כריעה, אבל זה ממש לא אומר ש-\(L_{\infty}\) (שהיא בעצם \(L\)) תהיה גם כן כריעה, כי ייתכן מאוד ש-\(L\) המקורית לא הייתה כריעה. כאן שוב הזינוק מ-\(n\) עד לאינסוף הורס לנו את הכל. האינסוף הוא יצור חמקמק.

זה כמובן לא אומר שאף פעם לא ניתן לבצע את הזינוק הזה. דוגמה ידועה היא משפט הקומפקטיות מלוגיקה – אם יש לנו אוסף אינסופי של פסוקים, וכל תת קבוצה סופית שלהם היא ספיקה, אז גם האוסף כולו ספיק. כאן אכן מספיק להבין מה קורה במקרה הסופי כדי לזנק למקרה האינסופי. קיימות עוד תכונות קומפקטיות שכאלו, אך קיומן הוא אף פעם לא מובן מאליו ותמיד צריך להיות זהירים – וזהירות היא בדיוק מה שחסר לטרחנים המתמטיים, לדעתי. זה, ואולי גם בורג.

קבוצת קנטור, ואיך לכל הרוחות המימד שלה הוא בערך 0.63?

מהו מימד? זו שאלה שכבר התייחסתי אליה בעבר, ואז אמרתי כי "יש הגדרות שונות לאותו מושג אינטואיטיבי, שמנסות להשיג מטרות שונות". אז עסקתי בהגדרה הנאיבית והפשוטה ביותר של מימד, ואילו הפעם אני רוצה לדבר על הגדרה מסובכת יותר, שנוטה לגרום לאנשים לחוש תחושת "מה לעזאזל" כשהם שומעים לראשונה על תוצאותיה – מימד פרקטלי. ומדוע "מה לעזאזל"? כי המימד הפרקטלי של קבוצות עשוי שלא להיות מספר טבעי – למעשה, ברוב המקרים הוא אינו טבעי, אלא מספר אי רציונלי כלשהו. כך למשל קבוצת קנטור, שאותה אציג בפוסט הזה, היא בעלת מימד פרקטלי של בערך \(0.63\). מה ההגיון שמאחורי דבר כזה?

נתחיל בהגדרת קבוצת קנטור. ההגדרה נראית מוזרה למדי, וקרוב לודאי שתתהו בשביל מה כל זה טוב; ובכן, לצורך כך יהיה צורך בפוסט נפרד שמתאר את האופן שבו גאורג קנטור גילה את תורת הקבוצות, על המוזרויות שבה, כחלק ממחקר "קלאסי" באנליזה מתמטית. השימוש שלו בקבוצת קנטור (שלא התגלתה על ידו) היה כדי לתת דוגמה פתולוגיות ונוגדת אינטואיציה, בשל התכונות המעניינות שלה שעל חלקן אדבר כאן.

ובכן, מהי קבוצת קנטור? הבניה שלה ניתנת לתיאור באופן אלגוריתמי למדי. מתחילים עם הקטע \(\left[0,1\right]\) בישר הממשי, שאותו נסמן \(C_{0}\). כעת מורידים ממנו את השליש האמצעי, אך מותירים את נקודות הקצה. כלומר, מורידים מ-\(C_{0}\) את \(\left(\frac{1}{3},\frac{2}{3}\right)\). התוצאה? \(C_{1}=\left[0,\frac{1}{3}\right]\cup\left[\frac{2}{3},1\right]\).

כעת קיבלנו קבוצה, \(C_{1}\), אשר מורכבת משני קטעים. הבה ונתעלל בהם באותו האופן שבו התעללנו ב-\(C_{0}\) – מכל אחד משניהם נוריד את השליש האמצעי. כלומר, מ-\(\left[0,\frac{1}{3}\right]\) אנחנו מורידים את \(\left(\frac{1}{9},\frac{2}{9}\right)\), ואילו מ-\(\left[\frac{2}{3},1\right]\) אנחנו מורידים את \(\left(\frac{7}{9},\frac{8}{9}\right)\). התוצאה? \(C_{2}=\left[0,\frac{1}{9}\right]\cup\left[\frac{2}{9},\frac{1}{3}\right]\cup\left[\frac{2}{3},\frac{7}{9}\right]\cup\left[\frac{8}{9},1\right]\). קיבלנו כעת ארבעה קטעים. שימו לב שכולם מאותו האורך, ולמעשה – שקל לתאר במפורש מהם. לצורך כך אכתוב את \(C_{2}\) שוב, בצורה אחידה יותר: \(C_{2}=\left[\frac{0}{9},\frac{1}{9}\right]\cup\left[\frac{2}{9},\frac{3}{9}\right]\cup\left[\frac{6}{9},\frac{7}{9}\right]\cup\left[\frac{8}{9},\frac{9}{9}\right]\). אפשר אם כן לחשוב על \(C_{2}\) כעל מה שמתקבל כאשר קוצצים את \(\left[0,1\right]\) לתשעה חלקים שווי אורך, מעיפים לפח את חלקם ומשאירים את היתר.

השלב הבא יניב את \(C_{3}\), שתהיה מורכבת משמונה קטעים, כל אחד מאורך \(\frac{1}{27}\) (כי ב-\(C_{2}\) היו ארבעה קטעים וכל אחד מהם חולק לשלושה חלקים שהאמצעי מביניהם נזרק). ב-\(C_{4}\) כבר יהיו 16 קטעים מאורך \(\frac{1}{81}\), ובאופן כללי: \(C_{n}\) תורכב מ-\(2^{n}\) קטעים, כל אחד מאורך \(\frac{1}{3^{n}}\). מה קיבלנו? סדרת קבוצות, \(C_{0},C_{1},C_{2},\dots\) כך שכל קבוצה מוכלת בקודמת – \(C_{0}\supset C_{1}\supset C_{2}\supset\dots\). קבוצת קנטור מתוארת בתור מה שמתקבל "בסוף" התהליך האינסופי הזה; כדי להגדיר זאת באופן מתמטי מדוייק, מגדירים אותה בתור החיתוך של כל אינסוף הקבוצות הללו, דהיינו \(C=\bigcap_{i=0}^{\infty}C_{i}\). במילים – קבוצת קנטור \(C\) תכיל את כל הנקודות שאינן מסולקות אף פעם מ-\(\left[0,1\right]\), בכל התהליך שתיארנו – אלו בדיוק הנקודות שנמצאות בכל קבוצה \(C_{n}\) שמתקבלת במהלך התהליך. השאלה היא מהן הנקודות הללו, ואם הן בכלל קיימות.

הנה ציור המדגים את שלבי הבניה הראשונים של הקבוצה:

ציור של האיטרציות הראשונות בבניית קבוצת קנטור

כמו שאפשר לראות, מהר מאוד הקבוצה הופכת להיות דלילה למדי, בלי קטעים "שמנים". דרך פורמלית לתאר זאת היא על ידי חישוב המידה הכוללת של כל הקטעים שמוצאים מתוך הקבוצה. מידה של קטע, לצורך הדיון הזה, תהיה פשוט אורכו – אין לנו צורך בהגדרה מורכבת יותר. באיטרציה הראשונה מסולק מ-\(C_{0}\) הקטע \(\left(\frac{1}{3},\frac{2}{3}\right)\) שאורכו \(\frac{1}{3}\); באיטרציה השניה מסולקים הקטעים \(\left(\frac{1}{9},\frac{2}{9}\right)\) ו-\(\left(\frac{7}{9},\frac{8}{9}\right)\) – שני קטעים שאורכם \(\frac{1}{9}\); ובאופן כללי, באיטרציה ה-\(n\) מסולקים \(2^{n-1}\) קטעים שאורכם \(\frac{1}{3^{n}}\) כל אחד, ולכן האורך הכולל שלהם הוא \(\frac{2^{n-1}}{3^{n}}\). שימו לב שכל הקטעים הללו זרים זה לזה, ולכן המידה של האיחוד של כולם שווה לסכום המידות שלהם, ולא סתם מהווה חסם עליון עבורו, ומכאן שניתן לחשב אותה במדוייק: המידה הכוללת של כל הקטעים שאותם מוציאים מקבוצת קנטור היא \(\sum_{n=1}^{\infty}\frac{2^{n-1}}{3^{n}}\), או בסימון פשוט מעט יותר, \(\sum_{n=0}^{\infty}\frac{2^{n}}{3^{n+1}}\). אלא שאת הסכום הזה ניתן לחשב במדוייק, אם שמים לב לכך שזהו פשוט טור הנדסי אינסופי מתכנס: \(\sum_{n=0}^{\infty}\frac{2^{n}}{3^{n+1}}=\frac{1}{3}\sum_{n=0}^{\infty}\left(\frac{2}{3}\right)^{n}=\frac{1}{3}\cdot\frac{1}{1-\frac{2}{3}}=\frac{1}{3}\cdot\frac{1}{\frac{1}{3}}=1\).

אם כן, מה שקיבלנו הוא שבמהלך בניית קבוצת קנטור, הוצאנו מ-\(\left[0,1\right]\) את "כל האורך". זה גורר מיידית שמידת קבוצת קנטור היא אפס, שכן \(\mu\left(C\right)+\mu\left(\overline{C}\right)=\mu\left(C\cup\overline{C}\right)=\mu\left(\left[0,1\right]\right)=1\) (למעשה, זה תלוי בהגדרה שלנו של מידה, כי ייתכן שקבוצת קנטור לא תהיה מדידה – אך עם מידות סטנדרטיות, ובפרט מידת לבג שהיא מה שאני חושב עליו כל הזמן, אין בעיה שכזו).

התוצאה הזו אינה מוזרה לכשעצמה, והיא אף מסתדרת עם האינטואיציה שלנו לגבי האופן שבו כל הקטעים ה"שמנים" סולקו מ-\(C\); אולם הזבנג הראשון מגיע כשבודקים מי הנקודות שנותרו ב-\(C\) ומגלים שנותרו המון מהן – למעשה, \(C\) מכילה מספר שאינו בן מניה של נקודות. במילים אחרות, ה"גודל" של \(C\) שווה ל"גודל"של \(\left[0,1\right]\)! אפשר לתת התאמה חד-חד ערכית ועל בין כל נקודה של \(\left[0,1\right]\) ובין כל נקודה של \(C\)! זוהי המחשה חזקה מאוד לאופן שבו מושג ה"גודל" (או יותר במדוייק – העוצמה) של קבוצה הוא מנותק ממושג המידה של קבוצה (הוא אינו בלתי תלוי לחלוטין – כבר הראיתי כאן בעבר כי קבוצה בת מניה היא בהכרח ממידה אפס; מה שמפתיע כאן הוא שגם קבוצות שאינן בנות מניה עשויות להיות ממידה אפס).

בואו נבדוק איך נקודה יכולה לשרוד את הבניה של קבוצת קנטור. למשל, הנקודה \(\frac{1}{3}\). בסיבוב הראשון היא נותרת בחיים כי היא נקודת הקצה הימנית של הקטע השמאלי מבין השניים שמתקבלים; בסיבוב השני הקטע הזה נחתך במרכזו לשתי חתיכות, ו-\(\frac{1}{3}\) תהיה בקצה החתיכה הימנית, הרחק משדה הקטל. גם בסיבוב הבא החתיכה שבה היא נותרה תיחתך לשניים, אבל \(\frac{1}{3}\) תהיה בקצה, הרחק משדה הקטל; וכן הלאה וכן הלאה. כלומר, הסכנה האמיתית ל-\(\frac{1}{3}\) נשקפה לה רק בסיבוב הראשון, שם היא הייתה על קצה שדה הקטל; אבל משם ואילך אין לה שום סכנה, והיא תמיד מרוחקת מרחק כלשהו מהקטל – מרחק של \(\frac{1}{3^{n}}\). אמנם, זה מרחק ששואף לאפס, אבל זה מבטיח ש-\(\frac{1}{3}\) תהיה בכל קבוצה \(C_{n}\), ולכן תהיה לבסוף גם ב-\(C\).

אבל \(\frac{1}{3}\) היא דוגמה משעממת, שכן היא מתקבלת מתישהו כנקודת קצה של אחד מהקטעים ב-\(C_{n}\) כלשהי (במקרה שלנו, ב-\(C_{1}\)). המשחק המחשבתי שעשינו מראה שכל נקודת קצה כזו תישאר, אבל מספר הנקודות הללו הוא זניח – בן מניה. הסיבה לכך היא שב-\(C_{n}\) יש בסה"כ \(2^{n+1}\) נקודות קצה שכאלו (ב-\(C_{n}\) יש \(2^{n}\) קטעים, כל אחד עם \(2\) נקודות קצה), ולכן מספר נקודות הקצה הכולל לכל \(C_{n}\) הוא סופי, ולכן מספר נקודות הקצה הכולל לכל ה-\(C_{n}\)-ים ביחד הוא בן מניה (איחוד בן מניה של קבוצות סופיות הוא בן מניה). בקיצור, הרוב המוחץ של הנקודות ב-\(C\), אם היא אכן לא בת מניה כפי שאני טוען, מגיע מנקודות שאינן נקודות קצה. זה כבר משוגע למדי ונוגד אינטואיציה בצורה חריפה – הרי אמרנו שמסלקים מ-\(C\) את כל ה"תוכן"- אנחנו מוציאים מתוכה קווים שאורכם הכולל הוא 1 – איך ייתכן שיוותרו ב-\(C\) נקודות שאינן נקודות קצה? אינטואיטיבית הן צריכות להיות ב"אמצע" הדרך בין שתי נקודות קצה, כלומר על קו כלשהו!

הבה ונתבונן בנקודה \(\frac{1}{4}\). מכיוון ש-\(\frac{1}{4}<\frac{1}{3}\), הרי ש-\(\frac{1}{4}\) נופלת בתוך \(\left[0,\frac{1}{3}\right]\) ושורדת את הסיבוב הראשון. מה קורה בסיבוב השני? ובכן, חייבים לעשות כאן חשבונות קטנוניים. אנחנו רוצים להשוות את \(\frac{1}{4}\) לנקודות מהצורה \(\frac{k}{9}\), והדרך לעשות זאת היא עם מכנה משותף – \(\frac{1}{4}=\frac{9}{36}\), ואילו \(\frac{k}{9}=\frac{4k}{36}\), ולכן קל לראות ש-\(\frac{2}{9}<\frac{1}{4}<\frac{3}{9}\), כלומר הוא שורד גם את הסיבוב השני – הוא נמצא בחלק הימני של \(\left[0,\frac{1}{3}\right]\). בסיבוב הבא \(\frac{1}{4}\) שורד כי הוא בקטע \(\left[\frac{6}{27},\frac{7}{27}\right]\), שהוא החלק השמאלי של \(\left[\frac{2}{9},\frac{3}{9}\right]\). אתם אולי כבר יכולים לנחש מה יקרה מכאן ואילך – \(\frac{1}{4}\) יתפספס פעם אחת כי הוא יימצא בחלק הימני ובפעם הבאה כי הוא יהיה בחלק השמאלי של הקטע שחותכים; הסיבה שהוא שורד היא שהוא אף פעם לא נמצא בקטע האמצעי. כיצד ניתן לתאר זאת בצורה מדוייקת? לצורך כך אנו מכניסים לתמונה מושג חדש – הפיתוח הטרינרי של איברי \(\left[0,1\right]\).

כזכור, פיתוח עשרוני של מספר הוא פשוט סדרת ספרות בין 0 ל-9. לצורך העניין אנחנו מדברים רק על מספרים בתחום \(\left[0,1\right]\), כך שלכולם יש פיתוח מהצורה \(0.a_{1}a_{2}a_{3},\dots\); הפיתוח הזה מסמל שהמספר הוא בדיוק \(\sum_{n=1}^{\infty}\frac{a_{n}}{10^{n}}\). באופן דומה, פיתוח טרינרי של מספר ישתמש בספרות 0,1,2 בלבד, ואז הסכום המתאים יהיה \(\sum_{n=1}^{\infty}\frac{a_{n}}{3^{n}}\).

בואו ונחזור ל-\(\frac{1}{4}\). איך מגלים מה הפיתוח שלו בבסיס טרינרי? ובכן, ספרה-ספרה. האם הספרה הראשונה היא 0, 1 או 2? אם היא הייתה \(1\), אז \(\frac{1}{4}\) היה מהצורה \(\frac{1}{3}\) ועוד משהו; ואם היא הייתה \(2\) הוא היה מהצורה \(\frac{2}{3}\) ועוד משהו. מכיוון שהוא קטן משניהם, אז הספרה הראשונה חייבת להיות \(0\). באופן כללי, אם אנחנו מחפשים את הפיתוח של \(a\), אז הספרה הראשונה נקבעת לפי השאלה האם \(a\in\left[0,\frac{1}{3}\right]\) (ואז היא 0) או ש-\(a\in\left[\frac{1}{3},\frac{2}{3}\right]\) (ואז היא 1) או ש-\(a\in\left[\frac{2}{3},1\right]\) (ואז היא 2). בוודאי שמתם לב למשהו מוזר בטיעון שלי – אם \(a=\frac{1}{3}\), אז מהי הספרה הראשונה שלו? 0 או 1? התשובה היא ששתי הספרות אפשריות, אבל המשך הפיתוח יהיה תלוי בכך – אם היא תהיה 1, אז המשך הפיתוח יהיה כולו אפסים, ולכן הפיתוח יהיה סופי. אני מעוניין לדבר כאן על פיתוחים אינסופיים בלבד, ולכן לא ארשה את הסיטואציה הזו. במילים אחרות, תמיד אקח את הספרה הקטנה יותר מבין אלו האפשריות.

נניח שהסכמנו שהספרה הראשונה היא \(a_{1}\), מה שאומר ש-\(a\in\left[\frac{a_{1}}{3},\frac{a_{1}+1}{3}\right]\). מה תהיה הספרה השניה, \(a_{2}\)? לצורך כך נחלק את הקטע \(\left[\frac{a_{1}}{3},\frac{a_{1}+1}{3}\right]\) שוב לשלושה חלקים, ו-\(a_{2}\) תיקבע לפי המיקום של \(a\) בחלוקה הזו – \(a_{2}=0\) אם הוא בחלק השמאלי, \(a_{2}=1\) אם הוא באמצעי, ו-\(a_{2}=2\) אם הוא בימני.

כל זה מבלבל למדי, ולכן מומלץ למי שלא הצליח לעקוב לחשוב על דוגמה פשוטה יותר במספרים טבעיים. נניח, המספר \(153\) בבסיס עשרוני. היכן הוא נמצא? ראשית, אם נחלק את התחום \(\left[0,1000\right]\) לעשרה חלקים שווים, נגלה שהוא נמצא בשני מביניהם – החלק \(\left[100,200\right]\); לאחר מכן נחלק תחום זה לעשרה חלקים שווים ונקבל שהמספר נמצא בחלק השישי – \(\left[150,160\right]\); ואז נחלק תחום זה לעשרה חלקים שווים ונקבל שהוא ברביעי מביניהם, \(\left[153,153\right]\). במילים אחרות, כל ספרה נוספת של המספר "משפרת את הדיוק" שלנו בנוגע לתחום שבו המספר עשוי להימצא, כשבכל פעם התחום הזה קטן פי עשרה (או במקרה של פיתוח טרינרי, פי שלושה).

כעת קל לאפיין את כל הנקודות שנמצאות בקבוצת קנטור – אלו בדיוק הנקודות שאף פעם לא נופלות באמצע קטע, בשום שלב בפיתוח שלהן. לכאורה "ליפול באמצע קטע" פירושו שמופיע 1 בפיתוח הטרינרי של הנקודה, אבל זה לא בהכרח אומר שהנקודה אכן נופלת באמצע; אם אחרי ה-1 מופיעים רק 0-ים או 2-ים, אז הנקודה לא נמצאת באמת באמצע קטע אלא "בקצה של קטע אמצעי" כלשהו (חשבו על הנקודה 2/3; אפשר לחשוב עליה כנמצאת בקצה הימני של הקטע האמצעי מבין השלושה שמתקבלים בתחילת הבניה של קבוצת קנטור; וכמובן, אפשר לחשוב עליה גם כנמצאת בקצה השמאלי של הקטע הימני מבין השלושה). אם בפיתוח של נקודה מופיע 1 אבל לאחר מכן רק סדרה אינסופית של 0 או סדרה אינסופית של 2, אז אפשר להחליף את הפיתוח הזה בפיתוח אחר שבו לא מופיע 1 (כי 1 ואז אינסוף אפסים אפשר להחליף באפס ואז אינסוף 2-ים; ו-1 ואז אינסוף 2-ים אפשר להחליף ב-2 ואז אינסוף אפסים). לכן הקריטריון לשייכות לקבוצת קנטור הוא זה: כל נקודה שיש לה פיתוח טרינרי שבו לא מופיע 1, שייכת לקבוצת קנטור.

כעת קל לראות כי קבוצת קנטור איננה בת מניה – פשוט שמים לב לכך שמספר הסדרות האינסופיות שאבריהן הן \(0,2\) איננו בן מניה, וחסל. זוהי תוצאה מפתיעה מאוד, אך בסופו של דבר אני סבור שהאינטואיציה יכולה להסתדר איתה.

כעת נעבור לדבר על המימד של קבוצת קנטור, ולצורך כך יש להסביר את ההגדרה שבה אני עומד להשתמש – מימד פרקטלי. מימד פרקטלי הוא מקרה פרטי של מושג כללי וחזק יותר, שנקרא מימד האוסדורף; מכיוון שהגדרתו מסובכת למדי לא אציג אותו כאן בשלב זה.

הגדרות למימד מנסות בדרך כלל להזדהות עם ההגדרה הנאיבית שלנו למימד של קבוצות "רגילות". במימד 1, היא קו; בשני מימדים, ריבוע הוא הקבוצה הרגילה הפשוטה ביותר שהיא ממימד 2, ובשלושה מימדים – קובייה, וכן הלאה. מה מבדיל בין היצורים הללו? הנה דרך יפה לחשוב על כך: אם ניקח קו ישר ונחתוך אותו באמצע, נקבל שני קווים ישרים שאורך כל אחד מהם הוא חצי מאורך הקו המקורי. כלומר, אפשר לחשוב על הקו כאילו הוא מורכב משני עותקים של עצמו, שגודל כל אחד מהם הוא חצי מגודל הקו המקורי. לעומת זאת, אם ניקח ריבוע ונחתוך אותו באמצע, נקבל שני מלבנים, שאינם דומים לריבוע; אבל אם נחתוך גם אותם באמצע, מה שנקבל הוא ארבעה ריבועים שנראים כמו הריבוע המקורי, פרט לכך שהם כווצו "פי 2" הן מבחינת אורכם והן מבחינת רוחבם. ואם ניקח קוביה וננסה לבנות אותה מקוביית קטנות יותר שכווצו "פי 2"נראה שאנו נזקקים לשמונה קוביות. אפשר גם לחשוב על כך בכיוון ההפוך – נניח שניקח קוביה (או ריבוע, או קו) ונכפיל את גודלו "פי 2"- כמה עותקים של היצור המקורי נקבל? לא קשה להוכיח כי נקבל \(2^{d}\) עותקים, כש-\(d\) הוא המימד של הקבוצה המדוברת (זכרו, אנחנו עדיין עוסקים בקבוצות פשוטות – קוביות \(d\) מימדיות).

המספר 2 נכנס לסיפור הזה בצורה שרירותית לגמרי. מה היה קורה אם היינו מנפחים את הריבוע פי 3 ולא פי 2? אז היינו מקבלים 9 עותקים של הריבוע המקורי, במקום 4. במילים אחרות , אם מנפחים פי 3, מקבלים \(3^{d}\) עותקים. ואם מנפחים פי \(k\) באופן כללי, מקבלים \(k^{d}\) עותקים.

מכאן הדרך להגדרה כללית אינה קשה. אם אנו לוקחים אובייקט ומנפחים אותו פי \(a\), ומקבלים \(b\) עותקים של האובייקט המקורי, איך ניתן להגדיר את המימד באמצעות \(a,b\)? ובכן, אנו מצפים שיתקיים הקשר \(b=a^{d}\), כלומר \(d=\log_{a}\left(b\right)\). מכיוון שבמתמטיקה קל לבטא לוגריתם בבסיס כלשהו באמצעות הלוגריתם הטבעי \(\ln\) (למעשה, אפשר לבטא בקלות לוגריתם בבסיס כלשהו באמצעות לוגריתם בבסיס אחר) כותבים הגדרה זו בתור \(d=\frac{\ln b}{\ln a}\). כמובן שמתעוררת השאלה האם לכל ניפוח ב-\(a\) אכן נקבל \(b\) שהוא \(a^{d}\), או שעבור ערכים שונים של \(a\) נקבל ערכים של \(b\) ש"מתנהגים מוזר" ואינם בהכרח \(a^{d}\) עבור אותו \(d\) כל הזמן; אבל לקבוצות שעליהן אדבר, התכונה הזו כן מתקיימת. למרות שדיברתי על ניפוח, אפשר לחשוב על כך גם באופן ההפוך – \(a\) מתאר פי כמה אנחנו מקטינים את הקבוצה, ו-\(b\) מתאר כמה עותקים של הקבוצה המוקטנת מרכיבים את הקבוצה המקורית.

המימד הזה נקרא "מימד פרקטלי" שכן הגדרתו מדברת על יצורים שהם פרקטלים – יצורים שאפשר לחשוב עליהם כאילו הם מורכבים מעותקים קטנים יותר של עצמם. בדרך כלל כשמדברים על פרקטלים לא חושבים על יצורים משעממים כמו קו או ריבוע, ואני מקווה לכתוב מתישהו פוסט שיציג פרקטלים יותר ברצינות.

כעת הבה ונחיל את ההגדרה הזו על קבוצת קנטור. גם על קבוצת קנטור אפשר לחשוב כאילו היא מורכבת מעותקים קטנים יותר של עצמה, כלומר שהיא פרקטל – מדוע? כי הבה ונסתכל במה שקורה לקבוצת קנטור אחרי האיטרציה הראשונה, כלומר בקבוצה \(C_{1}\); היא מורכבת משני קטעים, כל אחד מהם באורך \(\frac{1}{3}\), שמעתה והלאה מה שעומדים לעשות איתם הוא לסלק להם את האמצע, ולשאריות יסלקו את האמצע, וכו' וכו' – כלומר, יופעל עליהם אותו תהליך שהופעל על קבוצת קנטור המקורית. במילים אחרות, אפשר לחשוב על קבוצת קנטור כאילו היא מתקבלת מאיחוד של שתי קבוצות קנטור קטנות יותר. כמה קטנות יותר? פי 3, שהרי אורך הקטע שממנו הבניה מתחילה עבור הקבוצות הקטנות יותר הוא קטן פי 3 מאורך הקטע שבו התחילה הבניה המקורית. במילים אחרות, במקרה שלנו \(a\) הוא 3, ואילו \(b\) הוא 2. מכאן שהמימד הוא \(d=\frac{\ln2}{\ln3}\). אבל מספר זה לא רק שאינו שלם, הוא אף אינו רציונלי. אם ניקח את הספרות הראשונות שלו נקבל \(0.6309297\dots\), וזה המספר שהבטחתי בהתחלה.

כלומר, קבוצת קנטור היא לא אפס ממדית – היא "גדולה יותר"מיצור אפס-ממדי, כלומר מנקודה. זה משתלב טוב עם האינטואיציה שלנו שהקבוצה היא "גדולה" כי יש בה מספר לא בן מניה של נקודות. מצד שני, קבוצת קנטור היא גם לא 1-ממדית – היא "קטנה יותר" מיצור חד-ממדי, כלומר מקו. זה משתלב טוב עם האינטואיציה שלנו שהקבוצה היא "קטנה" כי המידה שלה היא 0 והוצאנו ממנה את כל ה"אורך". במילים אחרות, המימד הפרקטלי שהצגתי כאן מאפשר לנו יכולת הבחנה חדה יותר בין קבוצות "קטנות" ו"גדולות".

אני מקווה שזה משכנע אתכם שיש טעם לדבר על מימדים מסוג זה, ושיש הגיון רב בדיבור על מימדים לא שלמים. אותי, לפחות, זה משכנע.

מי הזיז את הטור שלי?

יותר מכל, המתמטיקה של זמננו זוכה לתדמית "מדוייקת", "פורמלית", אפילו צרת מוחין. טענה נפוצה בדיונים היא ש"החיים זה לא מתמטיקה" ואין טעם לבקש להכל הגדרות מדוייקות והסברים ברורים. אלא שהמתמטיקה הזו היא צעירה יחסית; אפילו המתמטיקה של המאה ה-19 לא הייתה כזו בדיוק. המתמטיקה ה"פורמלית" היא תוצר של תהליך בן אלפי שנים, שהתרחש שלא במקרה אלא מתוך הכרח.

נהוג לציין את תחילת המתמטיקה ביוונים הקדמונים. לא שחישובים לא בוצעו קודם לכן, והדוגמאות הבולטות הן המצרים והבבלים, שידעו לבצע חישובים לא טריוויאליים כלל, בהתחשב בכך שהמתמטיקה לא הייתה קיימת אז – למשל, פתרון משוואות ריבועיות. אלא שאצלם לא היה מושג כזה, "משוואה ריבועית" – היו בעיות קונקרטיות, לרוב גאומטריות במהותן, והיו אלגוריתמים שהותאמו למקרים מאוד ספציפיים ופתרו אותם. המושג של "הוכחה" לא היה קיים כלל – הנכונות של האלגוריתמים לא עניינה אף אחד (עד כמה שניתן להבין זאת מהשרידים שנותרו…), אלא רק שהם עובדים בפועל. היוונים הם אלו ששינו את התפיסה הזו והכניסו לתמונה את מושג ההוכחה – גזירה של תוצאות כלליות מתוך קבוצת אקסיומות בסיסיות שעבור היוונים, נכונותן הייתה "מובנית מאליה", וכללי גזירה פשוטים. אלא מה – האקסיומות של היוונים לא היו בדיוק מובנות מאליהן (בפרט, אקסיומה אחת – "אקסיומת המקבילים" – הייתה שנויה במחלוקת במשך אלפי שנים; כבר סיפרתי על כך בעבר כאן טיפה, ואולי ארחיב בעתיד), ובימינו הן לא היו עומדות במבחן הדקדקני של המתמטיקה בת זמננו.

לאחר תקופת היוונים עיקר העיסוק (ראשית בארצות האיסלאם בתקופת ימי הביניים, ולאחר מכן באירופה של תקופת הרנסנס) התמקד בפתרון משוואות אלגבריות, אם כי רוב המתמטיקאים עדיין השתמשו בגאומטריה עבור אינטואיציה ועבור הצדקה לנכונות הפתרונות שלהם. ואז הגיעה המאה ה-17, שבה פקדה את המתמטיקה תקופת פריחה שלא פסקה עד היום, והביאה עמה בין היתר את אחד מעמודי התווך המרכזיים של המתמטיקה: החשבון האינפיניטסימלי, שראשיתו בבעיות גאומטריות מעשיות כדוגמת חישוב המשיק לעקום, או שטח החסום על ידי עקום. החשבון האינפיניטסימלי הומצא בנפרד על ידי ניוטון ולייבניץ, ושניהם התבססו על רעיונות ותוצאות מוקדמות יותר (למעשה, אפילו מתקופת היוונים, ובפרט מהשיטות של ארכימדס). אלא שאצל שניהם הביסוס היה רעוע למדי, והמושג המרכזי – האינפיניטסימל – היה פשוט סתירתי; כשהיה נוח התייחסו אליו כאפס ולכן ניתן היה להתעלם ממנו, וכשלא היה נוח (למשל, כשחילקו בו) התייחסו אליו כאל מספר שונה מאפס. במהלך המאה ה-18 המשיכה המגמה ה"לא פורמלית" להתקיים אצל העוסקים במתמטיקה, והדוגמה הבולטת ביותר היא של אוילר, מתמטיקאי פורה באופן יוצא דופן, שעם זאת שיטותיו לא בוססו עד הסוף ובסטנדרטים המחמירים של ימינו לא היו מתקבלות על הדעת (אם כי סביר להניח שאוילר היה מושך בכתפיו, מתאמץ עוד טיפה ומציג הוכחות פורמליות שהקהילה הייתה מקבלת ללא עוררין). הצגתי דוגמה לכך בפוסט שעסק בפאי – אוילר עסק בטור חזקות אינסופי, והניח שניתן להציג אותו כמכפלה באותו האופן שניתן לעשות זאת לפולינום סופי – ללא שום הצדקה.

התפנית הגיעה במאה ה-19, כששני התורמים המרכזיים לה היו קושי ו-ויירשטראס. קושי, שפעל בתחילת המאה, ניסה לתת פורמליזציה קונקרטית יותר לחשבון האינפיניטסימלי; אצלו ניתן למצוא גרסה בסיסית של מושג הגבול, שהפך למושג המרכזי שעליו מתבסס החשבון האינפיניטסימלי (במקום האינפיניטסימל). ויירשטראס פעל יותר קרוב לסוף המאה, וגישתו למתמטיקה הייתה פורמלית עוד יותר משל קושי. הוא זה שהמציא את אופן הסימון המדוייק שבו אנו מגדירים גבולות כיום (מה שמוכר לסטודנטים בתור "אפסילון-דלתא", על שם שני הסימנים הסטנדרטיים שמופיעים בהגדרה), ולימד אותו באוניברסיטה שבה הרצה. בין תלמידיו היו מתמטיקאים משפיעים רבים, וה"אופנה" התפשטה במתמטיקה במהירות. תרמה לכך ככל הנראה העובדה שויירשטראס נהג למצוא להנאתו דוגמאות נגדיות למשפטים של עמיתיו, ששמו לצחוק את ההנחות הסמויות שהניחו בשל מחסור בפורמליזציה מלאה מספיק. על דוגמה נגדית שכזו אני רוצה לדבר בפוסט הזה, אם כי במקרה זה מדובר על משפט של רימן, לא של ויירשטראס (על הדוגמה הנגדית המפורסמת ביותר של ויירשטראס – פונקציה שרציפה בכל מקום אך אינה גזירה בשום מקום – כדאי להרחיב בפוסט נפרד) – משפט שעוסק בטורים אינסופיים, ושם לצחוק בצורה קיצונית את האינטואיציה שלנו ("שלנו", במקרה זה, מתייחס למי שאינו מפחד ממתמטיקה) לגביהם.

תזכורת קטנה לגבי מהם טורים (יש לי גם פוסט בנושא). טור סופי הוא סכום מהצורה \(a_{1}+a_{2}+\dots+a_{n}\), או בקיצור \(\sum_{i=1}^{n}a_{i}\), כאשר \(a_{i}\) הם, נניח, מספרים ממשיים. למרות שהביטוי נראה פשוט, יש תחכום כלשהו בו – פעולת ה"חיבור" אינה מוגדרת על \(n\) איברים אלא רק על שניים בכל פעם, ולכן המשמעות של \(\sum_{i=1}^{n}a_{i}\) היא כשל תוצר של תהליך: ראשית כל מבצעים את החיבור \(a_{1}+a_{2}\), מקבלים תוצאת ביניים שאכנה \(s_{2}\), ואז מחברים \(s_{2}+a_{3}\) ולתוצאה קוראים \(s_{3}\), וכן הלאה וכן הלאה. החיבור הוא פעולה אסוציאטיבית, מה שאומר שאם קודם כל מחברים את \(a_{2}\) ו-\(a_{3}\), ורק לתוצאה הזו מחברים את \(a_{1}\), נקבל עדיין את אותו הדבר: \(\left(a_{1}+a_{2}\right)+a_{3}=a_{1}+\left(a_{2}+a_{3}\right)\). בדומה, החיבור הוא גם פעולה קומוטטיבית, במובן זה ש-\(a_{1}+a_{2}=a_{2}+a_{1}\). משני אלו עולה, באמצעות אינדוקציה, שאם ניקח את \(a_{1}+a_{2}+\dots+a_{n}\) ונערבב את האיברים שלו בכל צורה שרק נרצה (למשל, את \(a_{1}+a_{2}+a_{3}+a_{4}\) נהפוך ל-\(a_{3}+a_{2}+a_{4}+a_{1}\)) עדיין נקבל את אותו הסכום – מה שהגיוני ומתאים לתפיסה שלנו לפיה \(\sum_{i=1}^{n}a_{i}\) תופס את כל האיברים "בבת אחת".

באופן דומה ניתן לגשת במתמטיקה לטיפול בסכום שיש בו אינסוף איברים (וזו אכן ההגדרה המקובלת ביותר, אם כי לא היחידה), כלומר טור מהצורה \(\sum_{n=1}^{\infty}a_{n}\), למשל \(\frac{1}{2}+\frac{1}{4}+\frac{1}{8}+\frac{1}{16}+\dots+\frac{1}{2^{n}}+\dots\), שהוא הטור המוכר מפרדוקס אכילס. הדרך הסבירה להגדיר סכום של טור שכזה היא שוב באמצעות "תוצאות ביניים": מסמנים בתור \(S_{n}=\sum_{i=1}^{n}a_{i}\), כלומר את סכום \(n\) האיברים הראשונים בטור, ואז מסתכלים על סדרת המספרים \(S_{n}\) שהתקבלה – אם היא שואפת לגבול מסויים, על פי ההגדרה הסטנדרטית של גבול (שראויה לפוסט משל עצמה – וגם קיבלה כזה – ולכן לא אחזור עליה כאן במדוייק), אז \(\sum_{n=1}^{\infty}a_{n}\) יהיה אותו הגבול. למשל, \(S_{n}\) עבור הטור של אכילס שהצגתי הוא הסכום הרגיל של סדרה הנדסית סופית, כלומר \(\frac{1}{2}\cdot\frac{\left(\frac{1}{2}\right)^{n}-1}{\frac{1}{2}-1}=1-\frac{1}{2^{n}}\), וסכום זה בבירור שואף ל-1, כך שמגדירים \(\sum_{n=1}^{\infty}a_{n}=1\). האם המספר הזה אכן ראוי לתואר הסכום של \(a_{1},a_{2},\dots\)? זוהי שאלה פילוסופית מצויינת, שדורשת קודם כל הסבר לגבי משמעות המושג "סכום". בעבר הגנתי בחירוף נפש על הזכות של הגדרה זו לתאר את הסכום; בפוסט הזה אני לא צריך להתגונן בפני אף אחד ולכן אציג דווקא ספק או שניים שעשויים להתעורר כאשר מנסים לחשוב על ההגדרה הזו כעל ההגדרה ה"נכונה".

מרגע שהגדרנו סכום, אנחנו רוצים להתחיל לחקור את התכונות שלו, והתכונה המהותית שאני רוצה לדבר עליה בפוסט הזה היא שינוי סדר האיברים בסכימה – מה שכבר ראינו שניתן לבצע ללא חשש לטורים סופיים. אינטואיטיבית לא נראה שאמורה להיות בעיה עם זה – הרי סכום תופס את כל האיברים "בבת אחת", אז מה זה משנה אם יש אינסוף איברים בטור? ואכן, כל עוד היחס לאינפי היה לא ריגורוזי, שינויים כאלו בוצעו בלי הרבה הסתבכויות. אלא שאנחנו פדנטים, וכל דבר שרוצים לעשות – צריך להוכיח במפורש.

אם ננסה לקחת את ההוכחה שלנו עבור טורים סופיים ולהחיל אותה על טורים אינסופיים, אנחנו בבעיה. מה בעצם ההוכחה שלנו הייתה? ראינו כי אפשר לקחת זוג איברים סמוכים בטור ולהחליף את מקומם מבלי לשנות את סכום הטור. בעזרת סדרת החלפות שכזו ניתן לבצע כל פרמוטציה שרק נרצה על אברי הסכום (כל פרמוטציה סופית ניתנת לכתיבה כמפלה סופית של החלפות). אלא שעבור טורים אינסופיים אנחנו בצרות – כל מה שאנחנו יכולים להראות הוא שניתן להחליף את מקומם של מספר סופי של איברים בטור ולא לשנות את סכומו. הרי זה מה שהוכחה באינדוקציה עושה: אנחנו יכולים להראות כי לכל \(k\) טבעי, אחרי שמבצעים \(k\) החלפות על הטור, סכומו אינו משתנה; אבל לא נובע מכך שעבור אינסוף החלפות סכום הטור יישאר זהה. כדי לטעון טענה בסגנון הזה – טענה שמסוגלת לקפוץ מנכונות-למספר-סופי אל נכונות-עבור-אינסוף צריך להשתמש בגרסה חזקה יותר של מושג האינדוקציה – האינדוקציה הטרנספיניטית – אלא שכדי להשתמש בה צריך להוכיח טענות יותר חזקות (בפרט, צריך יהיה להוכיח "בידיים" שאם לכל \(k\) טבעי זה עובד, אז גם עבור הסודר האינסופי הקטן ביותר – \(\omega\) – זה עובד) ולכן היא לא רלוונטית כרגע. השורה התחתונה – ההוכחה למקרה הסופי לא תופסת את המקרה האינסופי כמו שצריך. עלינו לחפש הוכחה אחרת.

במקרה אחד (מרכזי) הוכחה אחרת אכן קיימת ואינה מסובכת במיוחד – אם כל האיברים \(a_{n}\) הם אי שליליים (\(a_{n}\ge0\) לכל \(n\)). הבה ונקרא \(b_{n}\) לאיברים של \(a_{n}\) אחרי שעברו "סידור מחדש" כלשהו (גם כזה שכולל הזזה של אינסוף איברים). מה שאנחנו רוצים להראות הוא ש-\(\sum_{n=1}^{\infty}a_{n}=\sum_{n=1}^{\infty}b_{n}\). הבה ונסמן \(s_{n}=\sum_{i=1}^{n}a_{n}\) ובדומה \(t_{n}=\sum_{i=1}^{n}b_{n}\), וכמו כן נסמן \(S=\lim_{n\to\infty}s_{n}\) (כלומר, \(S=\sum_{n=1}^{\infty}a_{n}\)). אז הדרך הפורמלית לומר ש-\(S=\sum_{n=1}^{\infty}b_{n}\) היא לומר כי לכל \(\varepsilon>0\) קיים \(M\) כך שלכל \(m>M\) מתקיים \(\left|S-t_{m}\right|<\varepsilon\). בואו ונראה למה, בהינתן \(\varepsilon>0\) שכזה, אכן קיים \(M\) המבוקש.

האינטואיציה היא זו: מכיוון ש-\(a_{n}\) הם חיוביים, אז \(S\) חייב להיות מורכב מסכום של כמה איברים "גדולים" שהם אלו שתורמים את עיקר הגודל ל-\(S\), ומספרם סופי, ועוד אינסוף איברים "קטנים". אם נבחר \(M\) גדול מספיק כך שגם אחרי הסידור-מחדש של \(b_{n}\), \(t_{m}\) כבר מכיל בסכום את כל אותם איברים "גדולים", אז \(S-t_{m}\) יהיה חייב להיות קטן. זה הרעיון, וכעת אפשר לפרמל אותו.

מכיוון ש-\(s_{n}\to S\), אז על פי הגדרת הגבול קיים \(N\) כך שמתקיים \(\left|S-s_{N}\right|<\frac{\varepsilon}{2}\) (למה חצי? ראיית הנולד שתכף תתבהר). \(s_{N}\) כולל בתוכו את כל האיברים ה"גדולים", ולכן האיברים ה"קטנים" יהיו כל ה-\(a_{N+1},a_{N+2}\) וכן הלאה. כעת ניקח \(M\) כך ש-\(b_{1},b_{2},\dots,b_{M}\) מכילים בתוכם בפרט את כל האיברים \(a_{1},a_{2},\dots,a_{N}\) (במילים אחרות, \(M\) הוא המקסימום על קבוצת האינדקסים של "לאן \(a_{1}\) עובר? ולאן \(a_{2}\) עובר?" וכו'). כעת ניקח \(m>M\), ומטרתנו בחיים היא להראות ש-\(\left|S-t_{m}\right|<\varepsilon\) – אם נצליח, סיימנו. כדי לעשות זאת משתמשים בתעלול אינפי סטנדרטי: \(\left|S-t_{m}\right|=\left|S-s_{N}+s_{N}-t_{m}\right|\le\left|S-s_{N}\right|+\left|s_{N}-t_{m}\right|<\frac{\varepsilon}{2}+\left|s_{N}-t_{m}\right|\). מה שנותר, אם כן, הוא להראות ש-\(\left|s_{N}-t_{m}\right|<\frac{\varepsilon}{2}\). הרעיון מאחורי זה: \(t_{m}\) כולל כבר את כל אברי \(s_{N}\), ולכן \(\left|s_{N}-t_{m}\right|\) הוא בעצם גודלם של כל האיברים שנותרו ב-\(t_{m}\) מעבר לכך, ואמרנו שהם קטנים יחסית.

אם כן, מהו \(\left|s_{N}-t_{m}\right|\)? כאמור, \(t_{m}\) כבר כולל את כל אברי \(s_{N}\), ולכן כדי לחסום את ההפרש אפשר להשתמש בכל יתר אברי הסדרה המקורית, \(a_{n}\). במילים אחרות, \(\left|s_{N}-t_{m}\right|\le\left|a_{N+1}\right|+\left|a_{N+2}\right|+\dots\). כאן סוף סוף נשתמש בכך שהסדרה חיובית: \(\left|a_{i}\right|=a_{i}\) לכל \(a_{i}\), כך שקיבלנו כי \(\left|s_{N}-t_{m}\right|\) חסום על ידי זנב של הטור \(\sum_{n=1}^{\infty}a_{n}\). אבל הרי אמרנו כי \(\left|S-s_{N}\right|<\frac{\varepsilon}{2}\), ו-\(\left|S-s_{N}\right|=\left|a_{N+1}+a_{N+2}+\dots\right|=a_{N+1}+a_{N+2}+\dots\) הוא בדיוק גודלו של זנב הטור המבוקש, כך שסיימנו.

כמו שקורה לעתים קרובות במתמטיקה, ההוכחה שלנו כוונה למקרה פרטי מסויים – טור חיובי – אבל למעשה היא עובדת עבור מחלקה רחבה יותר של טורים: כל טור שעבורו \(\sum_{n=1}^{\infty}\left|a_{n}\right|\) מתכנס. השינוי שצריך לעשות בהוכחה כדי שתעבוד גם במקרה זה הוא עדין אך מחוכם: את \(N\) צריך לבחור כך שיתקיים בו זמנית כי \(\left|S-s_{N}\right|<\frac{\varepsilon}{2}\) (וכך אכן בחרנו את \(N\) קודם) וכמו כן יתקיים ש-\(\sum_{i=1}^{\infty}\left|a_{i}\right|-\sum_{i=1}^{N}\left|a_{i}\right|<\frac{\varepsilon}{2}\), כלומר שהזנב של טור הערכים המוחלטים יהיה קיים. קודם קיבלנו תכונה זו בחינם, מכיוון שטור הערכים המוחלטים היה שווה לטור המקורי, אבל באופן כללי זה לא כך.

טור כזה, שעבורו \(\sum_{n=1}^{\infty}\left|a_{n}\right|\) מתכנס, נקרא טור מתכנס בהחלט (Absolutely convergent), וזה שם מתאים ביותר. נסכם אם כן את מה שראינו עד כה: אם טור מתכנס בהחלט, אז אפשר לשנות ללא חשש את סדר הסכימה של איבריו ומובטח שנקבל את אותו הסכום. אבל מה קורה אם יש לנו טור שהוא מתכנס, אך לא מתכנס בהחלט – האם גם אז ניתן לשנות את סדר הסכימה? והאם קיימים בכלל טורים כאלו? התשובה לשאלה השנייה היא "כן" ותכף נראה דוגמה; והתשובה לשאלה הראשונה היא משפט רימן המדובר, והיא "לא" זועק.

הטור \(1+\frac{1}{2}+\frac{1}{3}+\frac{1}{4}+\dots\) מכונה "הטור ההרמוני" (לא חשוב כרגע למה). הוא הדוגמה הפשוטה ביותר לטור שמצד אחד, האיבר הכללי שלו (\(\frac{1}{n}\)) שואף לאפס, ועם זאת הוא אינו מתכנס אלא שואף לאינסוף – כלומר, לכל \(M\) טבעי, אם נסכום מספיק איברים של הטור, נעבור את \(M\). דרך נאה לראות זאת היא באמצעות קיבוץ איברים: \(1+\frac{1}{2}>\frac{1}{2}\), כמובן; \(\frac{1}{3}+\frac{1}{4}>2\cdot\frac{1}{4}=\frac{1}{2}\) (כי שני האיברים בסכום גדולים או שווים ל-\(\frac{1}{4}\)); \(\frac{1}{5}+\frac{1}{6}+\frac{1}{7}+\frac{1}{8}>4\cdot\frac{1}{8}=\frac{1}{2}\); וכן הלאה וכן הלאה. בכל פעם נקבץ קבוצה גדולה פי 2 של איברים, ונוסיף \(\frac{1}{2}\) לסכום שלנו, ומכאן שהסכום גדל עוד ועוד עד אינסוף, אם כי בקצב שהולך ונעשה איטי יותר ויותר עם הזמן – כמות האיברים שצריכים לקבץ בכל פעם כדי להגדיל את הסכום ב-\(\frac{1}{2}\) שווה לכמות כל האיברים שקיבצנו עד כה. למי שזה נשמע לו מוכר בצורה כלשהי, זה לא מקרי; אפשר להראות שהסכום הזה מתנהג בערך כמו \(\ln x\), שגם היא פונקציה ששואפת לאינסוף, אך לאט.

כעת אפשר להכניס לתמונה משפט של לייבניץ מתורת הטורים – אם \(a_{n}\) היא סדרת מספרים חיוביים ששואפת מונוטונית לאפס, אז הטור \(\sum_{n=1}^{\infty}\left(-1\right)^{n+1}a_{n}\), שמתקבל על ידי כך ששמים לסירוגין סימן חיובי וסימן שלילי על המספרים, מתכנס. לא אוכיח את המשפט כרגע (הוכחה טכנית ואינה קשה במיוחד), אלא אתמקד בשורה התחתונה: הטור \(1-\frac{1}{2}+\frac{1}{3}-\frac{1}{4}+\frac{1}{5}-\dots\) מתכנס, וזאת למרות שאם לוקחים את הערכים המוחלטים של אברי הטור מקבלים את הטור ההרמוני, שאינו מתכנס. דהיינו – מצאנו טור שמתכנס אך אינו מתכנס בהחלט. אגב, לא רק שהטור מתכנס, אנחנו יודעים אפילו את סכומו, בעזרת פיתוח טיילור של \(\ln\): \(\ln\left(1+x\right)=x-\frac{x^{2}}{2}+\frac{x^{3}}{3}-\frac{x^{4}}{4}+\dots\) כאשר \(-1<x\le1\), ולכן על ידי הצבת \(x=1\) בטור מקבלים שסכום הטור ההרמוני המתחלף הוא \(\ln\left(2\right)\).

וכעת הבה ונראה דבר מה מוזר. נסמן את סכום הטור ההרמוני המתחלף ב-\(A\) (כאמור, \(A=\ln2\) אבל למה להסתבך). כעת בואו ונשנה את סדר הסכימה של הטור ההרמוני המתחלף לדבר המוזר הבא: \(1-\frac{1}{2}-\frac{1}{4}+\frac{1}{3}-\frac{1}{6}-\frac{1}{8}+\frac{1}{5}-\frac{1}{10}+\dots\). במילים אחרות – ראשית כל איבר אחד חיובי מהטור, ואז שני איברים שליליים. אז האיבר החיובי הבא, ואז שני האיברים השליליים הבאים, וכן הלאה. שימו לב לכך שבסכום הזה, האיבר החיובי תמיד שווה לפי 2 האיבר השלילי שבא אחריו (נסו להוכיח זאת לעצמכם), כך שמתקבל הטור \(\frac{1}{2}-\frac{1}{4}+\frac{1}{6}-\frac{1}{8}+\frac{1}{10}-\dots\). האם הטור הזה נראה מוכר? בוודאי: הוא שווה ל-\(\frac{1}{2}\left(1-\frac{1}{2}+\frac{1}{3}-\frac{1}{4}+\dots\right)\), כלומר לחצי הטור ההרמוני המתחלף, ולכן סכומו הוא \(\frac{A}{2}\). אבל רגע אחד – איך זה ייתכן? נובע מכך ש-\(A=\frac{A}{2}\) וזה קורה רק אם \(A=0\), אבל כבר אמרנו שלא זה המצב. מכאן ששינוי סדר הסכימה של הטור שינה את סכומו של הטור. באנג! האינטואיציה שלנו הלכה לפח ברגע זה ממש.

אם כן, כשיש לנו טור שמתכנס אך לא מתכנס בהחלט, הסדר שבו סוכמים את הטור הוא קריטי למציאת סכום הטור. זה אומר שקשה, אולי בלתי אפשרי, לחשוב על סכום הטור הזה כעל מה שמקבלים כאשר מחברים את כל איבריו "בבת אחת" – חיבור בבת אחת שכזה אמור להתעלם מהסדר שבו מחברים איברים פרטניים של הטור. אם כן, במקרה זה הטור שלנו לא מצליח לייצג סכום במובן הרגיל שבו אנחנו מבינים אותו, אלא לכל היותר לתאר תהליך מסויים.

משפט רימן מראה שהאנומליה הזו היא לא מקרית, ושלא מדובר כאן על איזו התחכמות אד-הוקית. הניסוח שלו הוא פשוט: אם \(\sum_{n=1}^{\infty}a_{n}\) הוא טור שמתכנס אך לא מתכנס בהחלט, אז ניתן על ידי שינוי סדר איבריו לקבל טור \(\sum_{n=1}^{\infty}b_{n}\) שמתכנס לאן שאנחנו רוצים. דהיינו, אם \(t\) הוא מספר ממשי כלשהו, אז אפשר לשנות את סדר הסכימה ולקבל טור שמקיים \(\sum_{n=1}^{\infty}b_{n}=t\); וכמו כן אפשר על ידי שינוי סדר הסכימה לקבל \(\sum_{n=1}^{\infty}b_{n}=\infty\) או \(\sum_{n=1}^{\infty}b_{n}=-\infty\); ואפשר גם שהטור לא יתכנס כלל אלא "יזפזפ" בין כמה ערכים שונים. בקיצור, אם מרשים לשנות את סדר הסכימה של טור מתכנס שאינו מתכנס בהחלט, אפשר לקבל כל דבר שרוצים.

מי היה מאמין שמוקש כל כך מטורף מסתתר לו מאחורי פעולה תמימה יחסית כמו שינוי סדר הסכימה של טור? מי היה מאמין שהאינטואיציה שאנחנו מקבלים מהמקרה הסופי יכולה להישבר בכזו אכזריות? יש כאן לקח חשוב מאוד, לטעמי, ולא רק למתמטיקה אלא לחיים בכלל – לא לקחת דברים כמובנים מאליהם. תמיד לחקור, לשאול שאלות, לאתגר, ולהיזהר מאוד ממה שמרגיש לנו אינטואיטיבית "דומה". האינטואיציה שלנו היא חבר נאמן והיא גם הכלי הראשון שאנחנו מפעילים בהתמודדות עם כל בעיה שהיא; אבל ההסתמכות העיוורת עליה מסוכנת בצורה יוצאת דופן, ולכן היא גם צריכה להיות הדבר הראשון שבו אנו מטילים ספק תמיד. המתמטיקה זרועה במוקשים דומים, ולטעמי אחד מסימני ההיכר של המתמטיקה המודרנית היא הסירוב העקשני להיכנע לאינטואיציה, במאמץ לחשוף את המוקשים הללו, טריוויאליים ככל שייראו. זו גם הסיבה למאמץ הכביר שהשקיעו מתמטיקאים בתחילת המאה ה-20 בנסיון למצוא פורמליזציה מלאה למתמטיקה – הסרת החשש ממוקשים שכאלו. אם אכן ניתן להשתמש במתמטיקה כדי לחנך לערכים, זהו הערך שאני רוצה ללמד כאן.

אחרי כל הנאום הזה, מתבקש להוכיח במפורש את משפט רימן. לא אציג הוכחה פורמלית כי היא פשוט ניסוח טכני לא מחכים יותר מדי של הרעיון אותו אציג, שהוא פשוט אך יפה. הרעיון בבסיסו הוא לחשוב על הטור כמורכב משני טורים – טור אחד של כל האיברים החיוביים, וטור שני של כל האיברים השליליים. שני הטורים הללו הם אינסופיים ואינם מתכנסים, שכן כבר ראינו שטור שכל איבריו חיוביים ומתכנס גם מתכנס בהחלט (כי אין שום הבדל בין הטור ובין טור ערכיו המוחלטים), ובדומה גם טור שכל איבריו שליליים ומתכנס חייב גם להתכנס בהחלט (למה?). במילים אחרות, טור האיברים החיוביים שואף לאינסוף, וטור האיברים השליליים שואף לאינסוף.

בואו נניח שאנחנו רוצים להשאיף את הטור שלנו ל-\(\pi\). מה שנעשה יהיה כך: ראשית ניקח איברים מטור הערכים החיוביים עד שסכומם יעבור את \(\pi\) (מכיוון שהטור שואף לאינסוף, אחרי שניקח מספיק איברים מובטח לנו שנעבור את \(\pi\)). כעת ניקח איברים מטור האיברים השליליים עד שנרד שוב מתחת ל-\(\pi\); ועכשיו שוב ניקח איברים מטור האיברים החיוביים עד שנעלה מעל ל-\(\pi\), וכן הלאה וכן הלאה. סדרת הסכומים החלקיים של הטור שאנו בונים מבצעת ריקוד סביב \(\pi\) – עולה מעליו, ואז שוב יורדת, ואז עולה מעליו, ואז שוב יורדת. הפאנץ' הוא שגודל התנודות שהסדרה מבצעת חייב לקטון עם הזמן, מכיוון שאיברי שני הטורים החלקיים קטנים עם הזמן, וגודל התנודה חסום על ידי גודל האיברים הללו.

כל מי ששיחק גולף ודאי מבין מה הולך כאן. כדי להגיע לחור \(\pi\) אנחנו נותנים סדרת חבטות לכדור שלנו, שהולך ומתקרב אל החור, בסופו של דבר אנחנו מאוד קרובים אל החור ונותנים עוד חבטה אחת אחרונה – אבל היא חזקה קצת יותר מדי, והכדור עובר את החור ומגיע לצידו השני. עכשיו אנחנו צריכים לתת סדרת חבטות מהכיוון השני, ושוב – החבטה האחרונה מפספסת את החור וכן הלאה. מה שחשוב הוא שה"טעות" שלנו – גודל התנודה – נקבע רק על פי החבטה האחרונה, שמקפיצה אותנו לצד השני של החור – ומכיוון שהחבטות הולכות ונחלשות עם הזמן, גם גודל התנודה קטן עם הזמן. וזהו.

באופן דומה בונים סדרה ששואפת לאינסוף. הפעם אפשר לנקוט בתעלול הבא: נניח שהאיברים השליליים ממוספרים כ-\(c_{1},c_{2},c_{3},\dots\), אז ראשית כל נחבר מספיק איברים חיוביים כדי לעבור את \(1-c_{1}\) (שימו לב: \(c_{1}\) שלילי, כך ש-\(1-c_{1}\) גדול יותר מ-1) ואז נוסיף את \(c_{1}\) כך שנרד לכל היותר עד 1; ועכשיו נחבר מספיק איברים כדי לעבור את \(2-c_{2}\), וכן הלאה; באופן כללי אחרי שהוספנו את \(c_{n-1}\) נחבר מספיק איברים חיוביים כדי לעבור את \(n-c_{n}\), מה שמבטיח שהסדרה שלנו עולה עוד ועוד לאינסוף ואף פעם לא גולשת למטה "יותר מדי". לסיום, כדי לגרום לטור פשוט לא להתכנס נזפזפ בין שני ערכים – נניח, \(\pi\) ו-0.

זוהי כל ההוכחה, ואחרי שכבר מכירים אותה היא נראית טבעית ופשוטה מאוד יחסית. האינטואיציה שלי לפחות חיה איתה טוב מאוד. ועם זאת, אותה אינטואיציה סירבה בתוקף להכיר בקיום המשפט לפני שראיתי את ההוכחה. אם כן, זה המסר שאני רוצה להעביר – אינטואיציה זה חשוב, אבל רק כשמקיימים איתה דיאלוג. גם היא מסוגלת להודות בטעותה. זכרו זאת בפעם הבאה שמישהו יבקש מכם ללכת עם האינטואיציה עד הסוף ולא לחשוב בכלל.

נוסחת אוילר, ואיך היא קשורה למתנד הרמוני

הנוסחה \(e^{i\pi}+1=0\) זכתה לפופולריות רבה בתור "הנוסחה היפה ביותר במתמטיקה", ואני נוטה להסכים – יש משהו מאוד אלגנטי ונאה בנוסחה הזו (אמנם, אני חושב שבמתמטיקה מגיעים מתישהו לשלב שבו היופי האמיתי לא נמצא בנוסחאות, אלא ברעיונות מורכבים יותר – וכשמגיעים לשם, נוסחת אוילר מחווירה לעומת חלק מהדברים שאפשר לגלות). מה שמרשים בה הוא האופן שבו היא קושרת את חמשת הקבועים ה"בסיסיים" במתמטיקה – \(0,1,e,\pi,i\). בפוסט הזה אני מקווה להסביר מעט על האופן שבו הנוסחה הזו צצה ומדוע היא אינה עד כדי כך בלתי צפויה – במילים אחרות, מדוע סביר שיהיה קשר בין ערכים אלו דווקא. אני מקווה שאחרי היכרות קצרה עם מאחורי הקלעים של הנוסחה הזו, היא תהיה רק יפה יותר.

נתחיל מתיאור קצר של מרכיבי הנוסחה, שיושפע מהפוסטים שכתבתי לא מזמן על פונקצית האקספוננט ופונקציות הסינוס והקוסינוס. את \(1\) אין צורך להכיר לאף אחד – הוא היה קיים משחר ההיסטוריה, ומהווה את הצעד הראשון בדרך לבניית המספרים הטבעיים. לעומתו, \(0\) היה שנוי במחלוקת אלפי שנים והפך לחלק מהסטנדרט רק בסוף המאה ה-19. שניהם חשובים בהיותם מספרים "נייטרלים" ביחס לאחת מפעולות האריתמטיקה: \(0+x=x\) ו-\(1\cdot x=x\). במבנים אלגבריים שמנסים להכליל את השלמים תמיד יהיה מצוי איבר שמתפקד כ-\(0\) ואיבר שמתפקד כ-\(1\). בפרט, בהגדרה של שדה תמיד נדרש קיומם של \(0,1\) ושיהיו שונים אלו מאלו – לא נדרשים שום איברים אחרים, ובפרט גם הקבוצה \(\left\{ 0,1\right\} \) מהווה בעצמה שדה. מכאן ש-\(0,1\) הם אכן "טבעיים" ולא סתם מספרים שנבחרו שרירותית לנוסחה הזו.

המספר \(e\) הוצג בפוסט שעסק באקספוננט: כזכור, אקספוננט (\(\exp\left(x\right)\)) היא הפונקציה היחידה שנגזרתה שווה לעצמה וערכה ב-\(0\) (אחד מהמספרים ה"טבעיים" שדיברנו עליהם) הוא \(1\) (המספר ה"מעניין" השני). הראיתי בפוסט ההוא שניתן לחשוב על הפונקציה הזו כעל העלאה בחזקה של מספר מסויים: \(e\). כלומר, \(\exp\left(x\right)=e^{x}\) (ולכן \(e=\exp\left(1\right)\)).

המספר \(\pi\) כמעט ולא זקוק להצגה – הוא מוכר ביותר בתור היחס שבין היקף מעגל לקוטרו (בגאומטריה אוקלידית). בפוסטים שבהם הצגתי את הפונקציות הטריגונומטריות – סינוסים וקוסינוסים – הוא צץ באופן חצי-טבעי, תרתי משמע: הראיתי שהפונקציות הללו הן מחזוריות, עם מחזור של \(2\pi\). אם כן, מדוע הסימן המיוחד הוענק דווקא ל-\(\pi\) ולא ל-\(2\pi\) (למשל, היה אפשר לתת סימון מיוחד ליחס בין היקף מעגל לרדיוסו)? נימוק מעניין אחד הוא ששטח עיגול היחידה הוא \(\pi\) (ואכן, לפעמים נהוג להגדיר קבוע זה באמצעות שטח עיגול היחידה). נימוק מטופש אחר – אם נותנים את הסימון ל-\(\pi\), נוסחת אוילר יוצאת יפה יותר.

\(i\) הוא בכלל יצור מוזר בתכלית… אה, רגע, לא. \(i\) הוא מספר מרוכב המקיים \(i^{2}=-1\). כבר עסקתי באופן שבו המרוכבים נבנים באופן "טבעי" מהממשיים, כך שאיני הולך לחזור על הדיון הזה כעת. שאלה קצת יותר מעניינת היא מדוע הנציג ה"טבעי" ביותר של המספרים המרוכבים הוא דווקא שורש \(-1\); למה לא לקחת, למשל, שורש יחידה מסדר 3? יש שני מספרים מרוכבים לא ממשיים שכשמעלים אותם בחזקת 3 מקבלים 1: \(\omega=\frac{-1+\sqrt{-3}}{2}\) ו-\(\omega^{2}=\frac{-1-\sqrt{-3}}{2}\). המספרים הללו מעט יותר מסורבלים מאשר \(i\), שכן העלאה שלהם בריבוע לא נותנת מספר ממשי, ובכלל – הם דורשים הוצאת שורש למספר ממשי שאין לו שורש שלם (\(\sqrt{3}\)) וגועל נפש. לכן ככל הנראה יותר טבעי לבנות את המרוכבים בעזרת \(i\), שהוא שורש יחידה מסדר 4.

אם כן, אלו כל מרכיבי הנוסחה. איך מתרחש הפלא שכולם מתחברים יחד? שורש העניין נעוץ בשאלה מה בכלל המשמעות של העלאת \(e\) בחזקת מספר דמיוני – \(i\) כפול משהו. על העלאה בחזקה ממשית דיברתי די הרבה, אבל איך המרוכבים יכולים בכלל להיכנס לסיפור? זו נשמעת כמו רמאות. אני מכיר רק דרך אחת להסביר את העניין ולכן אשתמש בה, למרות שהיא מעט טכנית ועלולה להבהיל אנשים – הגרסה המלאה של נוסחת אוילר, \(e^{i\theta}=\cos\theta+i\sin\theta\). זו נוסחה שחושפת את הקשר העמוק שבין אקספוננט ובין הפונקציות הטריגונומטריות, וגם תסגור לנו פינה שנותרה פתוחה עד כה: הפתרון הכללי של משוואה דיפרנציאלית מסדר שני במקדמים קבועים (כשאין שורש מרובה – זה מקרה מסובך לכשעצמו שאין טעם לדבר עליו כעת).

נתחיל בהוכחה "יבשה" (שהיא לדעתי יפהפיה) לנוסחה הזו, ואז ננסה לתת אינטואיציה. כזכור, אנחנו עדיין תקועים עמוק בשלב שבו אנו מחפשים הגדרה בעלת משמעות ל-\(e^{i\theta}\). כזכור, ראינו כי ניתן לתאר את \(e^{x}\) באמצעות טור חזקות אינסופי: \(e^{x}=1+x+\frac{x^{2}}{2}+\frac{x^{3}}{3!}+\frac{x^{4}}{4!}+\dots\). מכיוון שקל מאוד לדבר על טורי חזקות גם בהקשר של מספרים מרוכבים, והתיאוריה עובדת גם שם פחות או יותר בשלמותה (למעשה, במובן מסויים התיאוריה יותר שלמה עבור מרוכבים, אך לא אכנס לכך כעת ברצינות – דוגמה היא התכנסות הטור של \(\frac{1}{1+x^{2}}\), שרדיוס התכנסותו הוא 1 אך בלי לדעת על קיומם של מרוכבים לא ברור מדוע), מתבקש להגדיר את \(e^{i\theta}\) גם כן באמצעות טורי חזקות – פשוט נציב \(i\theta\) במקום \(x\) ונראה מה נקבל. התוצאה היא טור שעדיין מתכנס, אבל כעת נראה שונה למדי מהטור ה"רגיל" – פתאום מתחילים לצוץ בו מינוסים, ומופעים של \(i\). אנחנו מקבלים: \(e^{i\theta}=1+i\theta-\frac{\theta^{2}}{2!}-i\frac{\theta^{3}}{3!}+\frac{\theta^{4}}{4!}+\dots\). כעת אפשר לבצע מניפולציות לטור ולפרק אותו לשני טורים. צריך לומר כאן אזהרה כלשהי – לא ניתן לעשות זאת לכל טור מתכנס. משפט מפורסם של רימן מראה שאם יש טור שמתכנס אך אינו מתכנס בהחלט (כלומר, \(\sum a_{n}\) מתכנס אך \(\sum\left|a_{n}\right|\) אינו מתכנס) אז אפשר, על ידי שינוי של סדר הסכימה של הטור, לקבל איזה סכום שרק נרצה, וגם להראות שסכום הטור שואף לאינסוף או "מזפזפ". המשפט המטורלל הזה ראוי לפוסט משל עצמו ואני מקווה לכתוב כזה בקרוב, אך עבור הטור "שלנו" זה לא תקף. וכך נוכל לקבל את הנוסחה הבאה: \(e^{i\theta}=\left(1-\frac{\theta^{2}}{2!}+\frac{\theta^{4}}{4!}-\dots\right)+i\left(\theta-\frac{\theta^{3}}{3!}+\frac{\theta^{5}}{5!}-\dots\right)\). מי שזוכר את הפוסט על הפונקציות הטריגונומטריות ודאי זוכר שהראיתי כי הטור שבסוגריים השמאליים הוא הטור של \(\cos\theta\), והטור בסוגריים הימנים הוא הטור של \(\sin\theta\), וזהו סוף הסיפור.

מכאן שההגדרה ה"טבעית" ל-\(e^{i\theta}\) מניבה את נוסחת אוילר. בנוסחה הזו יש לנו לעת עתה רק שני קבועים "חשובים" – \(e\) ו-\(i\). אם כן, הכל מתחיל מכך שאנו בוחרים להשתמש ב-\(e\) בתור הבסיס שלנו – אפשר היה אמנם לבחור בסיס אחר, אך כבר הסברתי מדוע הגיוני לבחור דווקא ב-\(e\). כעת, אלמלא \(i\) היה השורש של \(-1\), הנוסחה הייתה הולכת לאבדון – הפירוק המקסים של הטור של \(e^{i\theta}\) לשני טורים היה משתבש לגמרי. שימו לב מה היה הכרחי לעשות כדי לקבל מהטור של \(e^{x}\) את הטורים של \(\cos\) ו-\(\sin\): היינו צריכים להשאיר איבר אחד כמות שהוא, את הבא אחריו לכפול במספר מרוכב כלשהו \(z\), את הבא אחריו לכפול ב-\(-1\) אבל לא בשום דבר אחר, ואת הבא אחריו לכפול ב-\(-z\), ואז חוזר חלילה להתחלה. יש רק שני מספרים מרוכבים שמקיימים את התכונה הזו, שבעצם שקולה ל-\(z^{2}=-1\), והם \(i\) ו-\(-i\) (ואכן, אפשר היה באותו אופן להוכיח "נוסחת אוילר" עבור \(-i\); היינו מקבלים \(e^{-i\theta}=\cos\theta-i\sin\theta\), אבל זה לא שונה מהותית מהנוסחה שכבר יש לנו, ומכל אחת ניתן לגזור את השניה).

כעת נעבור לקצת אינטואיציה גאומטרית. על המספרים המרוכבים אפשר לחשוב באופן גאומטרי כמישור – המספר \(a+bi\) מייצג את הנקודה \(\left(a,b\right)\) במישור. המרחק של נקודה מראשית הצירים, אם מודדים מרחק באופן האוקלידי הרגיל, הוא \(\sqrt{a^{2}+b^{2}}\), ועל כן אפשר להגדיר את מעגל היחידה במישור המרוכב בתור כל המספרים \(a+bi\) כך ש-\(a^{2}+b^{2}=1\). כעת, הפלא ופלא: נתבונן במספר המרוכב שמוגדר על ידי \(a=\cos\theta\), \(b=\sin\theta\) עבור \(\theta\) כלשהו – כלומר, על \(e^{i\theta}\). המספר הזה מקיים \(a^{2}+b^{2}=\cos^{2}\theta+\sin^{2}\theta=1\) (זוהי אחת מהנוסחאות הבסיסיות ביותר הנוגעות לסינוס וקוסינוס, והוכחתי אותה באופן לא-גאומטרי "טהור" בפוסט שעסק בהם). מכאן ש-\(e^{i\theta}\) נמצא על מעגל היחידה, לכל \(\theta\). יותר מכך – לא קשה להשתמש ברציפות של \(\sin,\cos\) כדי להראות שכל נקודה על מעגל היחידה ניתנת להצגה בתור \(e^{i\theta}\) שכזה. יותר מכך – אם אנחנו כבר מוכנים לקבל גם את המשמעות ה"גאומטרית" של \(\sin,\cos\), אפשר להראות ש-\(e^{i\theta}\) הוא הנקודה שנמצאת על מעגל היחידה והזווית שיוצרים הישר שמחבר אותה עם הראשית והישר שמהווה ציר \(x\) היא בדיוק \(\theta\) (יש שתי זוויות כאלו, בעצם; אני מדבר על הזווית שמהווה את "כמות הסיבוב" שנדרש כדי להביא את ציר \(x\) לנוח על הקטע שמחבר את הראשית עם \(e^{i\theta}\)).

זה פותח פתח לתיאור של מספר מרוכב באופן כללי באמצעות אקספוננט: המספר \(re^{i\theta}\), כאשר \(r\ge0\) ממשי, מייצג את המספר המרוכב שמרחקו מהראשית הוא \(r\) (דהיינו, \(r=\sqrt{a^{2}+b^{2}}\)) והזווית שלו ביחס לציר \(x\) היא \(\theta\). דרך הצגה זו מכונה "ההצגה הקוטבית" (או ההצגה הטריגונומטרית) של מספרים מרוכבים, ולעתים קרובות היא נוחה יותר מן ההצגה ה"רגילה" של \(a+bi\) (למשל, לצורך העלאה בחזקה). באופן כללי במתמטיקה נוח לעתים לעבור למערכת קוארדינטות קוטבית שכזו, שבה נקודה נמדדת על ידי מרחק מהראשית וזווית ולא על ידי מרחק בשני צירים מאונכים זה לזה, כך שזוהי אינה הצגה בלעדית למספרים מרוכבים. אגב, בבית הספר לעתים קרובות משתמשים בקיצור \(cis\theta\) כדי לתאר את \(\cos\theta+i\sin\theta\) במקום \(e^{i\theta}\); החסרון של דרך הצגה זו היא שבהצגת האקספוננט אפשר להמשיך ולבצע את כל פעולות חשבון החזקות הרגילות; כך למשל \(e^{i\theta}\cdot e^{i\tau}=e^{i\left(\theta+\tau\right)}\) (כמובן, יש להוכיח זאת; אך אם תעיפו מבט בהוכחה לכך שנתתי בפוסט העוסק באקספוננט תראו שהיא עובדת ככתבה וכלשונה גם כאן – ולמעשה, היא יותר כללית אפילו מאשר עבור "רק" מספרים מרוכבים; מה קורה אם ה-\(x\) של האקספוננט הוא מטריצה?).

שימו לב שההגדרה שלי של \(e^{i\theta}\) "עובדת" גם אם אני לא יודע מהם סינוסים וקוסינוסים – נוסחת אוילר היא משפט, ולא סתם הגדרה (אף כי בספרים רבים מעדיפים דווקא כן להגדיר את \(e^{i\theta}\) באמצעות הנוסחה). מכאן עולה דרך נוספת ומעניינת להגדיר את סינוס וקוסינוס: אלו הפונקציות שמתארות את ההיטל של \(e^{i\theta}\) על הציר הממשי והציר המדומה. כלומר, אפשר לחשוב על סינוס וקוסינוס (שהן פונקציות ממשיות) כנובעות לא מגאומטריה ולא ממשוואות דיפרנציאליות, אלא מאנליזה מרוכבת! למעשה, זוהי אפילו הגדרה לא רעה בכלל – בעזרת נוסחת אוילר מיידית מקבלים את טורי הטיילור של סינוס וקוסינוס, ומכאן נוסחאות הגזירה שלהם נובעות מיידית, ומכאן שאר התכונות מתקבלות במהירות. יותר מכך – ניתן להשתמש בתכונות של \(e^{i\theta}\) כדי לגזור תכונות של סינוס וקוסינוס. הנה דרך חדשה להוכיח את נוסחת הסכום: מכיוון ש-\(e^{i\left(\theta+\tau\right)}=e^{i\theta}\cdot e^{i\tau}\), אפשר לכתוב את הנוסחה הזו גם בעזרת סינוסים וקוסינוסים, ומקבלים:

\(\cos\left(\theta+\tau\right)+i\sin\left(\theta+\tau\right)=\left(\cos\theta+i\sin\theta\right)\left(\cos\tau+i\sin\tau\right)=\left(\cos\theta\cos\tau-\sin\theta\sin\tau\right)+i\left(\sin\theta\cos\tau+\cos\theta\sin\tau\right)\)

והשוואת המקדמים הממשי והמדומה של שני האגפים נותנת את נוסחאות הסכום ה"רגילות". זו הוכחה נחמדה למדי כי בה קל מאוד לזכור איך קורה שהסכום עבור קוסינוס מורכב ממכפלות "הומוגניות" ויש בו מינוס, ואילו עבור סינוס הסכום הוא "מעורבב" (כמובן, בתנאי שזוכרים איך מתנהג כפל מרוכבים).

ובכן, נוסחת אוילר הכללית, \(e^{i\theta}=\cos\theta+i\sin\theta\) היא מרתקת ומעניינת ויפה – אעז לומר שאפילו יותר יפה מהנוסחה ה"פרטית" של \(e^{i\pi}+1=0\), בדיוק בגלל שיש יותר דברים מעניינים שמתקשרים אליה, אבל כעת הגיע הזמן לחזור לנוסחה ה"פרטית" ולהבין איך הקבוע שנותר בחוץ עד כה – \(\pi\) – נכנס לעסק.

ובכן, כפי שכבר אמרתי, \(\pi\) קשור בקשר הדוק לסינוס וקוסינוס, שכפי שראינו, צצים באופן טבעי כשעוסקים באקספוננט מרוכב, וכפי שראינו – הם קשורים בקשר עמוק למעגלים, כך שאין פה הפתעה של ממש. \(e^{i\pi}\) היא הנקודה שמתקבלת כשהולכים בדיוק חצי מעגל (כי מחזור שלם של סינוס וקוסינוס, שמציין חזרה לנקודת ההתחלה, הוא \(2\pi\)) ומכיוון שהטיול מתחיל ב-\(\left(1,0\right)\), אחרי הליכה של \(\pi\) "צעדים" נגיע לקצה השני של המעגל, \(\left(-1,0\right)\). על כן \(e^{i\pi}=-1\). לעתים מסתפקים בהצגת הנוסחה הזו בתור "נוסחת אוילר היפה", אבל שיפור קוסמטי מתקבל על ידי חיבור 1 לשני האגפים וקבלת \(e^{i\pi}+1=0\), ובכך השגנו שתי ציפורים במכה אחת – עברנו מ-\(-1\) ה"לא טבעי" ל-\(0,1\) ה"טבעיים"שקשקשתי כל כך הרבה על למה הם טבעיים בתחילת הפוסט. כלומר, יש משהו מלאכותי בהעברת הנוסחה לצורה ה"יפה" שלה. שימו לב ש-\(e^{i2\pi}=1\), כך שאם היינו משתמשים בסימון מיוחד לא עבור \(\pi\) אלא עבור \(2\pi\) היינו מקבלים נוסחה דומה ובמובנים מסויימים יפה יותר, כי אין בה את העברת האגפים ה"מלאכותית".

כעת לסגירת החוב שלי בנוגע למשוואות דיפרנציאליות. כזכור, עסקתי במשוואות מהצורה \(af^{\prime\prime}+bf^{\prime}+f=0\) (כש-\(a,b,c\) מקדמים ממשיים קבועים), וטענתי שהפונקציה \(e^{\lambda x}\) מהווה פתרון למשוואה זו, כאשר \(\lambda\) הוא שורש של המשוואה הריבועית \(ax^{2}+bx+c=0\), וכל עוד יש למשוואה זו שני פתרונות שונים זה מזה, הכל אחלה כי אנחנו מקבלים שני פתרונות שונים מהותית למשוואה הדיפרנציאלית, שבאמצעותם ניתן לבנות כל פתרון אחר. הבעיה צצה כשלמשוואה \(ax^{2}+bx+c=0\) לא היה פתרון ממשי כלל – למשל, המשוואה \(x^{2}+1=0\). במקרה זה, כמו שאמרתי קודם, יהיו למשוואה בהכרח שני פתרונות מרוכבים שונים זה מזה, כך שהאחד הוא הצמוד של השני. כאן "נתקעתי" כי לא היה לי מושג מהו \(e^{\lambda x}\) במקרה זה, ובכל מקרה לא הייתה לי סיבה להניח שהפונקציה הזו עדיין תקיים את המשוואה.

למרבה המזל, עכשיו אנחנו חכמים יותר. חקרנו את המשוואה \(f^{\prime\prime}+f=0\) (שמתאימה ל-\(x^{2}+1=0\)) באופן עצמאי וגילינו באופן זה את קיום הפונקציות \(\cos,\sin\) שפותרות אותה. נוסחת אוילר השלימה את החקירה הזו, כשקשרה את הפונקציות הללו שמצאנו לפונקציית האקספוננט שפתרה לנו את המשוואה במקרה הממשי. לכן משתלם לנו להגדיר את \(e^{\lambda x}\) באמצעות נוסחת אוילר: דהיינו, אם \(\lambda=r+i\theta\), אז \(e^{\lambda x}=e^{rx}\cdot e^{i\theta x}=e^{rx}\left(\cos\theta+i\sin\theta\right)\). אם תנסו לגזור את היצור הזה על פי כללי הגזירה הרגילים של פונקציות ממשיות תגלו כי אכן \(\left(e^{\lambda x}\right)^{\prime}=\lambda e^{\lambda x}\), כפי שאנו מצפים מאקספוננט (קודם כל גזרו את \(e^{ix}\) ותראו שאכן מקבלים \(ie^{ix}\); מכאן זה עניין של חוקי האריתמטיקה הרגילים של נגזרות). לכן כשמציבים את \(e^{\lambda x}\) בנוסחה מקבלים \(\left(a\lambda^{2}+b\lambda+c\right)e^{\lambda x}\) שאכן שווה ל-\(0\), כנדרש.

הבעיה עם \(e^{\lambda x}\) בתור פתרון הוא שאין מדובר על פתרון ממשי – הרי זוהי פונקציה מרוכבת. זה אמנם לגיטימי לכשעצמו ואפילו מעניין – הנה צצים פתרונות מרוכבים במקומות שבהם לא ציפינו להם – אבל אנחנו מעדיפים פתרונות ממשיים. הפאנץ' הוא שאפשר "לשלוף" את סינוס וקוסינוס מתוך הפתרונות \(e^{\lambda x}\) שמצאנו – גם הם מהווים צירוף לינארי כלשהו שלהם (כשמרשים מקדמים מרוכבים). לשם כך, ראשית כל שימו לב לכך ש-\(e^{-i\theta}=\cos\theta-i\sin\theta\) (לא קשה לראות זאת) ועל כן \(e^{i\theta}+e^{-i\theta}=2\cos\theta\), כלומר \(\cos\theta=\frac{e^{i\theta}+e^{-i\theta}}{2}\), ובדומה \(\sin\theta=\frac{e^{i\theta}-e^{-i\theta}}{2i}\). אם תרצו, אלו הנוסחאות ה"הפוכות" לנוסחת אוילר, והן יפות בפני עצמן; כשאני מדבר על הגדרה של סינוס וקוסינוס באמצעות האקספוננט המרוכב, זו השורה התחתונה שאני מדבר עליה – להגדיר את הפונקציות הללו באמצעות המשוואות הללו (וזו אכן דרך נפוצה למדי להגדיר אותן). הנוסחאות כמובן תקפות גם אם נכפול את שני האגפים שלהם במספר ממשי כלשהו, ומכאן נובעת הנוסחה הכללית: אם \(\lambda=r+i\theta\) אז \(e^{rx}\cos\left(\theta x\right)=\frac{e^{\lambda x}+e^{\overline{\lambda}x}}{2}\), ובדומה עבור סינוס, \(e^{rx}\sin\left(\theta x\right)=\frac{e^{\lambda x}-e^{\overline{\lambda}x}}{2}\). מכיוון ששתי הפונקציות הללו התקבלו כצירוף לינארי של שני פתרונות למשוואה הדיפרנציאלית המקורית, גם הם מהווים פתרון – אבל פתרון ממשי, ולא קשה להראות שהם "בלתי תלויים" במובן זה שכל פתרון אחר ניתן לכתיבה באמצעות צירוף לינארי שלהם (כמובן שפתרון מרוכב ידרוש צירוף לינארי עם מקדמים מרוכבים).

כאן הבה וניישם את מה שלמדנו למקרה שהבאתי כמוטיבציה לכל זה – תנועה הרמונית פשוטה.

כזכור, עבור תנועה הרמונית פשוטה הגענו למשוואה \(f^{\prime\prime}=-\frac{k}{m}f\), כאשר \(f\) הייתה פונקציה שמתארת את מיקום האובייקט שנע בתנועה הרמונית פשוטה, \(k\) תיאר את "קבוע הקפיץ" שמושך אותו – ככל שהוא יותר גדול, על הגוף מופעל יותר כוח – ו-\(m\) תיאר את מסת הגוף, כלומר את התנגדותו להאצה, אבל אפשר לחשוב על המערכת גם במובנים יותר מופשטים, לכל \(f\) (לא רק של מרחק) שמקיימת משוואה כזו. לכן נוח לכרוך את \(k,m\) לפרמטר אחד שמאפיין את המערכת, ועם קצת ראיית הנולד הכי טוב להגדיר \(\omega^{2}=\frac{k}{m}\) ולקבל את המשוואה \(f^{\prime\prime}=-\omega^{2}f\). מדוע ריבוע? שכן המשוואה האופיינית שמתקבלת מהמשוואה הדיפרנציאלית הזו היא \(x^{2}=-\omega^{2}\), ופתרונותיה הם \(\lambda=\pm i\omega\), וכך חמקנו מלהכניס שורשים לתמונה. מכיוון שפתרונות המשוואה האופיינית הם מדומים טהורים, אקספוננט ממשי הוא לא חלק מהפתרון; קיבלנו פתרונות פרטיים של \(\cos\left(\omega x\right)\) ו-\(\sin\left(\omega x\right)\). לכן הפתרון הכללי למשוואה הוא \(a\sin\left(\omega x\right)+b\cos\left(\omega x\right)\), וסיימנו.

אלא שעוד לא סיימנו, כי הפתרון הזה לא "יפה" מספיק – הוא סכום של שתי פונקציות, וקשה לנו לצייר את האופן שבו התנועה הזו מתנהגת בראש אם היא שני גלים שנלחמים אחד נגד השני. לכן גם כאן הכי נוח לעבור להצגה קוטבית. חשבו שנייה על הנקודה במישור \(\left(a,b\right)\); אפשר לחשוב עליה כעל נקודה שנמצאת במרחק \(A\) מראשית הצירים ויוצרת זווית \(\phi\)עם ציר \(x\), ממש כמו שהיה עבור מספרים מרוכבים. במקרה זה מתקיים \(a=A\cos\phi\) ו-\(b=A\sin\phi\), ולכן אנחנו מקבלים דרך אחרת לכתוב את הפתרון הכללי למשוואה: \(A\cos\phi\sin\left(\omega x\right)+A\sin\phi\cos\left(\omega x\right)\). זה כבר נראה דומה באופן חשוד לנוסחת הסכום של סינוסים, ואכן – זה שווה ל-\(A\sin\left(\omega x+\phi\right)\), וזהו הפתרון הכללי שבדרך כלל אוהבים לתת. הסכום של סינוס וקוסינוס הפך לגל סינוס בודד, שמתאפיין על ידי שלושה פרמטרים: \(\omega\), שמגדיר את התדירות של התנודה, כלומר כמה מהר היא מתחילה לחזור על עצמה; \(A\), שמגדיר את המשרעת של התנודה, כלומר מה הגדלים המקסימלים שאליהם היא עשויה להגיע (כמה רחוק העצם עשוי להגיע מנקודת שיווי המשקל), ו-\(\phi\) שמתאר את הפאזה של המערכת – מדד כלשהו ל"כמה עמוק בתוך התנודה" המערכת הייתה כשהתחלנו למדוד את הזמן. שימו לב למשהו שעשוי לבלבל כאן – אני משתמש באות \(x\) לסימון המשתנה של הפונקציה, אך חשוב להבין שמשתנה זה מתאר את הזמן – מלכתחילה הפונקציה שרצינו היא פונקציה שמתארת את מיקום האובייקט כתלות בזמן. לכן יותר ברור לכתוב \(A\sin\left(\omega t+\phi\right)\) בתור הפונקציה שלנו.

מה שעשינו עד כה היה לכתוב פתרון כללי למשוואה. כדי למצוא פתרון פרטי צריך למצוא את הפרמטרים \(A,\phi\) שמתאימים למקרה שאנחנו ממדלים; שימו לב ש-\(\omega\) כבר ידוע מראש. לצורך כך אפשר למדוד את מצב המערכת בזמן \(t=0\). כזכור, אנחנו רוצים לדעת הן את ערך הפונקציה עצמה ב-\(t=0\), והן את ערך הנגזרת הראשונה שלה ב-\(t=0\), כלומר מצב המערכת נקבע על ידי מיקום ומהירות האובייקט בזמן \(t=0\). המיקום הוא \(A\sin\left(\phi\right)\), והמהירות היא \(\omega A\cos\left(\phi\right)\). שימו לב למשהו מעניין שנובע מהמשוואות הללו – \(\omega\) אינו תלוי לא במיקום ההתחלתי של המערכת, ולא במהירות ההתחלתית שלה; הוא מושפע רק מקבועים "פנימיים" שלה. זו למשל הסיבה מדוע שעון מטוטלת הוא מדוייק: מטוטלת מתנהגת כמו מתנד הרמוני (לא באופן מושלם כי העולם האמיתי לא מושלם, אבל מספיק טוב – כל עוד אפשר להזניח את החיכוך עם האוויר וכל עוד גודל הזווית שיוצרת המטוטלת קטן דיו), ולכן אין זה משנה כמה נרים אותה לפני שניתן לה להתנדנד, או מה המהירות שבה נדחוף אותה – קצב ההתנדנדות שלה יהיה תלוי רק בקבועים "פנימיים" (במקרה הזה, הוא תלוי באורך החוט של המטוטלת ובכוח המשיכה של כדור הארץ; דבר נאה נוסף שעולה ממשוואות המטוטלת הוא שלמסת המטוטלת אין השפעה על קצב התנודה). מהו קצב התנודה? ובכן, מכיוון שהמחזור של \(\sin\) הוא \(2\pi\), ומכיוון ש-\(t\) מוכפל ב-\(\omega\), הרי שנשלים מחזור בכל פעם שבה \(\omega t\) יהיה כפולה של \(2\pi\), כלומר המחזור הוא \(T=\frac{2\pi}{\omega}\). הנה צץ לו פאי שוב, במערכת שאין לה שום קשר לגאומטריה של המישור (הרי המתנד ההרמוני המקורי שהבאתי כדוגמה – הגוף המחובר לקפיץ – היה חד ממדי).

ובכן, הגענו לסיומה של סאגת פאי-אקספוננט-סינוס-קוסינוס. אני מקווה שהצלחתי לשכנע לפחות חלק מהקוראים שפאי איננו יצור גאומטרי בלבד – וחשוב מכך, שהצלחתי להראות לקוראים שוב עד כמה המתמטיקה עוסקת בקשרים בין דברים שנראים שונים ולא קשורים זה לזה, אך בפועל הקשר ביניהם חזק והדוק מאוד: "האמנות של קריאה באותו שם לדברים שונים, ובשמות שונים לאותו הדבר".

נעים להכיר – סינוס וקוסינוס (גרסת המשוואה הדיפרנציאלית)

שרשרת הפוסטים הקודמים שלי, שהחלה ביום פאי, יועדה למטרה אחת – הגדרה של סינוס וקוסינוס באופן שהוא לחלוטין בלתי קשור לגאומטריה בשום צורה שהיא – ומכאן גם הכנסה של פאי למשחק המתמטי בדרך שהיא לחלוטין בלתי קשורה לגאומטריה בשום צורה שהיא. מנת הפתיחה שלי הייתה הגדרת פונקצית האקספוננט באופן בלתי גאומטרי שכזה, כשהמוטיבציה מגיעה מפתרון משוואות דיפרנציאליות; ובפוסט האחרון הגעתי למשוואה דיפרנציאלית שבה האקספוננט הממשי אינו מסוגל להועיל לנו עוד – המשוואה \(f^{\prime\prime}=-f\). זוהי נקודת המוצא למה שאעשה בפוסט הזה, שיהיה דומה למדי למה שעשיתי בפוסט על האקספוננט – נתחיל מכך שקיימים פתרונות למשוואה הזו, נחקור את תכונותיהם ובסוף נגיע למסקנה שאלו הם הסינוס והקוסינוס המוכרים לנו זה לא מכבר. חשוב להבהיר שמה שנעשה יהיה לצאת להרפתקאה בג'ונגל – זו לא הדרך הקצרה או הפשוטה ביותר, וגם לא רואים בה את הנוף באופן הטוב ביותר, וגם נשרטים כל הזמן מקוצים וענפים וצריך להיזהר מחיות טרף – אבל אני חושב שזו הרפתקאה טובה שכן היא מעניקה לנו נקודת מבט שונה וזרה על הנושא מזו שניתן לראות כאשר פוסעים בשבילים המוכרים.

ובכן, הבה וניגש לעבודה. כפי שאמרתי בפוסט הקודם, למשוואות דיפרנציאליות מסדר שני יש משפט קיום ויחידות שמבטיח למשוואה \(f^{\prime\prime}=-f\) קיים פתרון יחיד אם דורשים גם שני תנאי התחלה מהצורה \(f\left(0\right)=a,f^{\prime}\left(0\right)=b\) עבור \(a,b\) ממשיים כלשהם (תנאי ההתחלה לא חייב להיות באפס, אבל זה יהיה הכי נוח עבורנו). כתמיד, נרצה שתנאי ההתחלה יהיו פשוטים ככל הניתן; תנאי ההתחלה \(f\left(0\right)=f^{\prime}\left(0\right)=0\) מניב בבירור את הפתרון \(f\left(x\right)=0\) שאיננו מעניין, ולכן הנסיון הבא יהיה לקבוע את אחד מתנאי ההתחלה להיות 1. נאמר, \(f\left(0\right)=0,f^{\prime}\left(0\right)=1\). משפט הקיום והיחידות מבטיח שקיימת פונקציה שעונה על תנאים אלו – בואו נסמן אותה בסימון הבלתי צפוי לחלוטין \(f\). ומה יקרה אם נבחר דווקא תנאי התחלה שב-\(0\) נותן לפונקציה 1, ולנגזרתה יתן \(0\)? אין שום בעיה – נסמן פתרון זה ב-\(g\). השלב הראשון בהרפתקאה שלנו יהיה להבין את הקשר שבין \(f\) ו-\(g\).

הבה ונתבונן רגע על הפונקציה \(f^{\prime}\). אמנם, הפונקציה הזו היא בראש ובראשונה הנגזרת של \(f\), אבל יש לה חיים משל עצמה. אם גוזרים אותה מקבלים את \(f^{\prime\prime}\), שכידוע שווה ל-\(-f\); ואם גוזרים אותה שוב, מקבלים את \(-f^{\prime}\). במילים אחרות, גם \(f^{\prime}\) מקיימת את המשוואה הדיפרנציאלית שממנה התחלנו. עם אילו תנאי התחלה היא מקימת אותם? ובכן, \(f^{\prime}\left(0\right)=1\), כי כך קבענו את \(f\) מלכתחילה; ו-\(\left(f^{\prime}\right)^{\prime}\left(0\right)=f^{\prime\prime}\left(0\right)=-f\left(0\right)=0\) – אבל אלו בדיוק תנאי ההתחלה של \(g\)! מכאן ש-\(f^{\prime}=g\). כבר צץ הקשר הראשון בין שני הפתרונות ה"מעניינים" של המשוואה עם תנאי ההתחלה הפשוטים ביותר שהצלחנו למצוא.

הצעד הבא פשוט: \(g^{\prime}=\left(f^{\prime}\right)^{\prime}=f^{\prime\prime}=-f\). כלומר, בעוד ש-\(g\) הייתה הנגזרת של \(f\), הרי ש-\(-f\) הוא הנגזרת של \(g\). שימו לב כמה מעט היינו צריכים להניח בשביל לקבל את "חוק הטבע" הזה ואת הא-סימטריה שטבועה בשתי הפונקציות הללו – האחת מניבה את חברתה, ואילו השניה מניבה את מינוס חברתה. לכן כל אחת מהפונקציות מעניינת בזכות עצמה ויש מקום לדבר על שתיהן בבת אחת.

עכשיו, משיש לנו מידע יותר מלא על מהן כל הנגזרות של \(f\) ו-\(g\), ניתן לבצע את אותו ניתוח שביצענו גם עבור אקספוננט – מציאת טורי הטיילור המתאימים לפונקציות. כזכור, עבור \(f\) טור הטיילור יהיה טור מהצורה \(\sum_{n=0}^{\infty}\frac{f^{\left(n\right)}\left(0\right)}{n!}x^{n}\). החישוב אינו מסובך במיוחד: \(f^{\left(0\right)}\left(0\right)=0\) על פי הגדרה; \(f^{\left(1\right)}\left(0\right)=g\left(0\right)=1\); \(f^{\left(2\right)}\left(0\right)=-f\left(0\right)=0\); \(f^{\left(3\right)}\left(0\right)=-g\left(0\right)=-1\); ואילו \(f^{\left(4\right)}=f\), ולכן הסדרה תתחיל לחזור על עצמה משם ואילך. במילים אחרות, סדרת הערכים שמתקבלת היא \(0,1,0,-1,0,1,0,-1,\dots\) (להבדיל מאקספוננט, שבה היא הייתה פשוט \(1,1,1,\dots\)). לכן הטור יהיה מהצורה \(x-\frac{x^{3}}{3!}+\frac{x^{5}}{5!}-\frac{x^{7}}{7!}+\dots\). ניתוח דומה עבור \(g\) מניב את הסדרה \(1,0,-1,0,1,0,-1,0,\dots\) ולכן את הטור\(1-\frac{x^{2}}{2!}+\frac{x^{4}}{4!}-\frac{x^{6}}{6!}+\dots\). כפי שניתן לראות, שני הטורים "משלימים" זה את זה; בפרט, אם נהפוך את סימני המינוס לפלוס ונחבר את הטורים, נקבל את הטור של \(e^{x}\). תופעה זו היא שמובילה לנוסחת אוילר, \(e^{i\theta}=\cos\theta+i\sin\theta\), אך דיה לצרה בשעתה.

כמובן, זה שכתבנו את טור הטיילור של \(f,g\) עדיין לא אומר שהטור אכן מתכנס אליהן – בשביל זה צריך לדבר על גודל השארית, כמו שעשיתי במקרה של אקספוננט. שם הראיתי שדי להצביע על כך שיש חסם על הערך שכל הנגזרות של \(\exp\)יכולות לקבל בתחום \(\left[0,x_{0}\right]\) כדי להוכיח שהטור מתכנס לפונקציה, וכדי לראות זאת פשוט שמנו לב לכך שגם כאשר גוזרים את \(\exp\) מקבלים אותה עצמה, ולכן חסם על \(\exp\) בתחום הזה (שקיים, כי היא רציפה והתחום סגור) מוביל לחסם על כל הנגזרות. אותו שיקול עובד גם כאן – אמנם, הנגזרת של \(f\) היא \(g\) ושל \(g\) היא \(-f\), אבל ניתן למצוא חסם על \(g,f\) "בו זמנית", ולכן גם על כל נגזרותיהן. מסקנה: שני הטורים שכתבתי לעיל אכן מתארים נכונה את \(f,g\). לאלו מכם שמכירים את הטורים הללו כבר בתור הטורים של \(\sin\) ו-\(\cos\) כבר הגענו לקרקע יציבה כלשהי. עבור היתר מה שחשוב כאן הוא רק שמצאנו ביטוי "קונקרטי" לפונקציות הללו, שגם מאפשר לנו לחשב אותן אם נרצה.

נחזור כעת לציד תכונות מעניינות בג'ונגל, כשהמוטיבציה שלנו מגיעה ממה שאנחנו כבר יודעים על \(\sin\)ו-\(\cos\). הבה ונתבונן בפונקציה שמוגדרת על ידי \(h=f^{2}+g^{2}\). אם נגזור אותה, נקבל את הנגזרת \(h^{\prime}=2ff^{\prime}+2gg^{\prime}=2fg-2gf=0\) – במילים אחרות, \(h\) היא פונקציה שנגזרתה היא זהותית אפס, ולכן היא פונקציה קבועה (זהו אחד מהמשפטים הבסיסיים בחשבון אינפיניטסימלי, וגם משפט ברור אינטואיטיבית – הרי נגזרת היא קצב השינוי של פונקציה, ואם קצב השינוי הזה הוא תמיד אפס, הפונקציה בהכרח קבועה). האם אנחנו יודעים לחשב את הערך הקבוע של \(h\)? ודאי – \(h\left(0\right)=f^{2}\left(0\right)+g^{2}\left(0\right)=0+1=1\). מכאן ש-\(f^{2}\left(x\right)+g^{2}\left(x\right)=1\) לכל \(x\). נראה מוכר? זה גם מניב דרך נוספת לבטא את \(g\) באמצעות \(f\): \(g=\pm\sqrt{1-f^{2}}\). זוהי דרך הצגה "רמאית" במובן מסויים כי איננו יודעים באמת את הערך של \(g\left(x\right)\) בהינתן \(f\left(x\right)\); אנחנו יודעים שהוא \(\pm\sqrt{1-f^{2}\left(x\right)}\) אבל איננו יודעים אם זהו הערך החיובי או השלילי. נצטרך לאמץ דרך שונה לתקוף את השאלה הזו.

שימו לב למה שנובע מהתכונה שכרגע ראינו – מכיוון ש-\(g,f\) הן פונקציות ממשיות ומוגדרות לכל \(x\), נובע מכך בהכרח שהערכים ששתיהן מחזירות מצויים תמיד בתחום \(\left[-1,1\right]\), כי במספרים ממשיים, \(f^{2}\left(x\right)+g^{2}\left(x\right)=1\) מכריח את \(f\left(x\right),g\left(x\right)\) להיות קטנים או שווים ל-1 אחרת אחד מהם יהיה חייב להיות מספר מרוכב. יותר מכך – \(f,g\) רוקדות מעין "ריקוד" יחדיו – כאשר אחת גדולה (בערכה המוחלט), השניה חייבת להיות קטנה. האופן שבו הן משתלבות זו בזו ב"ריקוד" הזה והעובדה שהריקוד הוא מחזורי היא היעד המרכזי שלנו – אבל לצורך כך יש עוד תכונות שעלינו להיווכח בהן.

כל מי שהיה תלמיד תיכון ודאי זוכר את הנוסחאות המפלצתיות עבור \(\sin\left(x+y\right)\) ו-\(\cos\left(x+y\right)\). הבה וננסה לגזור נוסחאות שכאלו עבור \(f,g\) באמצעות הכלים שיש לנו עד כה (דהיינו, בלי שום גאומטריה). לצורך כך הבה וניזכר במשהו מהפוסט הקודם – אמרתי שבהינתן משוואה דיפרנציאלית מסדר שני (בלי מקדם חופשי) ושני פתרונות "בלתי תלויים" עבורה, אפשר לבנות כל פתרון אחר כצירוף לינארי של שני הפתרונות הללו, כשהמקדמים נקבעים על פי תנאי ההתחלה. כפי שניתן לנחש, \(f,g\) הם שני פתרונות "בלתי תלויים" שכאלו, ונראה זאת במפורש. נניח אם כן כי \(h\) היא פונקציה אשר מקיימת \(h^{\prime\prime}=-h\) וכמו כן \(h\left(0\right)=a\) ו-\(h^{\prime}\left(0\right)=b\). כעת נתבונן בפונקציה \(bf+ag\); בבירור אם נציב בה 0 נקבל \(a\) (כי \(f\) יתאפס ואילו \(g\) יהפוך ל-1). אם נגזור אותה, נקבל \(bf^{\prime}+ag^{\prime}=bg-af\), וכשמציבים 0 בנגזרת זו מקבלים בבירור את \(b\). כמו כן ברור כי \(bf+ag\) מקיימת את המשוואה הדיפרנציאלית המקורית שכן היא צירוף לינארי של \(f,g\). מסקנה ממשפט הקיום והיחידות? \(h=bf+ag\).

בואו ניקח כעת \(y\) ממשי כלשהו, ונגדיר פונקציה חדשה: \(h\left(x\right)=f\left(x+y\right)\). מכללי הגזירה הסטנדרטיים עולה ש-\(h^{\prime\prime}\left(x\right)=f^{\prime\prime}\left(x+y\right)=-f\left(x+y\right)=-h\left(x\right)\), כך שאת \(h\) אפשר לייצג כצירוף לינארי של \(f,g\). מהם המקדמים? \(a=h\left(0\right)=f\left(y\right)\), ו-\(b=h^{\prime}\left(0\right)=f^{\prime}\left(y\right)=g\left(y\right)\). מסקנה: \(f\left(x+y\right)=f\left(x\right)g\left(y\right)+g\left(x\right)f\left(y\right)\). נראה מוכר? באופן דומה אפשר להראות כי \(g\left(x+y\right)=g\left(x\right)g\left(y\right)-f\left(x\right)f\left(y\right)\). אני מאוד אוהב את ההוכחה הזו כי היא נותנת תובנה יפה על הנוסחאות הללו – הן לא סתם ערב רב של סינוסים וקוסינוסים שהושלכו באקראי, אלא צירוף לינארי של \(\sin x,\cos x\) כשהמקדמים מבוססים על \(\sin y,\cos y\).

מכאן הדרך להוכחה ש-\(f,g\) מחזוריות קצרה יחסית, אבל עדיין יש צעד מרכזי אחד שטרם ביצענו – עלינו להראות כי \(g\) מתאפסת היכן שהוא. הבה נניח בשלילה כי \(g\left(x\right)>0\) לכל \(x\ge0\) (עבור \(x=0\) אנו יודעים כי זה נכון: \(g\left(0\right)=1\)). מכיוון ש-\(f^{\prime}=g\), נובע מכך ש-\(f\) היא מונוטונית עולה עבור \(x\ge0\), דהיינו \(f\left(x\right)>0\) לכל \(x>0\). כעת, מכיוון ש-\(g^{\prime}=-f\), עולה מכך כי \(g\) היא מונוטונית יורדת לכל \(x>0\). עד כאן, שום דבר מפתיע – זהו בדיוק ה"ריקוד" של \(f,g\) שעליו דיברתי – כשהאחת עולה, השנייה יורדת. האינטואיציה כאן היא שקצב הירידה של \(g\), אם היא אינה מתאפסת אף פעם, חייב להתמתן עוד ועוד עם הזמן. קצב הירידה הזה הוא נגזרתה של \(g\), כלומר \(-f\), ולכן הטענה היא שהערך של \(-f\) חייב לגדול עם הזמן (הוא שלילי כל הזמן, ולכן כשאני אומר שהוא "גדל", הכוונה היא דווקא לכך שערכו המוחלט קטן – בהתחלה הוא \(-1\), אחר כך \(-0.5\) וכן הלאה). אלא שהערך של \(-f\) בתחילת ה"ריקוד" היה 0, ולכן הסיטואציה חייבת להיות כזו: ראשית ערכו של \(-f\) קטן, ואז פתאום המצב "מתהפך" וערכו מתחיל "לגדול". בפרט זה אומר שיש ל-\(-f\)נקודת מינימום בריקוד הזה, אבל משפט בסיסי מחשבון אינפיניטסימלי אומר שבנקודת המינימום הזו הנגזרת של \(-f\) תתאפס – ונגזרת זו היא בדיוק \(-g\)…

למרות שהטיעון הזה נשמע חצי נפנוף-ידיימי, הוא למעשה מאוד קונקרטי ולא נדרשת הרבה עבודה כדי לפרמל אותו לגמרי. השורה התחתונה היא מה שמעניין אותנו – קיימת נקודה \(t>0\) כך ש-\(g\left(t\right)=0\), ו-\(t\) הוא הערך הקטן ביותר שגדול מ-0 שמקיים זאת. מהו ערכה של \(f\) בנקודה זו? ובכן, \(f\left(t\right)=\pm\sqrt{1-g^{2}\left(t\right)}=\pm1\). אלא שלא ייתכן ש-\(f\) שלילי בנקודה זו, כי ב-0 התקיים \(f\left(0\right)=0\) ומאותו רגע והלאה \(g\) – הנגזרת של \(f\) – הייתה חיובית (כי \(t\) הנקודה המינימלית שבה \(g\) מתאפסת), ולכן \(f\) רק עלתה. מכאן ש-\(f\left(t\right)=1\). כעת אפשר להגיע למסקנה מעניינת מאוד: \(f\left(x+t\right)=f\left(x\right)g\left(t\right)+g\left(x\right)f\left(t\right)=g\left(x\right)\). במילים אחרות, \(g\) מתנהגת בדיוק כמו \(f\), פרט לכך שהיא "מקדימה" אותה בדיוק ב-\(t\) "צעדים" (כלומר, אם נזיז את הגרף של \(f\) \(t\) יחידות ימינה, הוא יזדהה עם הגרף של \(g\)).

כעת הניתוח נעשה פשוט בהרבה. מה קורה לפונקציות בקטע \(\left[t,2t\right]\)? בתחילתו, כזכור, \(g\left(t\right)=0\) ואילו \(f\left(t\right)=1\). מכיוון ש-\(f\) מתנהגת בקטע הזה כמו ש-\(g\) התנהגה בקטע \(\left[0,t\right]\) הרי ש-\(f\) פשוט תרד עד ל-\(0\): \(f\left(2t\right)=0\). בזמן הזה \(g\) היא בעלת נגזרת שלילית לכל אורך הדרך (כי הנגזרת שלה היא \(-f\) ו-\(f\) הרי חיובית בקטע זה) ולכן \(g\) תהיה מונוטונית יורדת בכל הקטע. עד להיכן היא תרד? כאן אפשר להשתמש בנוסחת הסכום: \(g\left(2t\right)=g^{2}\left(t\right)-f^{2}\left(t\right)=-1\). אם כן, הריקוד ממשיך – בקטע מ-\(t\) אל \(2t\), שתי הפונקציות יורדות מטה מרחק של יחידה אחת.

ומה קורה ב-\(\left[2t,3t\right]\)? ובכן, \(f\) כרגיל מחקה את \(g\): יורדת עד ל-\(-1\) (\(f\left(3t\right)=-1\)). על כן הנגזרת של \(g\) היא חיובית בכל הקטע ולכן \(g\) עולה בכל הקטע ומגיעה עד ל-0, שהרי \(g\left(3t\right)=g\left(2t\right)g\left(t\right)-f\left(2t\right)f\left(t\right)=0-0=0\).

ולבסוף, בקטע \(\left[3t,4t\right]\) \(f\) ממשיכה לחקות את \(g\) ועולה בעצמה ל-0, ואילו \(g\) ממשיכה לעלות (כי נגזרתה חיובית) ומגיעה עד ל-1: \(g\left(4t\right)=g^{2}\left(2t\right)-f^{2}\left(2t\right)=1\). זה אומר שב-\(4t\) חזרנו להתחלה – שוב \(f\) מאופסת ו-\(g\) מחזירה 1. מזה נובע מיידית ש-\(4t\) הוא מחזור של שתי הפונקציות הללו: \(f\left(x+4t\right)=f\left(x\right)g\left(4t\right)+f\left(4t\right)g\left(x\right)=f\left(x\right)\), ובדומה \(g\left(x+4t\right)=g\left(x\right)g\left(4t\right)-f\left(x\right)f\left(4t\right)=g\left(x\right)\) – וזה נכון לכל \(x\), כולל השליליים. הוכחנו (בלי שום גאומטריה) את המחזוריות של \(f,g\). יותר מכך – המעקב המדוקדק שלנו אחרי ההתנהגות של \(f,g\) מעלה שהסיטואציה הזו (\(f\) מקבלת 0, \(g\) מקבלת 1) התרחשה לראשונה ב-\(4t\) לאחר ההתרחשות שלה ב-0, ומכאן ש-\(4t\) הוא המחזור המינימלי של שתי הפונקציות הללו.

זהו – הוכחנו כרגע את התכונה החשובה ביותר של שתי הפונקציות. שימו לב כמה אנחנו כבר יכולים לומר: למשל, מניתוח ההתנהגות שביצענו ל-\(f\) ברור כי היא מתאפסת רק בערכים מהצורה \(k\cdot2t\) עבור \(k\) שלם; לכן אם נשתמש בהוכחה של אוילר לחישוב \(\sum\frac{1}{n^{2}}\) שהצגתי בעבר, נקבל שהסכום הזה הוא \(\frac{\left(2t\right)^{2}}{6}\). במילים אחרות, הצלחנו לחשב את סכום הטור בלי שום גאומטריה. זו נקודה טובה לעצור ולהודות באמת: \(f\left(x\right)\) הוא פשוט שם מיתמם ל-\(\sin\left(x\right)\), \(g\left(x\right)\) הוא שם מיתמם ל-\(\cos\left(x\right)\), ואילו \(\pi=2t\). אך לא ניתן לעשות זאת "סתם", שהרי \(\sin\left(x\right),\cos\left(x\right),\pi\) כולם יצורים גאומטריים ואי אפשר "להשתלט" עליהם ככה בלי להגיד כלום על גאומטריה. לכן, אם מתעקשים, אפשר להיפגש באמצע – עם קצת אנליזה (והגבול \(\lim_{x\to0}\frac{\sin x}{x}=1\) והוכחתו הגאומטרית הידועה לשמצה) אפשר להראות כי \(\sin^{\prime}\left(x\right)=\cos\left(x\right)\) ו-\(\cos^{\prime}\left(x\right)=-\sin\left(x\right)\) ומכאן חיש קל אפשר להראות ש-\(\sin,\cos\) הם הפתרונות למשוואה הדיפרנציאלית שעליה דיברתי. האם יש דרך אחרת? ובכן, אפשר להגדיר את \(\sin,\cos\) בצורה מעט שונה מהצורות שאנו מכירים – צורה שהיא מעין פשרה בין ההגדרה הגאומטרית ובין ההגדרות האנליטיות, ומשתמשת בפונקציה אנליטית המתארת שטח של עיגול. הניתוח של הפונקציה הזו כולל קצת אינפי "מלוכלך", ואיני רוצה להיכנס אליו כעת; אבל גם בו היעד המרכזי שמגיעים אליו, שהחל ממנו הכל ממשיך כרגיל, הוא נוסחאות הגזירה של סינוס וקוסינוס. דבר זה מראה כי במובן מסויים, הגישה שאני הצגתי היא ה"ישירה" ביותר, שכן ממנה נוסחאות הגזירה נובעות בצורה מיידית לחלוטין.

בפוסט הבא אפרע את החוב מהפוסט הקודם – אראה כיצד נפתרת בעזרת סינוס וקוסינוס המשוואה הדיפרנציאלית הכללית שהצגתי, ואכניס לתמונה סוף סוף את נוסחת אוילר.