אנליזה מרוכבת – זה הרגע לגלות את הנפשות הפועלות

אחרי שמציגים את המושגים הבסיסיים שקשורים למספרים מרוכבים, יש שתי דרכים להמשיך ולפתח את האנליזה המרוכבת. דרך אחת היא לקחת את ההגדרות המוכרות מחשבון דיפרנציאלי ואינטגרלי של מספרים ממשיים, להכליל אותן ולהתחיל להוכיח משפטים; דרך אחרת היא קודם כל להציג כמה מהפונקציות העיקריות שבהן אנו מתענייינים באנליזה המרוכבת ולהסביר קצת על האופן שבו נהוג לתאר אותן בצורה גרפית. אני מעדיף לנקוט בגישה השניה – וכמובן, לתאר דברים בצורה שהיא יחסית לא פורמלית.

מאינפי אנחנו מכירים כמה פונקציות בסיסיות וחשובות – פולינומים, הפונקציה האקספוננציאלית \(e^{x}\), הפונקציות הטריגונומטריות \(\sin x,\cos x\), פונקציית השורש \(\sqrt{x}\) ופונקציית הלוגריתם \(\ln x\). אלו הפונקציות שיעניין אותי בשלב ראשון לתאר איך מכלילים אותן למספרים המרוכבים.

כרגיל, הכי קל לעבוד עם פולינומים. יש לנו פעולות חיבור וכפל במספרים המרוכבים, ופולינום הוא פונקציה שלוקחת מספר מרוכב כלשהו, כופלת אותו בעצמו מספר כלשהו של פעמים, כופלת את התוצאה בעוד מספר מרוכב קבוע כלשהו ("מקדם") ואז מחברת כמה וכמה כפולות כאלו.

פורמלית זו כל פונקציה מהצורה \(p\left(z\right)=a_{n}z^{n}+a_{n-1}z^{n-1}+\dots+a_{1}z+a_{0}\) כאשר \(a_{0},\dots,a_{n}\in\mathbb{C}\) ו-\(a_{n}\ne0\). המעלה של הפולינום היא \(n\), ל-\(a_{n}\) קוראים המקדם המוביל של הפולינום ול-\(a_{0}\) קוראים המקדם החופשי. וזה בערך כל מה שאני רוצה לומר על פולינומים כרגע.

הפונקציה הבאה ברמת הפשטות שלה היא הפונקציה האקספוננציאלית. הייתי שמח לתת לה הגדרה שאני מרוצה ממנה, אבל בשלב הזה של הדיון אין לנו עדיין יכולת לעשות את זה – הגדרה "נכונה" של הפונקציה מערבת טורי חזקות, ועוד לא דיברנו על התורה של טורי חזקות במספרים המרוכבים (אם כי אגלה כבר מראש שזה אותו הדבר בדיוק כמו במספרים הממשיים). לכן אני נוקט בהגדרה שתיראה מוזרה, אולי אפילו כמו הונאה: אני מגדיר \(e^{a+ib}=e^{a}\left(\cos b+i\sin b\right)\) (כאשר \(e^{a}\) זו הפונקציה האקספוננציאלית הממשית, הרי \(a\) הוא מספר ממשי). במילים אחרות, אני משתמש בנוסחת אוילר שהזכרתי בפוסט הקודם בתור הגדרה. קשה להגיד שעשיתי משהו לא חוקי – מותר לי להגדיר פונקציה בכל אופן שאני מוצא לנכון כל עוד מה שאני מגדיר אכן מקיים את הדרישות מפונקציה (שלכל קלט אפשרי יהיה קיים פלט יחיד), אבל לא ברור למה ההגדרה שלי היא "נכונה".

השלב הבא עשוי להיות מעליב עוד יותר עבור הקורא שלא אוהב להרגיש שמרמים אותו. אני רוצה להגדיר פונקציות טריגונומטריות מרוכבות, כלומר \(\sin z,\cos z\). איך אעשה את זה? ובכן, קודם כל אני שם לב לכך שהפונקציות הטריגונומטריות הממשיות ניתנות להסקה מתוך נוסחת אוילר, באופן הבא:

אם \(e^{i\theta}=\cos\theta+i\sin\theta\) אז \(e^{-i\theta}=\cos\theta-i\sin\theta\) (זה נובע מכך ש-\(\cos\left(-\theta\right)=\cos\theta\) ואילו \(\sin\left(-\theta\right)=-\sin\theta\) – במילים, \(\cos\) היא פונקציה זוגית ואילו \(\sin\) היא פונקציה אי זוגית). לכן \(e^{i\theta}+e^{-i\theta}=2\cos\theta\), כלומר \(\cos\theta=\frac{e^{i\theta}+e^{-i\theta}}{2}\). בדומה, \(\sin\theta=\frac{e^{i\theta}-e^{-i\theta}}{2i}\). אם כן, למה לא להגדיר את הפונקציות הטריגונומטריות בצורה דומה, רק עבור מספר מרוכב כלשהו? נגדיר:

\(\sin z=\frac{e^{iz}-e^{-iz}}{2i}\)

\(\cos z=\frac{e^{iz}+e^{-iz}}{2}\)

נראה קצת עקום – אנחנו מגדירים סינוס וקוסינוס מרוכבים על ידי אקספוננט מרוכב שמוגדר על ידי סינוס וקוסינוס ממשיים. מצד שני, זה גם קצת משעשע.

כעת אפשר לדבר על פונקציות השורש והלוגריתם. הפונקציות הללו הן הופכיות של פונקציות שכבר הגדרנו: שורש הוא ההופכי של \(z^{2}\), ולוגריתם הוא ההופכי של \(e^{z}\). צריך להוכיח שהופכי כזה בכלל מוגדר, אבל נעזוב את זה לבינתיים ונתמקד בבעיה המעניינת הרבה יותר שיש לנו: יש כמה פונקציות הופכיות שונות. זה המושג של ענפים שהזכרתי בפוסט הקודם. לפני שניכנס לנושא הזה, בואו ננסה לחשוב לרגע על הפונקציות שכבר ראינו באופן גאומטרי יותר – ובד בבד לדון בשאלה איך אפשר לצייר אותן.

איך מציירים פונקציות ממשיות כולנו יודעים. הנה למשל הגרף של \(f\left(x\right)=x^{2}\):

  x_2

הרעיון בגרף הוא פשוט: ציר אחד מתאר את ערכי ה-\(x\) שהפונקציה מקבלת, והציר השני מתאר את ערכי הפלטים הפלטים שהפונקציה יכולה לקבל. אנחנו מסמנים כל נקודה מהצורה \(\left(x,f\left(x\right)\right)\), וקיבלנו ייצוג ויזואלי יפה של הפונקציה. אפשר לעשות תעלול דומה גם עבור פונקציות שמקבלות שני מספרים ממשיים ומחזירות מספר ממשי בודד – במקרה הזה הגרף ייראה כמו משטח, שהערך של הפונקציה קובע את הגובה שלו. הנה המשטח שמתאים ל-\(f\left(x,y\right)=x^{2}+y^{2}\):

3d

פורמלית, הגרף הזה הוא אוסף כל השלשות \(\left(x,y,f\left(x,y\right)\right)\) במרחב, כלומר תת-קבוצה של \(\mathbb{R}^{3}\).

כל זה טוב ויפה, אבל מה עושים עם פונקציות מרוכבות? כל מספר מרוכב מתואר על ידי זוג של מספרים ממשיים, כך שהגרף של פונקציה מרוכבת יהיה אוסף של נקודות שנראות ככה: \(\left(a+bi,\mbox{Re}f\left(a+bi\right)+\mbox{Im}f\left(a+bi\right)i\right)\), או כשננסה לצייר אותן בתוך מרחב ממשי כלשהו, רביעיות של נקודות שנראות כך: \(\left(a,b,\mbox{Re}f\left(a+bi\right),\mbox{Im}f\left(a+bi\right)\right)\). הבעיה היא שאנחנו לא יודעים לצייר דברים ארבע-ממדיים בצורה נוחה במיוחד. זה לא אומר שאי אפשר לעשות את זה – אפשר להשתמש, למשל, בצבעים כדי להוסיף מימד נוסף לתמונה וגם עושים את זה – אבל אני לא הכי אוהב את הגישה הזו. יש גישה אחרת לכל העניין, שבמובנים מסויימים עוזרת הרבה יותר להבין את הפונקציות – להסתכל לא על כל הפונקציה בבת אחת, אלא לראות מה היא עושה לתת-קבוצות "נחמדות" של \(\mathbb{R}^{2}\). בשיטה הזו מציירים גרף אחד שהוא תת-קבוצה של המישור המרוכב לפני הפעלת הפונקציה, וגרף אחר שהוא התמונה של אותה תת-קבוצה אחרי הפעלת הפונקציה. לעתים קרובות גם מוסיפים חצים במרווחים שווים כדי לתת תחושה של כמה הפונקציה "מנפחת" או "מכווצת". הדרך הטובה ביותר להסביר את זה היא לתת דוגמה:
z_2

מה הולך כאן בכלל? ובכן, ראשית אני מתנצל אם האיורים נראים חובבניים – הם באמת כאלו! לא הצלחתי למצוא שום כלי שייצר בדיוק את מה שרציתי, אז כתבתי סקריפט ב-Sage (שאפשר לראות כאן) שיעשה את זה בשבילי. אני מקווה שהאיורים מספיק ברורים כדי להבין את הנקודות שאני רוצה להמחיש.

ובכן, האיור מורכב משני מישורים – השמאלי הוא המקור והימני הוא התמונה. במישור השמאלי אנחנו רואים כל מני עקומות במישור – במקרה שלנו אלו שלושה קווים ישרים ושלוש קשתות. כל הישרים הם מאורך 2, ויוצרים זוויות של \(0^{\circ},30^{\circ},60^{\circ}\) עם הכיוון החיובי של ציר \(x\). הקשתות הן כולן מהזווית \(0^{\circ}\) ועד \(60^{\circ}\), והן נבדלות ברדיוס המעגלים שלהן (כל קשת היא חלק ממעגל שמרכזו בראשית הצירים): הרדיוסים הם \(\sqrt{\frac{1}{2}},1,\sqrt{2}\). למה רדיוסים כאלו? כדי שיצא נחמד אחר כך.

עכשיו, המישור הימני ממחיש מה קורה לעקומים הללו אחרי שמפעילים עליהם את הפונקציה \(f\left(z\right)=z^{2}\). בואו ניקח לדוגמה את הקטע שהזווית שלו עם ציר \(x\) היא \(60^{\circ}\), כלומר \(\frac{\pi}{3}\) רדיאנים: המשוואה של עקום כזה היא \(z\left(t\right)=te^{i\frac{\pi}{3}}\) כאשר \(0\le t\le2\) ("עקום" בהקשר של המרחב הממשי הוא פונקציה \(f:\mathbb{R}\to\mathbb{R}^{2}\) שנהוג לסמן בתור \(f\left(t\right)=\left(x\left(t\right),y\left(t\right)\right)\); כאשר \(f\left(t\right)\) מחזיר מספר מרוכב הוא מכיל בו זמנית את המידע על קואורדינטת ה-\(x\) ועל קואורדינטת ה-\(y\)). על כן, אחרי שנפעיל את \(f\left(z\right)=z^{2}\) על העקום, נקבל את העקום החדש \(\left(te^{i\frac{\pi}{3}}\right)^{2}=t^{2}e^{i\frac{2\pi}{3}}\). מה קרה? האורך של העקום הועלה בריבוע, בעוד שהזווית של העקום הוכפלה פי 2. ואכן, בציור די קל לראות שהאורך החדש של הקטע הוא פחות או יותר 4, ושהזווית שלו גדלה מספיק כדי להעביר אותו לרביע השני (מדידה מדוייקת תראה שהיא אכן \(120^{\circ}\)). באופן דומה אפשר להבין את מה שקרה לשני הקטעים האחרים, כשהמעניין מביניהם הוא זה שקשה לראות, שפשוט נח על ציר \(x\) ולא זז משם גם אחרי הפעלת הפונקציה (כי זווית 0, כשכופלים אותה ב-2, נותרת 0). שימו לב גם לחצים – אני מצייר חץ בכל פעם שהפרמטר \(t\) עובר עוד רבע מהתחום הכולל שלו, ולכן בגרף של המקור הם במרווחים שווים; בגרף של התמונה המרווחים כבר אינם שווים – מדוע?

עכשיו, מה קורה לקשתות? אותו הדבר! הרדיוס של הקשת מועלה בריבוע, בעוד שאורך הקשת גדל פי 2. זה אומר, בפרט, שמעגל שלם של \(360^{\circ}\) הולך לעבור לשני מעגלים שמכסים האחד את השני; עוד נחזור לזה. הקשתות שלי נבחרו כך שאחת מהן תגדל ברדיוסה (משורש 2 ל-2), השניה לא תשתנה (מ-1 ל-1) ואילו השלישית תקטן (מהשורש של חצי – שגדול מחצי – אל חצי).

אני חושב ששילוב שתי דרכי ההתבוננות הללו – מה העלאה בריבוע עושה לקטעים שיוצאים מהראשית, ומה היא עושה לקשתות שמקיפות את הראשית – עוזרות לתת תחושה טובה מאוד של איך \(z^{2}\) מתנהגת. ואם הבנו את \(z^{2}\), אז בעצם \(z^{n}\) לכל \(n\) טבעי זה אותו רעיון. עכשיו אפשר לעבור לפונקציה יותר מתוחכמת.

הפונקציה המתבקשת היא אקספוננט: אנחנו מתארים ממילא מספרים מרוכבים עם אקספוננט, אז למה לא לקחת את זה לשלב הבא?

exp

מה הולך כאן? יש לנו שתי קבוצות של ישרים – אופקיים ואנכיים. הישרים האופקיים עוברים לישרים שיוצאים מהראשית בזווית כלשהי ("קרניים"); הישרים האנכיים הופכים למעגלים. למה זה? פשוט למדי. המשוואה של ישר אופקי היא \(z\left(t\right)=t+bi\) כאשר \(b\) קבוע ומתאר את הגובה של הישר ביחס לציר \(x\) (גובה שיכול להיות גם שלילי, כמובן). אחרי הפעלת אקספוננט, נקבל \(e^{t+bi}=e^{t}\cdot e^{bi}\). כלומר, ישר שנמצא בזווית \(b\) עם הכיוון החיובי של ציר \(x\). נסו רגע לדמיין בעיני רוחכם אנימציה (צר לי, אני לא מוכשר מספיק כדי לתכנת משהו אינטראקטיבי) – קחו ישר אופקי והרימו/הורידו אותו, ודמיינו את התמונה שלו מסתובבת בהתאם.

נעבור לישרים אנכיים, כלומר מהצורה \(a+ti\). כאן הם יעברו ל-\(e^{a}\cdot e^{ti}\), כלומר למעגל בעל רדיוס קבוע (\(e^{a}\)) שמסתובב כל הזמן (בכל פעם שבה \(t\) עובר על פני אורך של \(2\pi\) מהישר הוא משלים עוד סיבוב; בכוונה ציירתי קטעים שאורכם \(2\pi\). דמיינו מה קורה כשמזיזים את הישר האנכי ימינה ושמאלה – כשמזיזים ימינה המעגל "מתנפח", וכשמזיזים שמאלה הוא "מתכווץ" עד אינסוף (ככל שהישר יותר שמאלי כך המעגל בעל רדיוס קטן יותר; שימו לב שבראשית הצירים הרדיוס יהיה 1 ואחר כך הוא ימשיך לקטון – אין פה סימטריה ביחס לצירים).

עכשיו בואו נעבור לקוסינוס, וננסה לנחש קודם כל מה יקרה. קוסינוס הוא \(\frac{e^{iz}+e^{-iz}}{2}\). אפשר להתעלם מהחלוקה ב-2 שכנראה לא תהיה מהותית להבנת הגיאומטריה פה – נסתכל על \(e^{iz}-e^{-iz}\). איך המכפלה ב-\(i\) במכנה משפיעה? היא מחליפה את תפקידי החלק הממשי והמדומה. בואו נסתכל שניה על \(e^{iz}\) לבדה – אם נציב \(z=a+bi\) נקבל \(e^{-b+ai}=e^{-b}e^{ai}\), כלומר כאן הסיבוב דווקא נקבל על ידי \(a\) ואילו \(b\) שולט על הרדיוס, אבל באופן הפוך למה שקרה באקספוננט – כאן ככל ש-\(b\) גדול יותר (קחו ישר אופקי ותרימו אותו מעלה מעלה) כך הרדיוס יהיה קטן יותר.

אבל, זה רק חלק מהסיפור! יש לנו גם את \(e^{-iz}\) במשחק, והוא יהפוך ל-\(e^{b-ai}=e^{b}e^{-ai}\). ההבדל בינו ובין \(e^{iz}\) הוא בכך שכיוון הסיבוב מתהפך (בגלל ש-\(a\) הוכפל במינוס 1), ושככל ש-\(b\) גדול יותר כך הערך של \(e^{iz}\) גדול יותר. במובן מסויים \(e^{iz}\) ו-\(e^{-iz}\) משלימים אחד את השני – כל אחד מהם הופך ליותר ויותר דומיננטי עבור ישרים אופקיים שהולכים ומתרחקים מראשית הצירים. לכן די ברור שעבור ערכים גדולים מאוד או קטנים מאוד של \(b\) נקבל משהו שנראה כמו מעגל. אבל עבור ערכים קטנים? האם אתם יכולים לנחש מה נראה?

ובכן, אולי אתם יכולים, אני בטח שלא יכול. במקום זאת, בואו נחשב דברים בפועל עם נוסחת אוילר: \(e^{-b}e^{ai}=e^{-b}\cos a+ie^{-b}\sin a\), ובדומה \(e^{b}e^{-ai}=e^{b}\cos a-ie^{b}\sin a\). לכן, אם נסכום את שניהם, נחשוב על \(a\) בתור פרמטר \(t\) ונסתכל על העקום שנקבל, נראה שקיבלנו עקום מהצורה \(\left(\frac{e^{-b}+e^{b}}{2}\cos t,\frac{e^{-b}-e^{b}}{2}\sin t\right)\). את הנוסחה הזו אולי אתם מכירים בתור ההצגה הפרמטרית של אליפסה. ואכן, אם נסתכל על מה שנקבל עבור ערכי \(b\) קטנים נראה בבירור אליפסה; כמובן, גם עבור ערכי \(b\) גדולים (בערכם המוחלט) אנחנו מקבלים אליפסה ולא מעגל, אבל אליפסה שנראית מאוד מאוד דומה למעגל.

והנה התמונה:

cos_ellipse

(שימו לב – והסבירו לעצמכם – לכיווני החצים על האליפסות השונות).

כל זה – רק עבור ישרים אופקיים, שבהם \(a\) משתנה ו-\(b\) קבוע. מה קורה עבור ישרים אנכיים, מהצורה \(a+ti\)? טוב, כאן קורה משהו מוזר מאוד שיש סיכוי שלא יהיה מוכר ללא מעט קוראים, כי בבית הספר בכלל לא נתקלים במשהו כזה. אנחנו נקבל עקום מהצורה \(\left(\frac{e^{t}+e^{-t}}{2}\cos a,\frac{e^{t}-e^{-t}}{2}\sin a\right)\) (קצת הפכתי את הסימן של \(t\) כדי שיתאים לסטנדרט שאני בא לתאר) אם עכשיו אסמן \(\alpha=\cos a\) ו-\(\beta=\sin a\) אני אוכל לכתוב את העקום גם בצורה שונה: \(\left(\alpha\cosh t,\beta\sinh t\right)\), כאשר \(\cosh\) ו-\(\sinh\) הן פונקציות ממשיות שידועות בתור פונקציות היפרבוליות, וראוי להקדיש להן פוסט שלם משל עצמן – מה שלא אעשה כעת. רק אעיר שהן מוגדרות בתור \(\cosh x=\frac{e^{x}+e^{-x}}{2}\) ו-\(\sinh x=\frac{e^{x}-e^{-x}}{2}\) (הדמיון בין הגדרה זו להגדרה של סינוס וקוסינוס מרוכבים הוא כמובן לא מקרי, וגם לא הבחירה בשמות "קוסינוס היפרבולי" ו"סינוס היפרבולי" עבור הפונקציות). כפי שהעקום שמתואר על ידי הפרמטריזציה \(\left(\alpha\cos t,\beta\sin t\right)\) מתאר אליפסה, כך העקום שמתואר על ידי הפרמטריזציה \(\left(\alpha\cosh t,\beta\sinh t\right)\) מתאר היפרבולה, ומכאן ה"היפרבולי" בשם הפונקציות. לכן לא מפתיע כל כך – עבור מי שיודע איך היפרבולה אמורה להיראות – לראות את התמונה הבאה:

cos_hyperbole

אפשר לנחש בשלב הזה שתמונה של סינוס תהיה דומה, אולי עם החלפת תפקידים של ישרים אנכיים ואופקיים, אבל כאן מצפה לנו עוד הפתעה קטנה – החלק השני של ההיפרבולה:

sin

מאיפה זה הגיע? ובכן, אפשר לבצע את החישוב המפורש או לנקוט בדרכי קיצור, אבל בסופו של דבר זה נובע מהתכונה הישנה לפיה קוסינוס היא פונקציה זוגית ואילו סינוס היא פונקציה אי זוגית.

לא סיימנו לטפל בפונקציות כי טרם הגענו לחלק המעניין באמת – הגדרת פונקציות שהן הופכיות של פונקציות אחרות (שורש, לוגריתם). עם זאת, נחכה עם זה קצת, ובפוסט הבא סוף סוף נלכלך את הידיים עם קצת אנליזה. אני מקווה שנהנתם בינתיים – הגרפים שהצגתי מבהירים, לטעמי, עד כמה הפונקציות המוכרות לנו הופכות למעניינות כשמסתכלים עליהן במישור המרוכב, והאופן שבו פתאום נכנסות לתמונה צורות גאומטריות מבית הספר כמו אליפסות והיפרבולות הוא בכלל בונוס משמעותי.

אז מה זו אנליזה מרוכבת?

בזמן הלא מועט שחלף מאז שהתחלתי את כתיבת הבלוג אני מקווה שהצלחתי לגעת במשהו מכמעט כל נושאי הבסיס שבהם סטודנטים לתואר ראשון במתמטיקה יתקלו בודאות במהלך התואר שלהם. אלא שעדיין, רק כמעט, ועוד נותרו מספר חורים מטרידים. אני רוצה להתחיל עכשיו לסגור את החור המטריד ביותר, של נושא חשוב ויפה מאין כמותו שטרם כתבתי עליו שום דבר בבלוג – אנליזה מרוכבת. קשה לי לחשוב על נושא בסיסי יותר, או יפה יותר, או חשוב יותר, שלא הוקדש לו שום דבר בבלוג עד עכשיו.

אז מה זו אנליזה מרוכבת? במשפט מחץ אחד, זה מה שקורה כשלוקחים את החשבון האינפיניטסימלי (החשבון הדיפרנציאלי והאינטגרלי) ועושים אותו לא על המספרים הממשיים אלא על המספרים המרוכבים. ובתיאור הזה אני כבר רומז שרצוי מאוד, ואפילו הכרחי, להכיר את החשבון האינפיניטסימלי של המספרים הממשיים לפני שמתחילים לדבר על אנליזה מרוכבת. יש לי פוסטים בנושא ואני אניח מכאן והלאה שהקוראים מכירים אינפי, למרות שאני מקווה שהפוסט הספציפי הזה יהיה נגיש עדיין גם למי שלא מכירים אותו. אני אמנם מתכוון להגדיר את המושגים המרכזיים בכל מקרה, אבל להכיר אנליזה מרוכבת בלי להכיר אינפי רגיל זה בערך כמו לשמוע שוסטקוביץ' בלי להכיר מוזיקה קלאסית – אפשר ליהנות, אולי, אבל הרבה מזה יישמע מוזר ובלי ההקשר הרלוונטי לא יהיה ברור מה הקטע. כך גם עם אנליזה מרוכבת ואינפי: בלי נקודת הייחוס של האינפי קשה יותר להבין את התעלולים שעושים באנליזה מרוכבת, וגם קשה יותר להבין למה התוצאות שלה כל כך יפות.

ולמה שאנליזה מרוכבת תעניין אותנו בכלל? למה שנרצה לעשות אינפי על מספרים מרוכבים? ובכן, יש לכך שלוש תשובות, שהן לרוב התשובות לכל שאלה של "למה עושים משהו במתמטיקה:

  1. כי אנחנו יכולים.
  2. כי זה יפה.
  3. כי זה שימושי.

"כי אנחנו יכולים" זו תשובה טיפה מוגזמת, כי במתמטיקה אפשר לעשות שלל דברים שאף אחד לא מעלה על דעתו לעשות כי אין בהם טעם; נימוק יותר מדויק יהיה "כי אנחנו יכולים, כי זה מתבקש וכי יוצאים מזה דברים". אינפי על מספרים ממשיים זה מגניב; המרכיבים הדרושים לביצוע אינפי נמצאים גם במספרים המרוכבים, והמספרים המרוכבים הם ההרחבה הטבעית ביותר של הממשיים; לעשות אינפי על המרוכבים ממש מתבקש.

למה זה יפה? ובכן, חכו ותראו, זה כל מה שאני יכול להבטיח בינתיים. ומה באשר לשימושים? גם כאלו נראה בהמשך, אבל כבר עכשיו חשוב להבהיר שמדובר על שימושים שחורגים מהתחום של המספרים המרוכבים לבדם: יש לאנליזה מרוכבת שימושים שמתקשרים לנושאים שלא מזכירים אפילו ברמז את המספרים המרוכבים. הדוגמא המפורסמת ביותר, שכן הזכרתי בעבר בבלוג, היא משפט המספרים הראשוניים, שהוא תוצאה חשובה מאין כמותה שמתארת את ההתפלגות של המספרים הראשוניים – שהם מספרים טבעיים שמתחלקים רק ב-1 ובעצמם, ועל פניו אין בינם ובין מספרים מרוכבים שום קשר; ועם זאת, הוכחת משפט המספרים הראשוניים היא הוכחה באנליזה מרוכבת, באמצעות כלים של אנליזה מרוכבת.

מבחינה היסטורית, למרות שמספרים מרוכבים היו מוכרים עוד במאה ה-16 בתור כלי לפתרון משוואות אלגבריות, ולמרות שאוילר התעסק איתם במאה ה-18, "תור הזהב" של האנליזה המרוכבת, שבו נוסח ונתגלה הבסיס שאותו מלמדים באוניברסיטאות עד היום, היה במאה ה-19 (ולדעתי האנליזה המרוכבת היא אחד מההישגים המתמטיים הכבירים ביותר של המאה ה-19). שני השמות המפורסמים ביותר בהקשר הזה הם של אוגוסטין לואי קושי ושל ברנהרד רימן, אבל מן הסתם היה מדובר על פרי עבודה משמעותית של מתמטיקאים נוספים רבים. אני לא בקיא יותר מדי בפרטים ההיסטוריים של התפתחות התחום ואולי אקדיש להם פוסטים בעתיד, אבל לעת עתה אסתפק בכך.

נעבור לדבר עכשיו על הכוכבים של האנליזה המרוכבת – המספרים המרוכבים. מיהם ומהם? ובכן, נניח שאנחנו יודעים מהם המספרים הממשיים, \(\mathbb{R}\) (וזו בעיה בפני עצמה, הרי הם אובייקט מורכב מאוד, אבל נעזוב את זה). המספרים המרוכבים הם מה שמקבלים כאשר מכניסים למשחק מספר חדש, \(i\), שמקיים את התכונה המלבבת ש-\(i^{2}=-1\) (וזאת בזמן שכל מספר ממשי בריבוע הוא בהכרח אי שלילי), ואז מסתכלים על כל המספרים מהצורה \(a+bi\) כאשר \(a,b\) ממשיים. לאוסף הזה קוראים המספרים המרוכבים, מסמנים אותו ב-\(\mathbb{C}\), ומגדירים עליו פעולות חשבון באופן "טבעי": \(\left(a+bi\right)+\left(c+di\right)=\left(a+c\right)+\left(b+d\right)i\) לחיבור, ו-

\(\left(a+bi\right)\left(c+di\right)=ac+adi+bci+bdi^{2}=\left(ac-bd\right)+\left(ad+bc\right)i\)

עבור כפל.

הגישה הזו היא מה שאני מכנה "גישת בית הספר", כי בבית הספר שבו הייתי פשוט זרקו על התלמידים את \(i\) הזה ונתנו להם להתמודד איתו. זו כמובן גישה מטרידה מאוד – אין לנו מושג מאיפה בא ה-\(i\) הזה או למה שמשהו מוזר כל כך יהיה קיים בכלל. כתוצאה מהגישה הזו נוצר אנטגוניזם די גדול כלפי המספרים המרוכבים, עד כדי תפיסה שהם "לא מציאותיים" (גם העובדה שקוראים ל-\(i\) "מספר מדומה" – כפי שדקארט קרא לו בלעג הרבה לפני שהמספרים המרוכבים הפכו לאובייקט מרכזי במתמטיקה כמו שהם היום – לא עוזרת). לכן בדרך כלל בספרי לימוד נוקטים בגישה אחרת. כולם מסכימים שמספרים ממשיים קיימים, ולכן במקום לדבר על מספרים מרוכבים, מדברים על זוגות של ממשיים, כלומר על יצורים מהצורה \(\left(a,b\right)\) כאשר \(a,b\) ממשיים. על היצורים הללו מגדירים חיבור "איבר איבר", כלומר \(\left(a,b\right)+\left(c,d\right)=\left(a+c,b+d\right)\), ומגדירים גם כפל בצורה שנראית מוזרה בהתחלה: \(\left(a,b\right)\left(c,d\right)=\left(ac-bd,ad+bc\right)\). כמובן שכשאנחנו יודעים מה המטרה של ההגדרה הזו היא נראית קצת פחות מוזרה. כעת אפשר לשים לב לכך ש-\(\left(0,1\right)\left(0,1\right)=\left(-1,0\right)\) על פי הגדרת הכפל הזו, ואז אפשר לסמן את \(\left(0,1\right)\) בסימון \(i\) ואת הזוג \(\left(a,b\right)\) בסימון \(a+bi\), והופס! קיבלנו את המספרים המרוכבים שתיארנו קודם, רק שעכשיו קשה לחלוק על כך שהם קיימים, כי בסך הכל מדובר על קבוצה של זוגות של ממשיים עם פעולות חיבור וכפל מסויימות. בניה דומה היא זו שמגדירה את המספרים הרציונליים: אפשר לחשוב עליהם כעל (בערך) אוסף של זוגות של מספרים שלמים עם פעולות חיבור וכפל מסויימות.

למרות שהגישה לעיל נפוצה ברוב ספרי המתמטיקה שמציגים מספרים מרוכבים, די בבירור היא עדיין מרגישה מלאכותית משהו. הדרך הנכונה לטעמי להציג את המספרים המרוכבים היא כחלק ממושג כללי הרבה יותר, של הרחבה אלגברית של שדות; אלא שזה מושג שמצריך ידע כלשהו באלגברה מופשטת שבדרך כלל לא מניחים שיש אצל הקורא ולכן לא מתארים את הגישה הזו, וגם אני לא אעשה זאת כאן (פורמלית, למי שמכיר את המושגים, המרוכבים מתקבלים כחוג המנה של חוג הפולינומים במשתנה אחד מעל \(\mathbb{R}\) כשמחלקים אותו באידאל שנוצר על ידי הפולינום האי-פריק \(x^{2}+1\) – אבל מי שמבין את מה שאמרתי כרגע כנראה כבר מכיר את הבניה הזו).

עדיין, גם אם לא מערערים על קיומם של המספרים המרוכבים, פעולת הכפל שלהם נראית מוזרה למדי. הרבה יותר טבעי היה לכפול "איבר איבר", כמו שמחברים: \(\left(a,b\right)\left(c,d\right)=\left(ac,bd\right)\). למה לא עושים זאת? ובכן, כי המטרה שלנו היא להרחיב את \(\mathbb{R}\) כדי שנקבל שדה. שדה היא קבוצה של איברים שמוגדרות עליה פעולות חיבור וכפל שמתנהגות, ובכן, כמו שחיבור וכפל ב-\(\mathbb{R}\) מתנהגים: חוקי החילוף, הקיבוץ והפילוג, וכמו כן שיהיה איבר נייטרלי לחיבור (0), איבר נייטרלי לכפל (1), איברים נגדיים לחיבור (לכל \(x\) יש מספר \(y\) כך ש-\(x+y=0\)) ואיברים הופכיים לכפל (לכל \(x\ne0\) יש מספר \(y\) כך ש-\(xy=1\)). אם נבחר בהגדרת הכפל הנאיבית, לא נקבל שדה, כי למשל ל-\(\left(1,0\right)\) לא יהיה איבר הופכי לכפל (למה? מי האיבר הנייטרלי לכפל בקבוצה הזו?)

לעומת זאת, המספרים המרוכבים עם פעולת הכפל ה"מוזרה" אכן מהווים שדה. לשם כך צריך להראות כיצד, בהינתן מספר \(a+bi\) כך ש-\(a\ne0\) או ש-\(b\ne0\), אפשר למצוא לו הופכי כפלי. במילים אחרות, מהו \(\frac{1}{a+bi}\)? האם אפשר לכתוב אותו בתור מספר מהצורה \(x+yi\)? ובכן, בואו ננסה, עם תעלול סטנדרטי: נכפול מונה ומכנה באותו מספר, שבמקרה שלנו יהיה \(a-bi\). למה? כי \(\left(a+bi\right)\left(a-bi\right)=a^{2}-b^{2}i^{2}=a^{2}+b^{2}\), ולכן נקבל ש-\(\frac{1}{a+bi}=\frac{a-bi}{a^{2}+b^{2}}\), וזה כבר מספר מהצורה \(x+yi\) (עם \(x=\frac{a}{a^{2}+b^{2}}\) ו-\(y=-\frac{b}{a^{2}+b^{2}}\)).

כמובן שלא מספיק להראות את זה כדי להראות שהמרוכבים הם שדה, אבל אני עצלן ולא אכנס לבדיקת שאר התכונות. תחת זאת, אני רוצה לתת מעמד מיוחד לשני המספרים שהופיעו בביטוי \(\frac{a-bi}{a^{2}+b^{2}}\). הראשון, \(a-bi\), בעצם זהה ל-\(a+bi\) שממנו התחלנו פרט לכך שהמקדם של \(i\) הפך את הסימן שלו. באופן כללי אם \(z=a+bi\) (בדרך כלל מסמנים מספרים מרוכבים ב-\(z,w\) ואותיות דומות) אז הצמוד של \(z\), שמסומן \(\overline{z}\), מוגדר להיות \(\overline{z}=a-bi\). בתור תרגיל מומלץ להוכיח ש-\(\overline{z+w}=\overline{z}+\overline{w}\) ו-\(\overline{zw}=\overline{z}\cdot\overline{w}\).

עכשיו, המספר השני שאפשר "להפיק" מתוך \(z=a+bi\) הוא \(a^{2}+b^{2}\). שימו לב שזה תמיד מספר ממשי, ותמיד מספר אי שלילי. עוד רגע נדבר על המשמעות הגיאומטרית שלו ואז יתברר למה זה מעניין, וגם יתברר למה אני מגדיר את ההגדרה הבאה: המודולוס, או הערך המוחלט של \(z=a+bi\) מוגדר להיות \(\left|z\right|=\sqrt{a^{2}+b^{2}}\). מה שאומר ש-\(a^{2}+b^{2}=\left|z\right|^{2}\).

כעת יש לנו דרך קומפקטית לרשום את מה שגילינו: \(\frac{1}{z}=\frac{\overline{z}}{\left|z\right|^{2}}\), ובאופן כללי שמנו לב לכך ש-\(z\cdot\overline{z}=\left|z\right|^{2}\). לסיום סקירת התכונות של צמוד ומודולוס, בואו נכניס עוד סימון לתמונה: אם \(z=a+bi\) אז מסמנים \(\mbox{Re}z=a\) ו-\(\mbox{Im}z=b\) ("החלק הממשי" ו"החלק המדומה" של \(z\), בהתאמה). עכשיו קל לראות ש-\(\mbox{Re}z=\frac{z+\overline{z}}{2}\) ו-\(\mbox{Im}z=\frac{z-\overline{z}}{2i}\).

בואו נעבור לדבר על גיאומטריה. באופן כללי באנליזה מורכבת אין מנוס מדיבור על גאומטריה – זו כנראה הדרך הטבעית ביותר לדבר על הנושא הזה, והרבה יותר קל להבין אותו בעזרתה. האבחנה הבסיסית היא שקל לחשוב על המספרים המרוכבים בתור נקודות במישור, וכך גם מציירים אותם. כדי שיהיה ברור שמדובר על מספרים מרוכבים קוראים למישור הזה "המישור המרוכב", אבל הוא נראה בדיוק כמו מישור רגיל. המספר \(a+bi\) מיוצג בו על ידי הנקודה \(\left(a,b\right)\).

עכשיו, כל נקודה שהיא מספר מרוכב אפשר לחבר בקו ישר לראשית. לקו הזה יש אורך, ושימוש זריז במשפט פיתגורס מראה שהאורך הזה הוא \(\sqrt{a^{2}+b^{2}}\) עבור המספר המרוכב \(a+bi\). במילים אחרות – המשמעות הגאומטרית של \(\left|z\right|\) היא המרחק של \(\left|z\right|\) מראשית הצירים. ומה המשמעות הגאומטרית של \(\overline{z}\)? שלפו נייר ועט וציירו בעצמכם; לא קשה לראות ש-\(\overline{z}\) הוא הנקודה שמתקבלת כאשר משקפים את \(z\) ביחס לציר \(x\). (מה זה חוסר הסימטריה הזה בין ציר \(x\) וציר \(y\), שעוד יחזור בהמשך? זה בגלל שציר \(x\) מייצג את המספרים הממשיים וציר \(y\) את המדומים).

כאשר מייצגים מספר מרוכב בתור \(a+bi\), בעצם נותנים את הקואורדינטות הקרטזיות שלו במישור המרוכב. זו דרך אחת לייצג מספרים מרוכבים, אבל דרך אחרת היא לתת שני פרמטרים שונים – המרחק של הנקודה מראשית הצירים, והזווית שהקטע שמחבר את הנקודה עם ראשית הצירים יוצר עם אחד הצירים. מכיוון שרוצים שעבור מספרים ממשיים חיוביים הזווית הזו תהיה אפס, בוחרים לדבר על הזווית של הקטע הזה ביחס לכיוון החיובי של ציר \(x\) – כמה צריך לסובב את הקטע עם כיוון השעון כדי שהוא יתלכד עם ציר \(x\). לזווית הזו קוראים הארגומנט של המספר המרוכב. למשל, לא קשה לראות שהמספר \(1+i\) הוא בעל ארגומנט של 45 מעלות – ומכיוון שאנחנו עוסקים בחדו"א, לא נדבר על מעלות אלא על רדיאנים, כלומר הארגומנט הוא בעל \(\frac{\pi}{4}\) רדיאנים. מסמנים זאת \(\mbox{Arg}\left(1+i\right)=\frac{\pi}{4}\).

אלא שיש עם המושג של הארגומנט בעיה – אם נסובב את הקטע שמחבר את \(1+i\) עם ראשית הצירים בזווית של \(\frac{\pi}{4}\) הוא יתלכד עם ציר \(x\), אבל גם אם נסובב אותו בזווית של \(\frac{9\pi}{4}\), וגם אם נסובב אותו בזווית של \(-\frac{7\pi}{4}\), ובאופן כללי – כל סיבוב בזווית \(\frac{\pi}{4}+2k\pi\) כאשר \(k\in\mathbb{Z}\) ייתן את אותו אפקט. בעצם, יש לנו קבוצה אינסופית של זוויות, שמסומנת בתור \(\mbox{arg}\left(1+i\right)=\left\{ \frac{\pi}{4}+2k\pi\ |\ k\in\mathbb{Z}\right\} \). מכיוון שלפעמים אנחנו רוצים לדבר על נציג קנוני של הקבוצה הזו, אנחנו מגדירים את \(\mbox{Arg}\) (עם אות גדולה בהתחלה, להבדיל מ-\(\mbox{arg}\) שמייצג את הקבוצה כולה) בתור האיבר היחיד של \(\mbox{arg}\) שהוא בין \(-\pi\) ו-\(\pi\).

הדיון התמים הזה מסתיר בתוכו את אחת המהומות הגדולות ביותר שנתקלים בהן כשמתחילים לדבר על פונקציות מרוכבות. \(\mbox{arg}\) היא דוגמה לפונקציה שכזו, שסובלת מ"בעיה" קטנה – היא מחזירה לא ערך אחד, אלא קבוצה שלמה של ערכים. לפונקציה כזו קוראים פונקציה מרובת ערכים. פורמלית, פונקציה \(f:A\to B\) מוגדרת בתור משהו שלכל איבר ב-\(A\) מתאים איבר יחיד ב-\(B\), כך שאם מדברים על "פונקציה מרובת ערכים" \(f:A\to B\) ברור שזו לא פונקציה במובן הפורמלי של ההגדרה, אבל זו כן פונקציה אם משנים את הטווח: \(f:A\to2^{B}\) (לכל איבר ב-\(A\) מתאימים תת-קבוצה של \(B\)). כשמתעסקים בפונקציות מרוכבות הפורמליזם הזה לא מעניין אף אחד ולכן ממשיכים לדבר על הפונקציות מרובות הערכים כפונקציות מ-\(A\) ל-\(B\), פשוט כאלו שמקבלות יותר מערך אחד. אם יש לנו פונקציה כזו, אפשר להגדיר מתוכה פונקציה חד ערכית על ידי בחירה של נציג מכל קבוצה – פונקציה חד ערכית כזו נקראת ענף של הפונקציה המקורית.

בואו נראה דוגמה פשוטה: פונקציית השורש, \(f\left(z\right)=\sqrt{z}\). עזבו אתכם ממספרים מרוכבים לבינתיים ותחשבו על מספרים ממשיים כי הדיון הזה עובד גם שם: אנחנו יודעים שלכל מספר חיובי \(a\) קיימים שני שורשים ממשיים, שבדרך כלל אנחנו מסמנים בתור \(\sqrt{a}\) ובתור \(-\sqrt{a}\), כאשר המוסכמה היא ש-\(\sqrt{a}\) מסמן את השורש החיובי. למשל, אם \(a=9\) אז השורשים של \(a\) הם 3 ו-\(-3\).

אם כן, אם חושבים על שורש בתור פונקציה מרובת ערכים, מקבלים את הפונקציה \(g\left(a\right)=\left\{ \sqrt{a},-\sqrt{a}\right\} \). עכשיו אפשר להגדיר את הענף \(g_{+}\left(a\right)=\sqrt{a}\) ואת הענף \(g_{-}\left(a\right)=-\sqrt{a}\) – קיבלנו מהפונקציה מרובת הערכים \(g\) שתי פונקציות "רגילות". איך הן משחקות זו עם זו? איך "מחברים" אותן ביחד? האם לקיחת ענף כזו לא יוצרת בעיות? למה לא לקחת ענף יותר מסובך, שבו לפעמים מחזירים \(\sqrt{a}\) ולפעמים מחזירים \(-\sqrt{a}\) לפי מצב הרוח? אלו שאלות טובות ונדון בהן בהמשך.

בואו נחזור לגאומטריה. אמרנו שאפשר לתאר כל מספר מרוכב לפי אורך הקטע שמחבר אותו עם הראשית והזווית של הקטע הזה עם הכיוון החיובי של ציר \(x\): אם האורך הוא \(r\) והזווית היא \(\theta\), אז טריגונומטריה בסיסית מראה שהקואורדינטות הקרטזיות הרגילות של המספר המרוכב הן \(r\cos\theta\) ו-\(r\sin\theta\), כלומר אפשר לכתוב את המספר המרוכב בתור \(r\cos\theta+ri\sin\theta\), או להוציא את \(r\) כגורם משותף החוצה ולכתוב \(r\left(\cos\theta+i\sin\theta\right)\). מכיוון שמסורבל לכתוב את הקוסינוס והסינוס בכל פעם כשהם תמיד עם אותה זווית, משתמשים לפעמים בקיצור \(\mbox{cis}\) (קיצור של \(\cos\) ואז המספר המדומה \(i\) ואז \(\sin\)) וכותבים את המספר בתור \(r\mbox{cis}\theta\). זו שיטת כתיב נפוצה מאוד בבית הספר התיכון, אבל כמעט ולא נתקלתי בה במקומות אחרים. לרוב במקום לכתוב \(\mbox{cis}\theta\) כותבים \(e^{i\theta}\) כאשר \(e\) הוא הקבוע המתמטי המפורסם ("בסיס הלוגריתם הטבעי"). הסיבה לכך שאפשר להשתמש בקיצור המוזר הזה היא שמתקיים \(e^{i\theta}=\cos\theta+i\sin\theta\) – תוצאה זו נקראת נוסחת אוילר והיא רק דוגמה אחת לדברים המגניבים שמקבלים כשמתחילים להתעסק עם אנליזה מרוכבת. לעת עתה אני ארשה לעצמי להשתמש בחופשיות בסימון הזה ובתכונות שנגזרות ממנו; בהמשך אני אוכיח שהוא נכון ואסביר מאיפה הוא מגיע (כדאי להעיר ש"נכונות" כאן היא עניין סובייקטיבי; כל עוד לא הגדרנו מהי חזקה מרוכבת של מספר מותר לנו להגדיר אותה להיות מה שמתחשק לנו, ואפשר לקחת את נוסחת אוילר בתור הגדרה; עם זאת, אני חושב שה"הוכחה" שאציג תהיה משכנעת למדי בהסבר מדוע זו ההגדרה הנכונה).

אילו תכונות נובעות מנוסחת אוילר? למשל, מה אנחנו יודעים קורה לחזקה של סכום? היא מתפרקת למכפלה של חזקות. כלומר, \(e^{x+y}=e^{x}e^{y}\). לכן:

\(\cos\left(\alpha+\beta\right)+i\sin\left(\alpha+\beta\right)=e^{i\left(\alpha+\beta\right)}=e^{i\alpha}e^{i\beta}=\left(\cos\alpha+i\sin\alpha\right)\left(\cos\beta+i\sin\beta\right)\)

\(=\left(\cos\alpha\cos\beta-\sin\alpha\sin\beta\right)+i\left(\sin\alpha\cos\beta+\cos\alpha\sin\beta\right)\)

וקיבלנו בן רגע שתי זהויות טריגונומטריות שסטודנטים מסכנים בבית הספר צריכים פשוט לשנן או לקרוא בדף הנוסחאות ומשום מה אף פעם לא נותנים להם שיטה אינטואיטיבית כמו זו כדי לזכור אותן:

\(\cos\left(\alpha+\beta\right)=\cos\alpha\cos\beta-\sin\alpha\sin\beta\)

\(\sin\left(\alpha+\beta\right)=\sin\alpha\cos\beta+\cos\alpha\sin\beta\)

שימו לב למה שנחמד פה – הזהויות הללו מתארות את סינוס וקוסינוס על זוויות ממשיות, כלומר אלו הן זהויות של פונקציות ממשיות, שמספרים מרוכבים לא מופיעים בהן ולו ברמז; עם זאת, להוכיח אותן באמצעות התבססות על תוצאות שמתקבלות ממספרים מרוכבים זה פשוט בצורה קיצונית (מרגע שיש לנו את התוצאות הללו, כמובן) ודרך ההוכחה הזו מספקת לנו תובנה נאה שמאפשרת לנו לראות למה הנוסחאות הללו נכונות – המספרים המרוכבים הרחיבו את אופק ההתבוננות שלנו גם על העולמות שאינם מרוכבים. זו אחת הסיבות שבגללן התחום הזה יפה כל כך – אבל כמובן, לא היחידה. כמו כל תחום מתמטי שמכבד את עצמו, גם לתחום הזה יש תוצאות יפהפיות שלא מחפשות הצדקה לקיומן בתוך תחומים אחרים.

כיצד תעזור לכם המתמטיקה לחמוק מדו"חות תנועה

בימים האחרונים מתרוצץ לו ברשת סיפור משעשע על פיזיקאי מאוניברסיטת סן דייגו, דימיטרי קריוקוב שמו, שקיבל דו"ח תנועה על אי עצירה בתמרור עצור, והצליח לשכנע את השופט לוותר לו על הקנס על ידי הגשת… מאמר מתמטי ש"מוכיח" את חפותו. שלל האתרים שמדברים על הפרשייה מתעקשים כמובן לומר שזה מאמר מתמטי "מלא נוסחאות סבוכות". ובכן, לא סבוכות ולא נעליים – הנה המאמר לכל המעוניין; הוא קריא מאוד, ובניגוד לטענות שצריך "תואר ראשון במתמטיקה או פיזיקה" בשבילו מספיק לדעתי ללמוד קורס אחד ספציפי בסמסטר הראשון של התארים הללו. למי שבכל זאת מפחד מהמאמר, אנסה להסביר כאן בקיצור מה קריוקוב בעצם עשה.

השורה התחתונה של קריוקוב היא מאוד פשוטה: הוא טוען שברגע שבו הרכב שלו הגיע לתמרור העצור, רכב אחר הסתיר אותו מפני השוטר. אז איך השוטר יודע שקריוקוב לא עצר? ובכן, על סמך המהירות שלו מייד לפני ומייד אחרי שהרכב הסתיר אותו. מה שקריוקוב מראה במאמר הוא שבאופן כללי, הסיטואציה שבה רכב נוסע במהירות קבועה על פני תמרור העצור והסיטואציה שבה הוא עוצר ומייד לאחר מכן מאיץ שוב ייראו זהות למתבונן מהצד, אם קיים באמצע פרק זמן שבו הרכב מוסתר. קריוקוב בהתחלה בונה מודל כללי ואחר כך מציב לתוכו מספרים שרלוונטיים לסיטואציה שלו. אם זה באמת עבד על שופט או שזו מתיחת 1 באפריל – לא יודע; מרבית האתרים שבהם קראתי על הסיפור טוענים שהשופט המסכן פשוט התייאש מהנוסחאות ה"סבוכות" ולכן ויתר לקריוקוב.

הידע שכן צריך בשביל להבין על מה קריוקוב מדבר הוא המתמטיקה הבסיסית שעוסקת בתנועה – חשבון דיפרנציאלי ואינטגרלי. למזלי הכינותי מבעוד מועד פוסטים על נגזרות ואינטגרלים, כך שלא אחזור על החומר הזה שוב לעומק. מה שחשוב לענייננו זה שאם יש לנו פונקציה \(x\left(t\right)\) שמתארת את המיקום של הרכב כפונקציה של הזמן \(t\), אז המהירות של הרכב היא הנגזרת שלה; ובכיוון ההפוך, האינטגרל של המהירות בין שתי נקודות זמן מתאר את המרחק שהיא עברה בזמן זה.

הטענה הבסיסית של קריוקוב היא שהשוטר לא מדד בשום זמן את המהירות האמיתית של הרכב; הוא מדד את המהירות הזוויתית שלו ביחס לשוטר. כלומר, אם נמתח קו ישר מהשוטר אל הרכב, השוטר מדד את קצב ההשתנות של הזווית של הקו הזה. קריוקוב מביא כדוגמה רכבת נוסעת – כשהיא נמצאת במרחק רב מאיתנו, נראה שהיא לא זזה בכלל; ככל שהיא מתקרבת כך המהירות שלה נראית לנו גדולה יותר, והשיא הוא בדיוק כשהיא חולפת על פנינו. זאת מכיוון שאנחנו לא רואים את המהירות ה"אמיתית" שלה, אלא את המהירות הזוויתית שלה. מרגע שהבנו את הרעיון הזה, כל היתר הוא חישובים פשוטים. קריוקוב מתחיל עם הדיאגרמה הזו:

כאן \(r_{0}\) הוא המרחק הקבוע של השוטר משלט ה"עצור" (שאותו קובע קריוקוב בתור ראשית הצירים, כלומר \(x=0\) בדיוק בנקודה זו). הקשר בין הזווית \(\alpha\) שבה השוטר רואה את קריוקוב ובין המרחק \(x\left(t\right)\) של קריוקוב משלט ה"עצור" ברגע \(t\) נתון על ידי הקשר הטריגונומטרי \(\tan\alpha\left(t\right)=\frac{x\left(t\right)}{r_{0}}\). קריוקוב רוצה את \(\alpha\left(t\right)\) עצמה, אז הוא מפעיל את הפונקציה \(\arctan\) על שני האגפים ומקבל \(\alpha\left(t\right)=\arctan\left(\frac{x\left(t\right)}{r_{0}}\right)\). כדי לקבל את קצב ההשתנות של \(\alpha\left(t\right)\) צריך לגזור את המשוואה (הפשוטה!) הזו: לגזור פונקציות כאלו זה תרגיל בסיסי בחדו"א. בואו נציג במפורש את האופן שבו אפשר לעשות זאת תוך שימוש בכללי הגזירה הבסיסיים, סתם כדי לראות שאנחנו יכולים (קריוקוב לא טורח).

ובכן, כלל הגזירה הבסיסי והחשוב ביותר כאן הוא כלל השרשרת: אם \(f,g\) פונקציות גזירות אז \(\left(f\left(g\left(x\right)\right)\right)^{\prime}=f^{\prime}\left(g\left(x\right)\right)g^{\prime}\left(x\right)\). בפרט, אם \(g\left(x\right)\) היא פונקציה המקיימת \(f\left(g\left(x\right)\right)=x\) (כלומר, \(g\) היא "הפוכה" ל-\(f\), בדיוק כמו הקשר בין \(\arctan\) ו-\(\tan\)) אז גזירה עם כלל השרשרת נותנת לנו \(f^{\prime}\left(g\left(x\right)\right)g^{\prime}\left(x\right)=1\), כלומר \(g^{\prime}\left(x\right)=\frac{1}{f^{\prime}\left(g\left(x\right)\right)}\) – זו הנוסחה של "נגזרת הפונקציה ההופכית".

כעת, \(\tan x=\frac{\sin x}{\cos x}\). זו אחת מהתכונות היסודיות ביותר של סינוס וקוסינוס שהנגזרות שלהם הן \(\sin^{\prime}x=\cos x\) ו-\(\cos^{\prime}x=-\sin x\). כמו כן כלל בסיסי בגזירה הוא ש-\(\left(\frac{f}{g}\right)^{\prime}=\frac{f^{\prime}g-g^{\prime}f}{g^{2}}\), וכך נקבל ש-\(\tan^{\prime}x=\frac{\cos^{2}x+\sin^{2}x}{\cos^{2}x}=1+\tan^{2}x\). לכן, מנוסחת הגזירה של הפונקציה ההפוכה, \(\arctan^{\prime}x=\frac{1}{1+\tan^{2}\left(\arctan\left(x\right)\right)}=\frac{1}{1+x^{2}}\). הנה לכם איך מגיעים לנוסחה הזו לכל מי שלא מכיר/זוכר.

עכשיו, בואו נחזור אל \(\alpha\left(t\right)=\arctan\left(\frac{x\left(t\right)}{r_{0}}\right)\) ונגזור אותו על פי כלל השרשרת: \(\alpha^{\prime}\left(t\right)=\frac{1}{1+\left(\frac{x\left(t\right)}{r_{0}}\right)^{2}}\cdot\frac{x^{\prime}\left(t\right)}{r_{0}}\). קריוקוב לא כותב את הנוסחה הכללית הזו אלא מציב מראש מקרים פרטיים. יש שני מקרים שמעניינים אותו: הראשון, מה שהשוטר חושב שהוא ראה, שהוא תנועה במהירות קבועה; והשני, מה שקריוקוב טוען שקרה, שהוא תנועה שבה הגוף מאיט בקצב קבוע, ואז מאיץ בקצב קבוע.

במקרה של תנועה במהירות קבועה \(v_{0}\), הפונקציה של מיקום הגוף היא \(x\left(t\right)=v_{0}t\) (אם מסכימים על כך ש-\(t=0\) הוא הרגע שבו קריוקוב היה בסימן ה"עצור", כלומר ב-\(x=0\)). הנגזרת כאן פשוטה במיוחד: \(x^{\prime}\left(t\right)=v_{0}\). לכן על פי הנוסחה שפיתחנו למעלה, מהירות הרכב שהשוטר רואה היא:

\(\frac{v_{0}/r_{0}}{1+\left(\frac{v_{0}}{r_{0}}\right)^{2}t^{2}}\)

במילים אחרות, מה שהשוטר רואה נראה כמו הפונקציה \(f\left(t\right)=\frac{\alpha}{1+\alpha^{2}t^{2}}\) כאשר \(\alpha\) הוא קבוע שתלוי במהירות הרכב ומרחק השוטר משלט ה"עצור". פונקציה כמו \(f\left(t\right)\) הזו היא בבירור לא קבועה: ככל ש-\(t\) גדול יותר כך היא שואפת מהר מאוד לאפס. המקסימום שלה מתקבל כאשר \(t=0\) ואז ערכה הוא \(\alpha\). את הפונקציה קריוקוב מצייר בגרף הבא:

המקרה השני, שבו הרכב קודם מאיט ואחר כך מאיץ, דורש מקריוקוב קצת יותר עבודה כדי למצוא את \(x\left(t\right)\). מה הנתונים שיש לנו הפעם? ובכן, אנחנו יודעים שבזמן \(t=0\) הרכב היה בשלט העצור, ובמהירות אפס, כלומר \(x\left(0\right)=v\left(0\right)=0\) (השוויון הוא של מספרים; היחידות של \(x\left(t\right)\) ושל \(v\left(t\right)\) שונות ולכן אין משמעות פיזיקלית לכתיבה של משהו כמו \(x\left(t\right)=v\left(t\right)\) באופן כללי). אנחנו גם יודעים (ליתר דיוק, מניחים) שהתאוצה קבועה והיא \(a_{0}\) כלשהו. ליתר דיוק, היא \(a_{0}\) אחרי העצירה; לפני העצירה היא \(-a_{0}\) – אותו גודל, אבל האטה במקום האצה. בגלל הסימטריה של העניין מספיק לבחון את מה שקורה אחרי העצירה.

תאוצה היא נגזרת של המהירות, ומהירות היא נגזרת של המיקום, ולכן על ידי ביצוע שתי אינטגרציות נקבל: \(x\left(t\right)=\int\left(\int a_{0}dt\right)dt=\int\left(a_{0}t+c\right)=\frac{a_{0}}{2}t^{2}+ct+d\) כאשר \(c,d\) קבועים. נציב \(t=0\) ונשתמש בכך ש-\(x\left(0\right)=0\) כדי לקבל ש-\(d=0\); בדומה גם \(c=0\) כי \(v\left(t\right)=a_{0}t+c\). לכן קיבלנו ש-\(x\left(t\right)=\frac{a_{0}}{2}t^{2}\) (וכאשר \(t<0\), אז \(x\left(t\right)=-\frac{a_{0}}{2}t^{2}\); במאמר עצמו קריוקוב טיפה מתבלבל פה ופשוט נותן את \(x\left(t\right)=\frac{a_{0}}{2}t^{2}\) בתור הנוסחה הכללית). אם נציב את זה בנוסחה של \(\alpha^{\prime}\) נקבל את הביטוי הלא מצודד הבא:

\(\alpha^{\prime}\left(t\right)=\frac{\left(a_{0}/r_{0}\right)t}{1+\frac{1}{4}\left(\frac{a_{0}}{r_{0}}\right)^{2}t^{4}}\)

במילים אחרות, זוהי פונקציה מהצורה \(g\left(t\right)=\frac{\alpha t}{1+\frac{1}{4}\alpha^{2}t^{4}}\) עבור קבוע \(\alpha\) שתלוי רק בתאוצה ובמרחק השוטר משלט ה"עצור". בגלל ה-\(t^{4}\) שבמכנה כל העסק שואף מהר מאוד לאפס כש-\(t\) גדול או קטן, אבל ה-\(t\) במונה משנה את מה שקורה בסביבות \(t=0\); כאשר \(t=0\) הפונקציה היא ממש אפס (הרי אמרנו שהרכב עוצר…). מצד שני, עבור ערכי \(t\) שאינם גדולים אבל גם אינם אפס, הפונקציה דווקא יכולה להיות גדולה למדי – יש לה שתי נקודות מקסימום משני עברי נקודת המינימום שבאפס. ככה זה נראה:

ככל שהקבוע \(\alpha\) גדול יותר, כך כל העסק פחוס יותר. הנקודה של קריוקוב היא שעבור ערכים מתאימים של \(\alpha\), הגרף הזה נראה ממש כמו הגרף של תנועה במהירות קבועה, למעט בנקודת המרכז והצניחה אל המינימום שמתרחשת סביבה. קריוקוב טוען שאם בפרק הזמן שבו התבצעה הצניחה הזו הרכב שלו הוסתר, הרי שהשוטר היה רואה בדיוק את מה שקורה בסיטואציה של מהירות קבועה, ולכן מסיק מסקנות שגויות.

אז צריך למצוא מה בדיוק המרחק בין ה"פסגות" של פונקצית המהירות שהשוטר ראה. לצורך כך מבצעים חקירת פונקציה – כלומר, גוזרים את הפונקציה שוב ומשווים לאפס. \(\alpha^{\prime}\left(t\right)\) היא שבר וזה סיפור להתעסק עם המכנה, אבל לא צריך; המכנה ממילא לא יכול להתאפס ולכן מספיק לחשב את המונה של הנגזרת השניה, והוא יוצא:

\(\frac{a_{0}}{r_{0}}\left(1+\frac{1}{4}\left(\frac{a_{0}}{r_{0}}\right)^{2}t^{4}\right)-\left(\frac{a_{0}}{r_{0}}t\right)\left(\frac{a_{0}}{r_{0}}\right)^{2}t^{3}=\frac{a_{0}}{r_{0}}+\left(\frac{a_{0}}{r_{0}}\right)^{3}\left(\frac{1}{4}-1\right)t^{4}\)

על ידי השוואה לאפס והעברת אגפים נקבל:

\(\frac{3}{4}\left(\frac{a_{0}}{r_{0}}\right)^{2}t^{4}=1\)

ועל ידי חלוקה והוצאת שורש נקבל:

\(t=\sqrt[4]{\frac{4}{3}}\sqrt{\frac{r_{0}}{a_{0}}}\)

אבל רגע, מה הולך פה? הרי רואים בגרף שלפונקציה של התאוצה יש שלוש נקודות קיצון, לא אחת. איך ייתכן שהחקירה שלנו הניבה אחת בלבד? נסו לחשוב על זה שניה, ובינתיים נדבר על מה שקריוקוב עשה עם הנוסחה הזו. קריוקוב החליט שהוא עצלן ורוצה לעשות לעצמו חיים קלים – הוא הניח ש-\(r_{0}=a_{0}=10\). אני לא יודע מהיכן הוא המציא את הנתון ש-\(r_{0}=10\); אולי אלו היו העובדות במקרה הזה. את \(a_{0}=10\) הוא מנמק בכך שהוא היה מצונן באותו יום והתעטש בדיוק בזמן הבלימה לקראת השלט. אם אני הייתי השופט, בשלב הזה בקריאה (אם הייתי שורד עד אז) הייתי חושד שעושים ממני צחוק. מכל מקום, קריוקוב מקבל שהמקסימום הוא ב-\(\sqrt[4]{\frac{4}{3}}\approx1.07\).

ולמה התקבלה רק נקודת קיצון אחת? כי הפונקציה שאותה חקרנו היא אכן בעלת נקודת קיצון אחת בלבד: כזכור, התעסקנו רק עם מה שקורה עבור \(t\ge0\). כדי לקבל את מה שקורה גם לפני כן צריך "להדביק" לפונקציה הזו את תמונת הראי שלה, \(-\frac{\left(a_{0}/r_{0}\right)t}{1+\frac{1}{4}\left(\frac{a_{0}}{r_{0}}\right)^{2}t^{4}}\) (שנקודת הקיצון שלה היא בערך ב-\(-1.07\)) ונקודת הקיצון השלישית מתקבלת בנקודת ההדבקה שלהן (אבל ממילא זו לא הנקודה שמעניינת אותנו).

החישוב האחרון שעוד נותר הוא של "מתי החלה ההסתרה ומתי היא נגמרה". כאן קריוקוב מציין שאורך המכונית שלו הוא 150 אינצ'ים והוא מעריך את אורך המכונית שהסתירה אותו ב-189 אינצ'ים. עכשיו הוא מגדיר \(x_{p}\) בתור המרחק מ-\(x=0\) שבו נגמרה ההסתרה החלקית, וב-\(x_{f}\) את המרחק שבו נגמרה ההסתרה המלאה. אם מניחים שהרכב השני פשוט עמד ב-\(x=0\) ולא זז, אז \(x_{p}\) הוא סכום האורכים שלהם ו-\(x_{f}\) הוא הפרש האורכים שלהם, כלומר \(8.16\) מטרים ו-\(0.99\)מטרים, בהתאמה. קריוקוב קצת מחליק פה משהו לדעתי – הוא מניח סימטריה מלאה סביב הצירים, כלומר שההסתרה החלקית החלה ב-\(-x_{p}\) וההסתרה המלאה החלה ב-\(x_{f}\), אבל כמובן שזה מניח שכשההסתרה החלקית החלה אז ראש הרכב המסתיר היה ב-\(x=0\), וכשהיא נגמרה אז הזנב שלו היה שם; כלומר, הנחה מאוד ספציפית לגבי תנועת הרכב השני. אני תוהה אם השופט שם לב לזה (או שאני סתם מתבלבל). מילא, יש המון פרמטרים שאפשר לשחק איתם כאן.

קריוקוב מחשב ומוצא ש-\(t_{p}=1.31\) ו-\(t_{f}=0.45\) (שוב, אלו הזמנים שבהם ההסתרות נגמרו, והמינוס שלהם הם הזמנים שבהם ההסתרות החלו). מכאן אנו רואים שהזמן שבו קריוקוב היה בתאוצת שיא הוא זמן שבו קריוקוב כבר היה מוסתר חלקית על ידי הרכב, ושפרק הזמן הקריטי ביותר היה כמובן פרק זמן שבו הוא היה מוסתר לחלוטין. סוף הסיפור.

מה דעתי על כל זה? שזה משחק חביב אבל לא יותר מכך. כרגיל בעניינים מתמטיים שכאלו, המודל אולי חשוב אבל הנתונים שיוצקים לתוכו הם הסיפור האמיתי. כאן קריוקוב הניח לו כל מני הנחות מספריות על הנתונים שאיני יודע מה הקשר בינן ובין המציאות. הוא גם לא הוכיח שהוא עצר בתמרור אלא שהוא היה עשוי לעצור מבלי שהשוטר יבחין בכך. מצד שני, המתמטיקה של קריוקוב תקפה והוא לא מוכיח בשום מקום שפאי שווה 3, כך שאני מקווה שבסופו של דבר הפרשייה הזו נתנה קצת יחסי ציבור חיוביים למתמטיקה.

בעיית המזכירה, ואיך זה קשור למספרים הרמוניים

נניח שאתם מנהלים זוטרים באיזו חברה ואתם מחליטים יום אחד להיות יעילים ומועילים ויורדים מטה למחלקת כוח אדם. היום בוחרים לכם מזכירה חדשה (או מזכיר חדש, למה לא? אבל אשתמש בלשון נקבה ועם מי שנפגעים מזה הסליחה), ובהתקף של יעילות ארגונית מצאתם באינטרנט את "הכללים הנכונים לבחירת מזכירה" ושלחתם לכוח אדם. הכללים הם:

  1. יש לראיין את המועמדות אחת אחרי השניה, כאשר בסוף כל ראיון מחליטים אם להעסיק את המזכירה שרואיינה ולהעיף את כל אלו שעדיין לא רואיינו לכל הרוחות, או להעיף אותה לכל הרוחות.
  2. כל מזכירה צריך לדרג ביחס למזכירות הקודמות (לכל מזכירה קודמת יש לקבוע אם הנוכחית טובה יותר או גרועה יותר) ועל בסיס זה להחליט אם להעסיק אותה או לא.
  3. קוראים למזכירות לראיון בסדר אקראי.
  4. חייבים לבחור את המזכירה הטובה ביותר!

על 4 אין פשרות!

טוב, גם על היתר לא. ניסו להעיר לכם שהכללים הללו לא כל כך הגיוניים (בפרט, מה הרעיון להחליט על המקום אם לבחור את המועמדת או לא? למה לא לחכות עד שמראיינים את כולן?), אבל מה הם כבר יודעים, במקום באינטרנט שבו מצאתם את הכללים אמרו שהם באו הישר מתוך "נזיר השאולין שהפסיק לשחק כדורגל ומזיז גבינות בכוח המחשבה", או משהו.

טוב, אז ירדתם לכוח אדם ואתם מסתכלים למראיינת מעבר לכתף שוב ושוב. בהתחלה נראה שהיא בכלל לא חושבת לפני שהיא מודה למרואיינות בנימוס ומגרשת אותן, ואתם מתחילים להיות עצבניים. אז אתם שואלים אותה מה היא עושה לעזאזל, והיא עונה לכם עם הסיפור הבלתי יאומן הבא:

"הגיעו היום 30 מועמדות שמתוכן אני צריכה לבחור, אז את 10 הראשונות אני דוחה בלי לחשוב בכלל, ומה-11 והלאה אני בודקת אם היא הטובה ביותר מבין כל אלו שהתראיינו עד כה, ואם כן – אני מקבלת אותה".

אתם מתרעמים – מה זו שיטת הבחירה המטופשת הזו? למה לדחות אוטומטית את 10 הראשונות? מה אם המזכירה הכי טובה היא בין 10 הראשונות? למה לא לחכות עד המזכירה ה-20? אין דרך חכמה יותר לבחור? חיש קל אתם מפטרים את המראיינת הסוררת. הבעיה היא בוודאי בכך שהיא עצמה לא נבחרה על פי כללי נזיר השאולין שלכם.

רק מה? למחרת הבוסית הגדולה קוראת לכם למשרד, מראה לכם בנימוס את הערך בויקיפדיה על "בעיית המזכירה" ומעיפה אתכם מהחלון. מסתבר שדרך הפעולה של המראיינת היא האופטימלית שבה אפשר לנקוט תחת הכללים המוזרים שלכם – דרך פעולה שמצליחה בערך ב-37 אחוז מהפעמים, בלי קשר למספר המזכירות. וכעת נשאלת השאלה – למה?

הבה ננסח שוב את השאלה בצורה קצת יותר מדוייקת מתמטית. יש לנו \(n\) מועמדות שנכנסות אלינו בסדר אקראי. אנחנו מראיינים אותן אחת אחת, וצריכים להחליט על קריטריון כלשהו שלפיו נחליט מתי לעצור את הראיונות ולקבל את המרואיינת הנוכחית. את הסיפור אפשר לספר גם בהקשרים שונים לגמרי – חיפוש חניה, חיפוש בני זוג, וכדומה – אבל זה פחות מעניין, ויותר מעניין הפתרון המוזר של הבעיה.

ראשית, בואו נחדד את עיקר הבעיה כאן – אנחנו חייבים למצוא את המזכירה הטובה ביותר. אם בחרנו את המזכירה השניה בטיבה זה נחמד, אבל חסר ערך מבחינת הכללים – גרוע בדיוק כמו שנבחר את המזכירה הגרועה ביותר. כשאנחנו מדברים על "פתרון אופטימלי" כאן הכוונה שלנו היא לפתרון שנותן את המזכירה הטובה ביותר בהסתברות הגבוהה ביותר, לא לפתרון ש"מבטיח שתמיד נהיה עם מזכירה לא רעה" או משהו בסגנון. מכיוון שזה אולי לא מה שקופץ לנו לראש אינטואיטיבית כשאנחנו חושבים על "אופטימלי" בהקשר הזה זה יכול להסביר חלק מהבלבול שלנו בנוגע לאופי של הפתרון האופטימלי המשונה.

מדרישת האופטימליות הזו נובע שכל פתרון לבעיה חייב לקיים כלל פשוט אחד: אם מזכירה שרואיינה זה עתה היא לא הטובה מכל המזכירות שרואיינו עד כה, לא מקבלים אותה. למה לא? כי אם היא לא הטובה מכל המזכירות שרואיינו עד כה, ברור לחלוטין שהיא לא הטובה ביותר ולכן אין שום טעם לשכור אותה (שוב – אנחנו חייבים את הטובה ביותר; כל תוצאה אחרת לא שווה כלום).

אם כן, מהשהסכמנו שהכלל שמוביל לבחירת מזכירה הוא "היא הטובה ביותר מבין מי שראיינו עד כה", נשאלת רק השאלה מתי להפעיל אותו. הרי ברור שיהיה מטופש להפעיל אותו כבר מהרגע הראשון – המזכירה הראשונה שאנחנו מראיינים היא הטובה ביותר מבין מי שראיינו עד כה, אבל אם המזכירות באות בסדר אקראי, ההסתברות שלנו לבחור במזכירה הטובה ביותר באופן הזה היא \(\frac{1}{n}\). בדוגמה של ה-30 מזכירות שלנו, זו הסתברות של \(\frac{1}{30}\), כלומר קצת פחות מ-4 אחוזים. אם יש 1000 מזכירות אז ההסתברות צונחת לה ל-0.1 אחוזים מביכים. ואנחנו אמרנו שבשיטה האופטימלית אפשר להצליח ב-37 אחוז מהפעמים בלי קשר בכלל למספר המזכירות – אני מקווה שאחוזי ההצלחה הללו (ובעיקר, האופן שבו הם לא תלויים בכלל במספר המזכירות) נראים כבר יותר מרשימים מאשר אולי נראו במבט ראשון.

אם כן, אנחנו רוצים לחכות קצת, לקבל מדגם כלשהו של מזכירות, לדחות אותן, והחל משלב מסויים להתחיל להפעיל את כלל "קבל את הטובה ביותר עד כה". מספר השלבים הזה יכול להיות קבוע ("תוך 13 שלבים, בלי קשר למספר המזכירות") ויכול להיות גם קשור איכשהו למספר המזכירות ("אחרי שבדיוק חצי מהמזכירות התראיינו") ויכול גם להיות תלוי איכשהו בראיונות שכבר בוצעו; אבל הראיונות שכבר בוצעו תמיד מניבים את אותה התוצאה – אחרי \(k\) ראיונות יש לנו רשימה של \(k\) מזכירות שלא קיבלנו שאפשר לסדר מהגרועה לטובה ביותר. אין לנו מידע, למשל, על האיכות של אותן מזכירות ביחס לאלו שעוד לא ראיינו. לכן אם יש כלל לקביעת הנקודה שממנה והלאה מפעילים את כלל "קבל את הטובה ביותר עד כה" הוא לא יהיה תלוי בראיונות שבוצעו עד כה (זה קצת נפנוף ידיים; אפשר לתת לזה הוכחה מדויקת אבל קצת טרחנית).

אם כן, תוך כמה צעדים כדאי להתחיל להפעיל את הכלל? התוצאה המפתיעה (?) היא שמדובר על \(\frac{n}{e}\) צעדים, כאשר \(e=2.71828183\dots\) הוא בסיס הלוגריתם הטבעי – הקבוע המפורסם ביותר במתמטיקה חוץ מ-\(\pi\). אמרתי כבר בבלוג שאני אוהב את \(e\) יותר, והבעיה הזו היא דוגמה נוספת לסיבה לכך – \(e\) צץ במקומות עוד יותר מגוונים מאשר \(\pi\) לטעמי.

אוקיי, החימום נגמר – כדי להוכיח שמספר הצעדים האופטימלי הוא \(\frac{n}{e}\) אין מנוס מהפשלת שרוולים וחישוב טיפה טכני, אבל יפה מאוד לטעמי ולא קשה כל כך. הגישה שלנו תהיה של "מבט מלמעלה" – ננסה להבין מה קורה כאשר מפעילים את השיטה עם \(k\) צעדים שאחריהם מתחילים להפעיל את הכלל, ונחשב עבור \(k\) זה מה הסתברות ההצלחה שלנו.

אז שוב, כדי שכולם יהיו איתי: עבור \(k\) טבעי כלשהו ו-\(n\) מזכירות, אנו בודקים מה ההסתברות לבחור את המזכירה הטובה ביותר אם את \(k-1\) הראשונות אנו דוחים, ומקבלים את המזכירה הראשונה אחרי אותן \(k\) שהיא טובה יותר מכל מי שהיו עד כה (אם אין כזו, אכלנו אותה).

כאשר דיברתי בבלוג על הסתברות מותנית הזכרתי מושג שנקרא "נוסחת ההסתברות השלמה". בואו נזכיר אותה: אם \(A\) הוא מאורע כלשהו – במקרה שלנו, "המזכירה הטובה ביותר נבחרה", ואם \(B_{1},\dots,B_{n}\) היא סדרה של מאורעות זרים שמתארים את מרחב ההסתברות כולו – במקרה שלנו, \(B_{i}\) הוא המאורע "המזכירה ה-\(i\) מבין המרואיינות היא הטובה ביותר" – אז מתקיים \(P\left(A\right)=\sum_{i=1}^{n}P\left(A|B_{i}\right)P\left(B_{i}\right)\), כאשר \(P\left(A|B_{i}\right)\) מייצג את ההסתברות שהמזכירה הטובה ביותר נבחרה בהינתן שהמזכירה ה-\(i\) הייתה הטובה ביותר.

בפוסט ההוא אמרתי: "על פניו היא נראית כמו דרך מסובכת יותר לכתוב את \(P\left(A\right)\), אך כאמור – לעתים קרובות הדרך הנוחה ביותר לחשב את \(P\left(A\right)\) היא על ידי חלוקה למקרים שמיוצגים על ידי ה-\(B_{i}\)". זו אכן דוגמה קלאסית לכך.

את \(P\left(B_{i}\right)\) קל לחשב; מה ההסתברות לכך שהמזכירה ה-\(i\) היא הטובה ביותר? זה קל – מכיוון שהסדר שבו המזכירות נכנסות נבחר באקראי ובהתפלגות אחידה מכל הסדרים האפשריים, כל מקום סביר באותה מידה עבור המזכירה הטובה ביותר, ולכן \(P\left(B_{i}\right)=\frac{1}{n}\).

ומהו \(P\left(A|B_{i}\right)\)? אם \(i\le k\) אז \(P\left(A|B_{i}\right)=0\), על פי החוק שלנו של לדחות אוטומטית את \(k\) הראשונות (אם הטובה ביותר הייתה בין \(k\) הראשונות, אין שום סיכוי שנבחר את הטובה ביותר). החלק המעניין הוא כש-\(i>k\). במקרה זה \(P\left(A|B_{i}\right)\) הוא ההסתברות שנבחרה המזכירה במקום ה-\(i\), בהינתן שבמקום ה-\(i\) אכן נמצאת המזכירה הטובה ביותר. השאלה היא – איך ייתכן שהיא לא תיבחר? זה יקרה רק אם אחת מהמזכירות במקומות \(k,k+1,\dots,i-1\) הצליחה להידחף איכשהו – כלומר הייתה טובה יותר מכל המזכירות שלפניה.

את הקריטריון המסובך הזה אפשר לנסח בצורה הרבה יותר אלגנטית: מבין \(i-1\) המזכירות הראשונות, המזכירה הטובה ביותר הייתה בין \(k\) הראשונות. שכנעו את עצמכם שזה אכן שקול!

את ההסתברות של הקריטריון קל כעת לחשב – למזכירה הטובה ביותר יש \(i-1\) מקומות אפשריים להיות בהם; כל מקום סביר באותה מידה; ולכן ההסתברות שהיא תהיה באחד מ-\(k\) המקומות הראשונים היא \(\frac{k}{i-1}\). לכן \(P\left(B_{i}\right)=\frac{k}{i-1}\). אם זה התקיים, אז למזכירה במקום ה-\(i\) לא היו הפרעות והיא נבחרה בודאות (הרי היא הטובה ביותר, ולכן בפרט הייתה טובה מכל המזכירות שלפניה).

נוסחת ההסתברות השלמה כעת נותנת לנו:

\(P\left(A\right)=\sum_{i=1}^{n}P\left(A|B_{i}\right)P\left(B_{i}\right)=\sum_{i=k+1}^{n}\frac{k}{i-1}\cdot\frac{1}{n}=\frac{k}{n}\sum_{i=k+1}^{n}\frac{1}{i-1}\).

יופי. עכשיו נתקענו. מה עושים עם הסכום \(\sum_{i=k+1}^{n}\frac{1}{i-1}\) המעצבן? כאן מסתיים החלק היחסית פשוט של הפוסט ואנו עוברים לחלק הטכני, שלטעמי הוא יפה ומעניין לא פחות, אבל אולי לא מיועד לבעלי לב חלש מתמטית.

ראשית, שימו לב לכך שהסכום שלעיל שווה ל-\(\sum_{i=k}^{n-1}\frac{1}{i}\) בבירור (ביצענו את החלפת המשתנה הפשוטה \(i\mapsto i+1\)). לסכום הזה קשר הדוק לאחד הטורים החשובים במתמטיקה – הטור ההרמוני, \(\sum_{i=1}^{\infty}\frac{1}{i}\). כפי שכבר הראיתי בעבר בבלוג, הטור הזה מתבדר לאינסוף – ככל שסוכמים בו עוד ועוד איברים, התוצאה גדלה וגדלה באופן בלתי חסום ועוברת כל מספר טבעי בשלב מסויים (אף שיש טענות שהוא דווקא מתכנס ל-137). אבל, הבה ונדבר לרגע על הסכומים החלקיים של הטור, מה שמתקבל אחרי שסוכמים רק את \(n\) האיברים הראשונים מתוכו, כלומר \(H_{n}=\sum_{i=1}^{n}\frac{1}{i}\). ל-\(H_{n}\) קוראים המספר ההרמוני ה-\(n\)-י, ועליו המתמטיקאים יודעים לא מעט. שימו לב ש-\(\sum_{i=k}^{n-1}\frac{1}{i}=H_{n-1}-H_{k-1}\), ולכן השאלה שאנחנו רוצים לפתור היא בעצם זו: מהו \(\lim_{n\to\infty}\frac{k}{n}\left(H_{n-1}-H_{k-1}\right)\)?

כאן כדאי לשלוף את מה שידוע על המספרים ההרמוניים. למרבה המזל, אנחנו יודעים לקרב אותם מצויין בעזרת פונקציה שאנחנו מכירים היטב – הלוגריתם הטבעי, \(\ln n\). למעשה, הסדרה ההרמונית \(H_{n}\) היא מעין אנלוג בדיד של \(\ln n\); זאת מכיוון ש-\(H_{n}=\sum_{i=1}^{n}\frac{1}{i}\) ואילו \(\ln n=\int_{1}^{n}\frac{1}{x}dx\). ניתן להוכיח, ואראה זאת בקרוב, ש-\(\lim_{n\to\infty}\left(H_{n}-\ln n\right)=\gamma\) כאשר \(\gamma\) הוא מספר קבוע (קטן למדי, אבל זה לא חשוב לנו) המכונה "קבוע אוילר-מסקרוני" וערכו הוא בערך \(\gamma=0.5772\dots\). ואני אומר "בערך" כי המספר הזה הוא עדיין תעלומה לא קטנה – עדיין לא ידוע אפילו אם הוא רציונלי או אי רציונלי.

דרך אחרת, אולי קצת יותר נוחה, לתאר את הגבול למעלה היא זו: \(H_{n}=\ln n+\gamma+o\left(1\right)\). מילולית, זה אומר "המספר ההרמוני ה-\(n\)-י הוא \(\ln n\) ועוד קבוע אוילר-מסקרוני, ועוד משהו שאני לא יודע איך הוא נראה אבל כש-\(n\) שואף לאינסוף הוא שואף לאפס" (המשמעות הפורמלית של \(o\left(1\right)\) היא זו: פונקציה \(f\left(n\right)\) היא \(o\left(1\right)\) – או-קטן של \(1\) – אם \(\frac{f\left(n\right)}{n}\to0\)).

כעת, מהו \(H_{n-1}-H_{k-1}\)? עם הקירוב שתיארתי זה פשוט:

\(H_{n-1}-H_{k-1}=\left(\ln\left(n-1\right)+\gamma+o\left(1\right)\right)-\left(\ln\left(k-1\right)+\gamma+o\left(1\right)\right)=\ln\left(\frac{n-1}{k-1}\right)+o\left(1\right)\)

המעבר האחרון נובע מזהות סטנדרטית בלוגריתמים: \(\ln a-\ln b=\ln\left(\frac{a}{b}\right)\) (הרבה מהכוח של לוגריתמים נובע מכך שחיבור וחיסור שלהם מתאימים לכפל וחילוק מספרים).

אני משער שמדגדג לכם בשלב זה להיפטר מהמינוסים המעצבנים שדבוקים ל-\(n\) ו-\(k\). ובכן, שימו לב לכך ש-\(H_{n-1}-H_{n}=\ln\left(\frac{n-1}{n}\right)+o\left(1\right)=\ln\left(1-\frac{1}{n}\right)+o\left(1\right)=o\left(1\right)\), כשהמעבר האחרון נובע מכך ש-\(\lim_{n\to\infty}\ln\left(1-\frac{1}{n}\right)=\ln\left(1\right)=0\). דרך מסובכת להגיד פורמלית את הרעיון הטריוויאלי ש-\(H_{n}\) ו-\(H_{n-1}\) הם אותו הדבר לכל צורך מעשי כאשר \(n\) שואף לאינסוף, ולכן אפשר להחליף ביניהם. למי שהפורמליות עדיין חשובה לו, הנה הטריק במלואו:

\(H_{n-1}-H_{k-1}=\left(H_{n-1}-H_{n}+H_{n}\right)-\left(H_{k-1}-H_{k}+H_{k}\right)=H_{n}-H_{k}+o\left(1\right)=\ln\left(\frac{n}{k}\right)+o\left(1\right)\)

אם כן, חזרה לעניינו המקורי – צמצמנו את בעיית המזכירה לגבול \(\lim_{n\to\infty}\frac{k}{n}\ln\left(\frac{n}{k}\right)\). כפי שאפשר לנחש, המפתח לתעלומה הוא היחס \(\frac{k}{n}\). צריך לזכור ש-\(k\) אינו קבוע בהכרח, אלא הוא פונקציה כלשהי של \(n\), ואנחנו רוצים לדעת איזו פונקציה מניבה לנו את הערך המקסימלי – את הסתברות ההצלחה המקסימלית לבחור במזכירה הטובה ביותר. לשם כך, הבה ונסמן \(x=\frac{k}{n}\), וכעת עלינו לחקור את הפונקציה \(x\ln\left(\frac{1}{x}\right)=-x\ln x\) עבור הערכים \(0<x\le1\). ב"חקירה" אני מתכוון ל"להבין איפה יש לפונקציה מקסימום אם בכלל"

הדרך הסטנדרטית לבצע חקירה שכזו היא באמצעות נגזרות. קל לחשב את הנגזרת של הפונקציה הזו – היא \(-\ln x-x\cdot\frac{1}{x}=\ln\left(\frac{1}{x}\right)-1\). על כן, הנגזרת מתאפסת כאשר \(\ln\left(\frac{1}{x}\right)=1\), כלומר \(\frac{1}{x}=e\), כלומר \(x=\frac{1}{e}\) – הנה המספר הזה צץ סוף סוף. האם ההתאפסות הזו היא נקודת מינימום או מקסימום של הפונקציה? ובכן, אם תחקרו קצת בעצמכם תגלו שהנגזרת היא פונקציה יורדת, שבהתחלה היא חיובית ואחר כך שלילית. כלומר, הפונקציה המקורית קודם עולה, ואז יורדת – מה שאומר ש-\(x=\frac{1}{e}\) היא נקודת המקסימום. המסקנה: אם אנחנו רוצים למקסם את הסיכוי שלנו לבחור את המזכירה הטובה ביותר, אנחנו רוצים תמיד לבחור \(k\) כך ש-\(\frac{k}{n}=\frac{1}{e}\), כלומר \(k=\frac{n}{e}\). מכיוון ש-\(e\) הוא אי רציונלי לעולם לא נוכל לבחור \(k\) שיקיים את השוויון הזה בדיוק; אבל מכיוון ש-\(x\ln\left(\frac{1}{x}\right)\) היא פונקציה רציפה, ככל שנבחר \(k\) שקרוב יותר ל-\(\frac{n}{e}\) נקבל סיכוי הצלחה גבוה יותר.

זה סוף בעיית המזכירה, אבל נשאר לנו להבין איך מוכיחים את ההערכה על גודל המספרים ההרמוניים, \(H_{n}=\ln n+\gamma+o\left(1\right)\). לשם כך נכניס לתמונה מושג חדש – פונקצית הזטא של רימן. עבור \(s>1\) ממשי, פונקצית הזטא של רימן מוגדרת כ-\(\zeta\left(s\right)=\sum_{n=1}^{\infty}\frac{1}{n^{s}}\) (תיארתי בפירוט רב יותר את הפונקציה והקשר שלה להשערת רימן בעבר). למשל, \(\zeta\left(2\right)=\sum_{n=1}^{\infty}\frac{1}{n^{2}}=\frac{\pi^{2}}{6}\) (איך מוכיחים את השוויון הזה? גם את זה הראיתי בעבר). בנוסף, נכליל את המספרים ההרמוניים באופן טבעי כדי שיתארו את העניין הזה: \(H_{n}^{\left(s\right)}=\sum_{i=1}^{n}\frac{1}{i^{s}}\).

לב ההוכחה הוא נעוץ בהיכרות הטובה שלנו עם \(\ln n\). אנחנו יודעים לתאר את \(\ln n\) כטור אינסופי: הנוסחה המפורסמת ביותר (שאותה לא אוכיח כאן, יש גבול…) היא \(\ln\left(\frac{1}{1-x}\right)=\sum_{n=1}^{\infty}\frac{x^{n}}{n}\) שתקפה כאשר \(-1\le x<1\). ניקח \(k>1\) טבעי כלשהו וננסה להשתמש בנוסחה כדי לתאר כטור את \(\ln\left(\frac{k}{k-1}\right)\): מכיוון ש-\(\frac{k}{k-1}=\frac{1}{1-1/k}\), נקבל ש-\(\ln\left(\frac{k}{k-1}\right)=\sum_{n=1}^{\infty}\frac{1}{nk^{n}}\). הטור הזה נראה קצת יותר נחמד כשכותבים אותו במפורש: \(\ln\left(\frac{k}{k-1}\right)=\frac{1}{k}+\frac{1}{2k^{2}}+\frac{1}{3k^{3}}+\dots\).

כעת הבה ונקבע \(n\) כלשהו, ונסכום את \(\ln\left(\frac{k}{k-1}\right)\) לכל \(1<k\le n\). בזכות התכונה של הפיכת-חיבור-לכפל של לוגריתמים, התוצאה תהיה שרשרת יפה של ביטולים:

\(\ln\left(\frac{n}{n-1}\right)+\ln\left(\frac{n-1}{n-2}\right)+\dots+\ln\left(\frac{3}{2}\right)+\ln\left(\frac{2}{1}\right)=\ln\left(\frac{n}{n-1}\cdot\frac{n-1}{n-2}\cdots\frac{3}{2}\cdot\frac{2}{1}\right)=\ln n\)

מה זה עזר לנו? שכעת אפשר לכתוב את \(\ln n\) כסכום של טורים:

\(\ln n=\sum_{k=2}^{n}\left(\frac{1}{k}+\frac{1}{2k^{2}}+\frac{1}{3k^{3}}+\dots\right)\)

כל טור שכזה מתכנס, והוא חיובי, ולכן ניתן לשנות את סדר האיברים בסכימה בלי חשש מעיוותים כמו זה של משפט רימן. אם כן, מה קיבלנו? ש-\(\ln n=\sum_{k=2}^{n}\frac{1}{k}+\frac{1}{2}\sum_{k=2}^{n}\frac{1}{k^{2}}+\frac{1}{3}\sum_{k=2}^{n}\frac{1}{k^{3}}+\dots\)

כעת שימו לב ש-\(\sum_{k=2}^{n}\frac{1}{k}=H_{n}-1\) (כי האיבר הראשון בטור, עבור \(k=1\), חסר). בדומה, \(\sum_{k=2}^{n}\frac{1}{k^{s}}=H_{n}^{\left(s\right)}-1\). לכן קיבלנו:

\(\ln n=\left(H_{n}-1\right)+\frac{1}{2}\left(H_{n}^{\left(2\right)}-1\right)+\frac{1}{3}\left(H_{n}^{\left(3\right)}-1\right)+\dots\)

ולכן העברת אגפים זריזה נותנת לנו ש:

\(H_{n}-\ln n=1-\frac{1}{2}\left(H_{n}^{\left(2\right)}-1\right)-\frac{1}{3}\left(H_{n}^{\left(3\right)}-1\right)+\dots\)

עד כאן זוהי תוצאה מדוייקת לחלוטין. הבעיה היא שבאגף ימין יש לנו יצור מסובך ומפחיד למדי שתלוי ב-\(n\) ואין לנו מושג איך לחשב אותו במדוייק. מה שכן אפשר לעשות הוא להסתכל על הגבול של כל זה כאשר משאיפים את \(n\) לאינסוף – כאן משתמשים בכך שכל אחד מסדרות המספרים ההרמוניים ה"מוכללים" כן מתכנסת:

\(\lim_{n\to\infty}\left(H_{n}-\ln n\right)=1-\frac{1}{2}\left(\zeta\left(2\right)-1\right)-\frac{1}{3}\left(\zeta\left(3\right)-1\right)-\dots\)

והנה קיבלנו ייצוג נאה של \(\gamma\): \(\gamma=1-\frac{1}{2}\left(\zeta\left(2\right)-1\right)-\frac{1}{3}\left(\zeta\left(3\right)-1\right)-\dots\). הספקנים שבכם אולי יתהו למה הטור הזה מתכנס בכלל; לשם כך מספיק להראות שהטור החיובי \(\sum_{k=2}^{\infty}\left(\zeta\left(k\right)-1\right)\) מתכנס, ואותו אפשר לכתוב כ-\(\sum_{k=2}^{\infty}\sum_{n=2}^{\infty}\frac{1}{n^{k}}\), להחליף את סדר הסכימה כדי לקבל סכום של טורים גאומטריים \(\sum_{n=2}^{\infty}\left(\sum_{k=2}^{\infty}\frac{1}{n^{k}}\right)=\sum_{n=2}^{\infty}\frac{1}{n\left(n-1\right)}\) והטור הזה כבר בבירור מתכנס על ידי מבחן השוואה סטנדרטי (המעבר האחרון הוא פשוט שימוש מהיר בנוסחה לטורים גאומטריים אינסופיים).

עכשיו אפשר לעצור ולנשום קצת אוויר ולראות שעברנו דרך לא קטנה מאז שהתחלנו עם שיטות בחירה מוזרות למזכירות. סיפור המזכירה נגמר כאן, אבל סיפורם של המספרים ההרמוניים ממש לא; אני מקווה שבעתיד אראה עוד מקומות שבהם הם (ו-\(e\)) צצים.

למה פאי לא שווה 4?

באינטרנט מסתובבת לה לאחרונה הוכחה ישנה נושנה לכך ש"\(\pi=4\)", כאשר \(\pi\) (פאי) הוא המספר שמציין את היחס בין היקף מעגל וקוטרו בגאומטריה האוקלידית. ההוכחה הזו קצת לא מסתדרת עם הידע המתמטי הסטנדרטי לפיו \(\pi\) אכן קבוע לכל המעגלים, אבל ערכו בכלל מתחיל ב-\(3.14\dots\) והוא מספר אי רציונלי, כלומר הספרות שמעבר לנקודה העשרונית מתמשכות עד אינסוף ללא מחזוריות. אז מהי ההוכחה ולמה היא לא נכונה? ראשית, ההוכחה:


אז מה יש לנו כאן? סדרה של עקומים שהאורך של כל אחד מהם הוא ללא ספק 4, והם "שואפים" למעגל. הבעיה היא בדיוק במילה שבמרכאות; אם אנחנו טוענים שהעקומים "שואפים" למעגל, עלינו להסביר באיזה מובן – וחשוב מכך, עלינו להסביר למה מתקיימת כאן תכונה מהותית יותר, שבאופן מילולי ניתן לנסח כ"אם סדרת עקומים "שואפת" לעקום ספציפי אחד, אז סדרת האורכים של העקומים שואפת לאורך של אותו עקום ספציפי". למעשה, זו תכונה כל כך מהותית שכנראה נרצה להגדיר "שאיפה" באופן שיבטיח שהיא תתקיים. הסיבה שההוכחה היא שגויה היא שסדרת העקומים שנבנית בה לא שואפת להיקף המעגל בשום מובן מתמטי סטנדרטי, ובפרט אין סיבה להניח שמתקיימת התכונה שגבול האורכים של סדרת העקומים יהיה האורך של המעגל. זו ללא ספק התחושה האינטואיטיבית שנוצרת בנו (גם בי) כשאנו מסתכלים על ההוכחה, אבל במתמטיקה אינטואיציות שגויות כאלו שנובעות מהתעסקות באינסוף, או מ"הוכחה באמצעות ציור" הן דבר נפוץ ביותר – כאן יש לנו פשוט עוד דוגמה נאה לאופן שבו אינטואיציה כזו נוצרת.

אז מה עושים המתמטיקאים? לזה אקדיש את עיקר הפוסט. באופן נאיבי יחסית, כדי לחשב אורך של עקום הם בונים לעקום סדרה של קירובים פוליגונליים. קירוב כזה נבנה באופן הבא: מסמנים \(n\) נקודות על העקום, ומותחים קווים ישרים בין הנקודות על פי סדר הופעתן על העקום (מהראשונה אל השנייה, מהשנייה אל השלישית וכדומה). הקווים הישרים הם הדרך הקצרה ביותר לעבור מנקודה אחת לשנייה, כך שהמרחק בין שתי נקודות סמוכות על העקום חוסם מלמעלה את אורך הקו הישר שמחבר את שתי הנקודות. הקירוב הפוליגונלי הוא הקו הישר-למקוטעין שמתקבל מחיבור כל הקטעים הישרים שבנינו; את האורך שלו קל לחשב (זה סכום אורכי הקטעים) והאורך הזה, על פי הטיעון שנתתי, חסום מלמעלה על ידי אורך העקום עצמו. כאשר משאיפים את \(n\) לאינסוף, כלומר מסתכלים על קירובים עם יותר ויותר נקודות על העקום, הקירוב הפוליגונלי שמתקבל הולך ומשתפר.

כעת יש שתי דרכים להגדיר את אורך העקום עצמו – הראשונה היא בתור "המספר הקטן ביותר שגדול או שווה לאורך כל קירוב פוליגונלי אפשרי של העקום" (זהו המושג המתמטי של סופרמום, למי שמכיר), והשנייה היא בתור "הגבול של סדרת האורכים שמתקבלת מסדרת קירובים פוליגונליים שבה \(n\) שואף לאינסוף". בדרך השנייה צריכים להיות קצת יותר זהירים, שכן הרמאים מביניכם בוודאי כבר חשבו על האפשרות לרכז את כל נקודות הקירוב אי שם בתחילת העקום, מה שמבטיח שרוב הקירוב "יפספס" את העקום – ולכן דורשים דרישה נוספת בהגדרה השניה, והיא שהאורך של כל קטע בקירוב הפוליגונלי צריך לשאוף לאפס. זה מבטיח שגודל ה"טעות" שנוצרת משימוש בקווים ישרים בקירוב ישאף לאפס.

ההגדרה הזו היא, כאמור, נאיבית יחסית; אנסה כעת להציג גישה אחרת שמסתמכת על כלים כבדים מעט יותר ועם זאת נראית אולי קצת יותר "טבעית" ומשכנעת באופן אינטואיטיבי. אזהיר מראש שאני מראה כאן רק את קצה הקרחון; בחשבון אינפיניטסימלי מתקדם עושים את מה שאני אתאר כאן באופן כללי בהרבה, שמאפשר לדבר על דברים נוספים פרט לאורך של עקומים. אבל נעזוב את זה.

איך מודדים מרחק בדרך כלל? ובכן, דרך אחת היא לבוא עם סרגל, אבל זה מתבסס על כך שכבר יש לכם "מרחק מדוד" בכיס, וזו שיטה בעייתית אם אתם רוצים למדוד מרחק גדול ואין לכם סרגל ארוך. אז הנה דרך אחרת: נניח שאתם רוצים למדוד מרחק של מסלול ישר כלשהו. תעמדו בקצה אחד שלו, ובקצה השני תעמידו חבר טוב. סנכרנו את השעונים שלכם, ומתי שמתחשק לכם שלחו גל קול מכם אל החבר. ודאו שלחבר יש גלאי קול רגיש, ושאתם מודדים במדויק את הרגע שבו שלחתם את האות, והרגע שבו החבר קיבל את האות. כעת יש לכם את הזמן שנדרש לאות להגיע מנקודה א' לנקודה ב'; ואתם גם יודעים את המהירות שבה האות עבר (כן, אני מניח שמהירות הקול קבועה וידועה לכם), אז משני הנתונים הללו ניתן להפיק את המרחק שהאות עבר (הזמן כפול המהירות). זו גם תהיה בדיוק הצורה שבה אנסה להגדיר את האורך של עקום.

שם המשחק פה הוא פרמטריזציה. פרמטריזציה של עקום \(\mathcal{C}\) היא פונקציה \(f:\left[a,b\right]\to\mathcal{C}\) שהיא חד-חד ערכית ועל, ובנוסף לכך גם רציפה, וכך ש-\(f\left(a\right)\) ו-\(f\left(b\right)\) הם שני הקצוות של העקום. אנחנו חושבים על הקטע \(\left[a,b\right]\) בתור מקטע זמן כלשהו, ועל \(f\left(t\right)\) בתור "הנקודה בעקום שבה היינו בזמן \(t\)". מכיוון שאנו רוצים בסופו של דבר לחשב היקף של מעגל, בואו נעבור לדבר על פרמטריזציות של מעגל היחידה – המעגל שרדיוסו 1 ולכן היקפו \(2\pi\) (המעגל שב"הוכחה" הוא בעל רדיוס \(\frac{1}{2}\) ולכן היקפו יוצא \(\pi\), אבל יהיה יותר נוח לדבר על מעגל היחידה הרגיל). הדרך הנוחה לתאר את המעגל היא באמצעות הפונקציות הטריגונומטריות: הפרמטריזציה הפשוטה ביותר היא \(f\left(t\right)=\left(\cos t,\sin t\right)\), כאשר \(t\in\left[0,2\pi\right]\). אפשר גם לבחור פרמטריזציה שבה הזמן הוא בין 0 ו-1: \(g\left(t\right)=\left(\cos\left(2\pi t\right),\sin\left(2\pi t\right)\right)\) כאשר \(t\in\left[0,1\right]\). הפונקציה \(g\) מתארת מישהו ש"רץ יותר מהר" על המעגל – אבל כמובן, לוקח לו פחות זמן. אפשר גם לתת פרמטריזציות מופרעות יותר (למשל, מישהו שרץ מהר על החצי הראשון של המעגל, ואז מאט מאוד) אבל נעזוב את זה. כדי לחשב את היקף המעגל די להשתמש בפרמטריזציה אחת כלשהי ולכן בדרך כלל בוחרים את זו שהכי נוחה לנו – כאן זו תהיה \(f\), באופן בלתי מפתיע.

מושג הנגזרת שהצגתי בעבר מתאר היטב את המהירות הרגעית בתנועה במימד אחד. אבל כאן יש לנו תנועה בשני מימדים; איך נתאר אותה? ובכן, באופן כללי אפשר לחשוב על פרמטריזציה כעל שתי פונקציות שונות ש"משחקות יחד" – \(f\left(t\right)=\left(x\left(t\right),y\left(t\right)\right)\) כאשר \(x\left(t\right),y\left(t\right)\) שתיהן פונקציות מ-\(\mathbb{R}\) אל \(\mathbb{R}\), ולכן שתיהן גזירות במובן הרגיל. אם כן, \(\left(x^{\prime}\left(t_{0}\right),y^{\prime}\left(t_{0}\right)\right)\) הוא וקטור שמתאר את רכיבי המהירות של \(f\) בשני הכיוונים – הן בציר \(x\) והן בציר \(y\). כדי למצוא את גודל המהירות משני הרכיבים משתמשים במשפט פיתגורס, ומקבלים שהוא \(\sqrt{x^{\prime}\left(t_{0}\right)^{2}+y^{\prime}\left(t_{0}\right)^{2}}\). למי שכל זה נראה לו כמו ג'יבריש מפחיד – לא נורא; אין הכרח להבין את זה כרגע ובהחלט מספיק הרעיון האינטואיטיבי של "הדרך תחושב באמצעות המהירות והנה הנוסחה שמתארת את המהירות".

כעת, אם המהירות הרגעית בכל נקודה נתונה לנו, האופן שבו מחשבים את הדרך הכוללת שעברנו הוא באמצעות סכימה של המהירות הרגעית הזו – סכימה מסוג זה נקראת אינטגרל וגם אותה תיארתי כבר בבלוג. נקבל שאורך העקום הוא בדיוק \(\int_{a}^{b}\sqrt{x^{\prime}\left(t\right)^{2}+y^{\prime}\left(t\right)^{2}}dt\). זו לא נוסחה יפה במיוחד באופן כללי, אבל במקרה הפרטי שלנו היא דווקא תהיה פשוטה למדי.

עבור הפרמטריזציה של המעגל שבחרנו, \(x\left(t\right)=\cos t\) ו-\(y(t)=\sin t\) ולכן נקבל \(x^\prime(t)=-\sin t\) ו-\(y^{\prime}\left(t\right)=\cos t\), ולכן \(\sqrt{x^{\prime}\left(t\right)^{2}+y^{\prime}\left(t\right)^{2}}=1\) – כמה נחמד זה כשהכל יוצא פשוט פתאום! אם כן, האינטגרל שלנו הוא \(\int_{0}^{2\pi}dt=2\pi\), וקיבלנו את האורך כמעט בלי מאמץ. כמובן, אתם עדיין צריכים להאמין הן לכך שהפרמטריזציה שלי מתארת נכונה את המעגל, והן שההגדרה שלי לאורך באמצעות נגזרות ואינטגרלים היא תקינה, אבל אני לא הולך לנסות ולשכנע אתכם יותר מכפי שכבר שכנעתי.

אגב, כדאי להעיר כאן שגם הגדרת הקירוב הפוליגונלי שלי, וגם ההגדרה עם הפרמטריזציה שתיהן מקרים פרטיים של המושג הכללי והחזק יותר של אינטגרל קווי – אינטגרל של פונקציה רב ממדית כלשהי שמחושב לאורך מסלול. המקרה שלנו מתקבל כשהפונקציה היא טריוויאלית.

לסיום, אני רוצה לחזור לרגע אל ההוכחה שבתחילת הפוסט. ההוכחה משחקת על התחושה האינטואיטיבית שלנו שככל שאנחנו מבצעים יותר שלבים בבניית העקומה-השואפת-לכאורה-למעגל שלנו, כך השינויים "נהיים קטנים יותר" במובן כלשהו. כדי להמחיש עד כמה התחושה הזו עשויה להיות מטעה, אני רוצה להציג מפלצת חביבה במיוחד, שראויה לפוסט שלם משל עצמה (ואף תקבל כזה מתישהו) – פתית השלג של קוך:


פתית השלג הוא פרקטל – הוא יצור שמורכב מעותקים מוקטנים של עצמו. איך בונים אותו פורמלית? ובכן, בונים סדרה של עקומות ששואפת אליו. מתחילים עם משולש שווה צלעות. לאחר מכן, לכל צלע של המשולש, בונים משולש שווה צלעות חדש על הצלע, כך שאחת מצלעותיו היא בדיוק השליש האמצעי של הצלע (ולכן גודל צלע המשולש החדש הוא שליש מגודל המשולש המקורי). את השליש הזה של האמצע מוחקים מהעקומה. כעת יש לנו צורה שנראית כמו מגן דוד שכזה. עכשיו מתחיל המשחק האמיתי: לכל אחד מששת הצ'ופצ'יקים של המגן דוד אנחנו מפעילים את אותה בניה כמו קודם. לכל צ'ופצ'יק שכזה יש שתי צלעות, ועל כל אחת מהן אנחנו בונים משולש שווה צלעות חדש. במילים אחרות, על כל צ'ופצ'יק אנחנו שמים שני צ'ופצ'יקים חדשים, קטנים יותר. ואז אנחנו עושים את זה שוב, ושוב, ושוב. הנה ציור של ארבעת השלבים הראשונים:


פתית השלג הוא הגבול של סדרת העקומות שנבנות באופן הזה. מה המובן הפורמלי של גבול כאן לא חשוב כרגע – אבל חשבו על כך שכל נקודה במרחב "יודעת" אחרי מספר סופי של צעדים בבנייה האם היא תהיה שייכת לפתית השלג הסופי או לא (אפשר להראות שלכל נקודה במרחב, קיים \(n\) כך שלכל עקומה בסדרה החל מהמקום ה-\(n\) והלאה או שהנקודה נמצאת על כל העקומות הללו, או שהיא לא נמצאת על אף אחת מהן).

וכעת הפאנץ': למרות שנראה שהשינויים בפתית השלג "הולכים ונחלשים", והצורה הסופית נראית סופית בהחלט, ההיקף שלה הוא אינסוף. זאת מכיוון שכל עקומה בסדרה ארוכה מקודמתה פי \(\frac{4}{3}\). מדוע? ובכן, בכל שלב בבנייה אנחנו לוקחים קו ישר (צד של צ'ופצ'יק), מחלקים אותו ל-3 חלקים, מעיפים אחד מהם ומוסיפים שני קווים חדשים מאותו אורך (הצ'ופצ'יק החדש). כלומר, מקו אחד קיבלנו 4 קווים חדשים, שהאורך שלהם הוא \(\frac{1}{3}\) מהאורך של הקו המקורי. לכן ההיקף גדל פי \(\frac{4}{3}\). זה אומר שההיקף של הצורה ה-\(n\)-ית בסדרה הוא גדול פי \(\left(\frac{4}{3}\right)^{n}\) מההיקף של המשולש המקורי, ולכן אין מנוס – ההיקף שואף לאינסוף, ולכן זה יהיה אורכו של פתית השלג (כאן דווקא כן ניתן להוכיח שהיקף פתית השלג שווה לגבול של סדרת אורכי העקומות ששואפות אליו).

מה אנחנו לומדים מזה? ובכן, דבר אחד בעיקר – כשאתם רואים בניות "אינסופיות" כאלו, אל תניחו ששום דבר מובן מאליו, ואל תסתמכו על האינטואיציה שלכם בלבד. אחרת באמת תקבלו ש-\(\pi=4\).

נגזרת – בשביל מה זה טוב? (בעיות קיצון, חלק ב')

בפוסט הקודם עסקנו בשתי בעיות "מציאותיות" ובסופו של דבר בנינו מודל מתמטי עבורן שבא לידי ביטוי בפונקציה ממשית מסויימת. זה מעביר אותנו לבעיה הכללית הבאה: נתונה פונקציה ממשית \(f\left(x\right)\), ואנו רוצים למצוא ערכי \(x\) שעבורם \(f\left(x\right)\) היא מקסימלית או מינימלית. הנחת היסוד שלנו הוא ש-\(f\left(x\right)\) היא פונקציה "נחמדה" – ניתן לגזור אותה, ולהפיק מהנגזרת מידע על \(f\) עצמה. כמו כן, אם \(f\) גזירה אז היא בפרט רציפה ולכן ניתן לצייר אותה בצורה פשוטה בתור קו אחד רציף. באופן פשטני, פונקציה כזו תיראה בתור קו שעולה למעלה, ואז יורד למטה, ואז שוב עולה, ואז שוב יורד, וכדומה (כמובן, היא יכולה להיות אפילו יותר משעממת – \(f\left(x\right)=x\) היא "קו ישר שכל הזמן עולה"). בואו נסתכל על דוגמה:

מה שאנחנו רואים הוא שלפונקציה יכולות להיות הרבה נקודות מינימום ומקסימום מקומיות. נקודות שאם מסתכלים רק בהן ובסביבה קטנה שלהן, בהן הפונקציה מקבלת את הערך המקסימלי/מינימלי באותה הסביבה. אם אנחנו רוצים להבין איך הפונקציה פחות או יותר נראית, כל הנקודות הללו מעניינות אותנו; ואם אנחנו מעוניינים רק בערך המקסימלי שלה בכלל, גם אז הן מעניינות אותנו – נמצא את כולן ונבדוק באיזו מהן הפונקציה מקבלת את הערך הגדול ביותר.

בואו ננסה להבין מה קורה בנקודת מקסימום, ונחזור לאנלוגיה הרגילה שלנו של "הפונקציה מתארת מיקום, הנגזרת שלה מתארת מהירות, הנגזרת של הנגזרת מתארת תאוצה". חשבו על כדור שנבעט לו לשמיים – בהתחלה הוא עולה עולה עולה, והעלייה הופכת איטית יותר ויותר, עד שהוא פתאום "נעצר", ואז מתחיל ליפול. הנקודה שבו הוא נעצר היא נקודת המקסימום שאליה הגובה הגיע. אנחנו יכולים לאפיין אותה באופן הבא: הן מימין והן משמאל לנקודת הזמן הזו, הגובה של הכדור קטן יותר מאשר הוא בנקודת הזמן עצמה. פורמלית, נקודת מקסימום מקומי \(x_{0}\) מקיימת \(f\left(x_{0}-h\right)\le f\left(x_{0}\right)\) ו-\(f\left(x_{0}+h\right)\le f\left(x_{0}\right)\) עבור כל ה-\(h\) החיוביים שהם קטנים מגודל כלשהו (שיכול להיות קטן כרצוננו – כל שאמרנו הוא שצריך שהנקודת תהיה המקסימלית בסביבה כלשהי אך לא דרשנו כלום על גודלה).

כאן נכנס החשבון הדיפרנציאלי לתמונה. מהי הנגזרת של \(f\) בנקודה \(x_{0}\)? כאן אפשר ללכת בדיוק לפי ההגדרה. אם הנגזרת קיימת, אז היא שווה לגבול \(\lim_{h\to0}\frac{f\left(x_{0}+h\right)-f\left(x_{0}\right)}{h}\). כאן \(h\) יכול להיות גם חיובי וגם שלילי, אבל ההבנה שלנו לגבי מה שהולך כאן משתפרת אם אנחנו בוחרים להסתכל על כל אחד מהמקרים לחוד. נסמן ב-\(h\to0^{+}\) את "\(h\) שואף לאפס מימין", שפירושו ש-\(h\) מקבל ערכים שהולכים ומתקרבים לאפס אבל כולם חיוביים. בדומה נשתמש גם בסימון \(h\to0^{-}\). למי שהסימון הזה עדיין מציק לו בגלל מחסור בפורמליות, הנה הגדרה פורמלית: \(\lim_{h\to a^{+}}g\left(h\right)=L\) אם ורק אם לכל \(\varepsilon>0\) קיימת \(\delta>0\) כך שלכל \(a\le h<a+\delta\) מתקיים \(\left|g\left(h\right)-L\right|<\varepsilon\). כעת ארשה לעצמי להשתמש בסימון הזה בחופשיות.

אם כן, מהו \(\lim_{h\to0^{+}}\frac{f\left(x_{0}+h\right)-f\left(x_{0}\right)}{h}\)? אנחנו לא יודעים את הערך המדוייק של הנגזרת, אבל דבר אחד אפשר לומר בודאות – היא קטנה או שווה לאפס. למה? ובכן, כי היצור \(\frac{f\left(x_{0}+h\right)-f\left(x_{0}\right)}{h}\) הוא שלילי או אפס תמיד – \(h\) חיובי, אבל המונה תמיד שלילי או אפס ל-\(h\) קטנים מספיק כי \(f\left(x_{0}\right)\ge f\left(x_{0}+h\right)\) לכל ה-\(h\)-ים הקטנים מספיק. גבול של פונקציה שהיא אי-חיובית באיזור הנקודה אליה שואפים גם הוא אי-חיובי (זה תרגיל פשוט להוכיח את זה – אם הגבול דווקא כן חיובי אפשר למצוא סביבה כלשהי של הנקודה אליה שואפים שבה הפונקציה אף היא חיובית).

את אותו תעלול אפשר לעשות גם עבור \(\lim_{h\to0^{-}}\frac{f\left(x_{0}+h\right)-f\left(x_{0}\right)}{h}\) אבל כאן מתהפכים היוצרות – המכנה הוא עדיין אי-חיובי, אבל כעת המונה הוא שלילי (כי \(h\) נלקח מבין המספרים הקטנים מאפס). לכן המנה היא אי-שלילית, ולכן גם הגבול הוא אי שלילי. קיבלנו ש-\(f^{\prime}\left(x_{0}\right)\) הוא מצד אחד אי שלילי, ומצד שני אי חיובי, ולכן \(f^{\prime}\left(x_{0}\right)=0\). מסקנה: בנקודת מקסימום הנגזרת מתאפסת. באותו אופן מראים גם שבנקודת מינימום הנגזרת מתאפסת. לתוצאה הזו קוראים "משפט פרמה", אם כי אין הכוונה ל"משפט האחרון של פרמה" המפורסם – פרמה היה מתמטיקאי עסוק וגילה דברים בתחומים רבים, כולל בתחום שרק עשרות שנים אחר כך, בימי ניוטון ולייבניץ, יהפוך להיות החשבון הדיפרנציאלי והאינטגרלי שאנו מכירים.

החישוב היבש שלמעלה הוא לדעתי התחלה לא רעה להבין מה קורה שם ולמה זה נכון, אבל אינטואיציה טובה יותר באה אם חושבים על הנגזרת בתור שיפוע המשיק לפונקציה בנקודה. משיק, זכרו, הוא קו שהכיוון שלו הוא הכיוון שאליו הפונקציה "הולכת". נקודת מקסימום היא מעין גבעה; עד אליה המשיק הוא בשיפוע חיובי – האף שלו מצביע למעלה. מייד אחרי הגבעה האף של המשיק מצביע למטה. באמצע הדרך המשיק היה צריך להשפיל את האף שלו. דמיינו אותו מסתובב – אי שם באמצע הסיבוב המשיק הוא מאוזן לגמרי. זוהי דוגמה לרציפות: תנועת הסיבוב שהמשיק מבצע היא רצופה – הוא לא "קופץ" לפתע ממצב שבו הוא מצביע למעלה למצב שבו הוא מצביע למטה אלא עובר בכל מצבי הביניים האפשריים, וזה שבו הוא מיושר לגמרי בפרט. מכיוון שחלקיק שניה לפני המצב הזה המשיק עוד מצביע למעלה ולכן הפונקציה עולה, וחלקיק שניה אחרי כן הראש מצביע למטה והפונקציה יורדת, הרגע שבו הוא מאוזן לחלוטין הוא בדיוק בראש הגבעה. משיק מאוזן פירושו שיפוע 0, ולכן נגזרת 0. מכאן האינטואיציה שלי.

אם כן, שיטת העבודה שלנו כדי למצוא נקודות מינימום ומקסימום היא פשוטה – גוזרים את הפונקציה ובודקים באילו נקודות הנגזרת מתאפסת. כל נקודת מינימום או מקסימום תצוץ כך. לרוע המזל, יש סיכוי שיצוצו עוד נקודות. הביטו בגרף של \(f\left(x\right)=x^{3}\):

בנקודה \(x=0\) הפונקציה מתיישרת לשניה, והנגזרת (\(3x^{2}\)) אכן מתאפסת. אבל הפונקציה ממשיכה לעלות גם אחר כך. לפונקציה הזו בכלל אין נקודות מינימום ומקסימום. אז מה קרה כאן? ב-\(x=0\) היה לפונקציה מה שמכונה "נקודת פיתול". נקודה שבה היא עוברת מקמירות לקעירות או להיפך; והנה כי כן צריך להבין גם את שני המושגים הללו כדי להבין עד הסוף מה המידע שהנגזרת נותנת לנו.

בואו נביט בגרפים של שתי הפונקציות הבאות, \(f\left(x\right)=x^{2}\) ו-\(g\left(x\right)=\sqrt{x}\):

שתיהן פונקציות עולות. שתיהן מקיימות \(f\left(0\right)=g\left(0\right)=0\) \(f\left(1\right)=g\left(1\right)=1\), כלומר הן מתחילות מגובה 0 בזמן 0, ומגיעות לגובה 1 בזמן 1, ועם זאת מבט אחד בגרף של שתיהן מבהיר לנו ששתיהן בעלות אופי שונה לגמרי. מה ההבדל? ש-\(f\left(x\right)=x^{2}\) היא פונקציה קמורה בעוד \(g\left(x\right)=\sqrt{x}\) היא פונקציה קעורה. השמות מבלבלים: \(f\left(x\right)=x^{2}\) היא הפונקציה שיותר דומה לקערה ("פרבולה צוחקת" – זה יהיה יותר ברור אם נצייר את הפונקציה גם לערכים שליליים של \(x\)) ולמרות זאת המילה "קעורה" שמורה לפונקציה שנראית כמו קערה הפוכה. באנגלית המילה המתאימה ל"קמורה" היא Convex ול"קעורה" היא Concave ויש קצת יותר הגיון בהן, אבל לא ניכנס לכך כאן.

אז מה ההבדל האיכותי ביניהן ואיך אפשר לתאר אותו במדוייק? ההבדל הוא ש-\(x^{2}\) היא פונקציה שהמהירות שלה גדלה עם הזמן, בעוד ש-\(\sqrt{x}\) היא פונקציה שהמהירות שלה קטנה עם הזמן. תחשבו על שני רצים – אחד שמתחיל מהר והולך ומתעייף – זה \(\sqrt{x}\); ואחד שמתחיל לאט אבל לאט לאט הופך למהיר יותר ויותר – זה \(x^{2}\). הרץ הראשון יתחיל את המירוץ ביתרון, אבל מתישהו שני הרצים ייפגשו בדרך (בדיוק ב-\(x=1\)) ומכאן ואילך הרץ השני יהיה בעל ההובלה. איפה טמון ההבדל המתמטי בין שני הרצים? הראשון הוא בעל מהירות התחלתית גבוהה אבל תאוצה שלילית (מהירותו קטנה), ואילו השני מתחיל עם מהירות התחלתית נמוכה אבל תאוצה חיובית (מהירותו גדלה). "תאוצה" היא, כזכור, הנגזרת השנייה של פונקציה (קצב השינוי של קצב השינוי שלה), ומכאן המסקנה: פונקציה היא קמורה בנקודה כלשהי (ליתר דיוק – בסביבה של נקודה כלשהי) אם הנגזרת השנייה שלה באותה נקודה היא חיובית, והיא קעורה אם הנגזרת השנייה שלילית.

יש לקמירות וקעירות גם הגדרה כללית יותר, שעובדת גם עבור פונקציות שהן לא בהכרח גזירות. ההגדרה שנתתי כרגע הייתה "נקודתית", אבל בפועל קמירות וקעירות הן תכונות שבאות לידי ביטוי על פי התנהגות הפונקציה בתוך קטע שלם, לא רק בנקודה מבודדת. לכן בואו נביט על קטע \(\left[a,b\right]\). הוא מייצג פרק זמן מסויים, שבמהלכו שני הרצים שלנו, זה של \(f\) וזה של \(g\), עוברים את המרחק שבין \(f\left(a\right)\) ל-\(f\left(b\right)\). בואו נכניס לתמונה כעת רץ שלישי, \(h\), שגם הוא רץ מ-\(f\left(a\right)\) אל \(f\left(b\right)\) (כלומר, \(f\left(a\right)=g\left(a\right)=h\left(a\right)\) ו-\(f\left(b\right)=g\left(b\right)=h\left(b\right)\)) אבל הוא הרץ הכי יציב מבין שלושתם: את כל הדרך הוא עובר במהירות קבועה. אם נצייר את גרף הריצה שלו, הוא יהיה קו ישר ששיפועו \(\frac{h\left(b\right)-h\left(a\right)}{b-a}\).

הטענה שלי היא כזו: הרץ שהתחיל לאט ואט אט מגדיל את מהירותו, שתואר על ידי \(f\), תמיד מפגר מאחורי הרץ היציב \(h\) עד לנקודה שבה הם נפגשים. כלומר, לא ייתכן שיש רגע שבו \(f\left(x\right)>h\left(x\right)\) בכל הקטע \(\left[a,b\right]\). למה? חשבו על זה כך: בהתחלה מהירות הריצה של \(f\) קטנה מזו של \(h\) (כי אם היא הייתה גדולה מזו של \(h\) בהתחלה, והמהירות של \(f\) רק גדלה עוד ועוד עם הזמן, אז בנקודה \(b\) בהכרח \(f\) היה חייב להיות הרחק מעבר ל-\(h\)). כדי ש-\(f\) יצליח להשיג את \(h\) חייב להיות רגע שבו מהירותו של \(f\) עוברת את זו של \(h\), אבל מאותו רגע ואילך המהירות של \(f\) תהיה גדולה יותר תמיד מזו של \(h\), ולכן אחרי הפעם הראשונה שבה הוא יעקוף אותו, \(h\) לעולם לא ישיג אותו מחדש. נקודת המפגש הזו היא רק ב-\(b\) ולכן עד אז \(f\) חייב לפגר אחרי \(h\). מטיעונים סימטריים לגמרי מקבלים ש-\(g\) תמיד משיג את \(h\) עד לנקודה \(b\).

במילים אחרות, אם משרטטים את התנועה של \(f\), ואז בוחרים שתי נקודות על הגרף ומותחים ביניהן קו, אז הגרף של \(f\) בין אותן שתי נקודות יהיה תמיד מתחת לקו. בדומה עם \(g\) הגרף של הפונקציה יהיה תמיד מעל לקו. בנוסחה אומרים שפונקציה (כללית) \(f\) היא קמורה בקטע \(\left[a,b\right]\) אם לכל \(x\in\left[a,b\right]\) מתקיים \(f\left(x\right)\le\frac{f\left(b\right)-f\left(a\right)}{b-a}\). לפונקציות קעורות זה אותו דבר עם היפוך סימן אי השוויון.

בואו נמשיך עוד רגע עם האנלוגיה ל"הרץ שנע במהירות קבועה" כדי להבין עוד תופעה מבלבלת אחת שמתרחשת עם פונקציות קמורות וקעורות. בואו נניח ש-\(f\) היא קמורה – כזכור, זה אומר שהיא מייצגת "רץ שהמהירות שלו גדלה כל הזמן". בואו ניקח נקודה כלשהי על גרף הפונקציה ונצייר את המשיק לאותה נקודה. מהו המשיק הזה? קו ישר, ששיפועו מייצג את המהירות הרגעית של \(f\) ברגע שמיוצג על ידי אותה נקודה. נקודות אחרות על הישר מייצגות את "איפה נמצא רץ שמהירותו קבועה ושווה למהירות בנקודת ההשקה ברגעים אחרים". תדמיינו לעצמכם את הרץ של \(f\) מתרוצץ לו, ואז פתאום אנחנו מקפיאים את התמונה ומציירים לידו רץ חדש, כך שמהירות הרץ החדש שווה למהירות של \(f\) ברגע שהקפאנו. כעת אנו ממשיכים להריץ את הסרט, מה קורה? ברור ש-\(f\) יעבור את הרץ החדש, כי המהירות של \(f\) תהיה גדולה משל הרץ החדש (אמרנו ש-\(f\) מגדיל כל הזמן את מהירותו בעוד שהרץ החדש רץ במהירות קבועה).

אוקיי, עכשיו בואו נריץ את הסרט אחורה. האינטואיציה שלי אומרת שבמקרה הזה הרץ החדש צריך להשיג את \(f\) כי הוא מהיר יותר – ככל שמריצים את הסרט אחורה, המהירות של \(f\) נהיית קטנה יותר ויותר ביחס לזו של הרץ החדש. אבל האינטואיציה שלי פשוט שגויה – אם נריץ את הסרט אחורה, עדיין נראה את \(f\) משיג את הרץ החדש. למה? ובכן, כי אם הרץ החדש היה משיג את \(f\), והמהירות של הרץ החדש גדולה מזו של \(f\) עד לשלב שבו הם נפגשים (ואז היא שווה), איך בדיוק \(f\) יצליח להשיג אותו כך שהם ייפגשו?

הסרט המלא, אם כן, הוא זה: \(f\) רץ לו בניחותא ולאט לאט מגדיל את מהירותו. הרץ החדש רץ אליו במהירות קבועה ולאט לאט מצמצם את הפער… מתקרב… מתקרב… משיג אותו! אבל בשניה שאחר כך \(f\) כבר נהיה מהיר מדי והרץ החדש נשאר מאחור. כלומר, הרץ החדש אף פעם לא עובר את \(f\). ובמתמטיקה: המשיק ל-\(f\) בנקודה כלשהי, בתנאי ש-\(f\) קמורה בסביבת הנקודה הזו, נמצא כולו מתחת לגרף הפונקציה. שימו לב לבלבול – המשיק כולו מתחת, אבל אם מסתכלים על המיתר שמחבר שתי נקודות בסביבה של נקודת ההשקה, המיתר כולו מעל. אני מקווה שעם כל האינטואיציות שניסיתי לתת כאן העסק קצת פחות מבלבל.

עבור פונקציות קעורות כל הדיון עובד באותה מידה, כצפוי, ומקבלים שהמשיק בנקודה כלשהי הוא תמיד מעל לגרף הפונקציה.

טוב, סיימנו את הדיון הזה בפונקציות קמורות וקעורות – איך זה מתקשר לנקודות מינימום ומקסימום? בפשטות – בנקודת מינימום הפונקציה קמורה, ובנקודת מקסימום הפונקציה קעורה. זה נותן לנו קריטריון מיידי לזיהוי נקודות קיצון: אם הנגזרת הראשונה של הפונקציה היא אפס והשנייה היא חיובית, אז זוהי נקודת מינימום, אם הנגזרת הראשונה היא אפס והשניה שלילית, זוהי נקודת מקסימום, ואם גם הנגזרת השניה היא אפס אנחנו בצרות – הכל יכול לקרות.

שתי הדוגמאות הבסיסיות ל"הכל יכול לקרות" הן פשוטות מאוד: \(f\left(x\right)=x^{3}\) ו-\(f\left(x\right)=x^{4}\). בדוגמה של \(f\left(x\right)=x^{3}\) מה שקורה בנקודה \(x=0\) הוא מה שקראתי לו "נקודת פיתול" – רגע לפני הפונקציה קעורה ורגע אחרי היא קמורה, וכל זה מבלי שהיא תפסיק לעלות מעלה. פורמלית זה מתבטא בכך שהנגזרת הראשונה בסביבות הנקודה הזו היא חיובית, והנגזרת השניה היא שלילית לפני 0 וחיובית אחרי 0. אם נחזור לדוגמת הרץ, מה שיש לנו פה הוא אדם שרץ ומאיט אט אט, נעצר לשבריר שניה ב-\(x=0\), ואז מתחיל להאיץ מחדש. במשך כל הזמן הזה הוא מתקדם קדימה.

לעומת זאת ב-\(f\left(x\right)=x^{4}\) הנגזרת הראשונה היא אפס אבל שלילית לפני אפס וחיובית אחריו – מכאן שיש לנו פה נקודת מינימום – הרץ רץ "אחורה" עד ל-\(x=0\) ואז התחיל לרוץ "קדימה". אם היינו מנסים להבין זאת דרך הנגזרת השנייה היינו מסתבכים בצרות – הנגזרת השנייה היא גם כן אפס. וגם השלישית! רק הנגזרת הרביעית אינה אפס אלא מספר חיובי. זה מוביל אותנו לקריטריון המוזר הבא: אם הנגזרת הראשונה שאינה מתאפסת היא רציפה ומספרה זוגי, הנקודה היא היא נקודת מינימום או מקסימום (בהתאם לערכה של אותה נגזרת שלא התאפסה), ואם היא נגזרת (רציפה) שמספרה אי זוגי, הנקודה היא נקודת פיתול. תכף אסביר את הקריטריון הזה אבל עוד קודם לכן אעיר שזה לא סוף הסיפור – הנגזרת עשויה להיות לא מוגדרת בכלל, ולמרות זאת עדיין תהיה משמעות לשאלה אם הנקודה היא נקודת מינימום, מקסימום או פיתול (כל אלו הן תכונות "מקומיות" שלא דורשות נגזרת שניה אלא רק ראשונה). במקרים כאלו ייתכן שהנקודה לא תהיה לא נקודת מינימום, לא נקודת מקסימום וגם לא נקודת פיתול – דוגמה לפתולוגיה כזו היא הפונקציה \(f\left(x\right)=x^{2}\sin\left(\frac{1}{x}\right)\) שמוגדרת להיות 0 בנקודה 0, ואפשר להוכיח שהיא רציפה ואפילו גזירה (פעם אחת בלבד!) ב-\(x=0\), וערך הנגזרת שם הוא 0, אבל אין שם לא נקודת קיצון וגם לא נקודת פיתול. בחיי היום יום בדרך כלל לא נתקלים בתופעות מטורללות שכאלו.

טוב, אז בואו נבין את הקריטריון שהצגתי לזיהוי נקודות קיצון אל מול נקודות פיתול. אני חושב שכדאי להתחיל כאן מהסוף – מהנגזרת הראשונה שאינה אפס – ולטפס מעלה. בואו נניח ש-\(f^{\left(n\right)}\left(x_{0}\right)=C\) כך ש-\(C>0\) וה-\(n\) שהוא לכאורה חזקה של \(f\) מציין שזוהי הנגזרת ה-\(n\)-ית. כמו כן \(f^{\left(1\right)}\left(x_{0}\right)=\dots=f^{\left(n-1\right)}\left(x_{0}\right)=0\). אז מה קורה כאן?

מכיוון ש-\(C>0\) אז \(f^{\left(n\right)}\) (שהיא רציפה, הנחנו) היא חיובית בסביבה של \(x_{0}\). לכן \(f^{\left(n-1\right)}\) היא פונקציה עולה בסביבות \(x_{0}\). מכיוון שב-\(x_{0}\) היא אפס, הרי שלפני \(x_{0}\) היא שלילית, ואחרי כן היא חיובית. זה אומר, וכאן העסק מתחיל להיות מבלבל, ש-\(f^{\left(n-2\right)}\) היא שוב פונקציה שהיא תמיד חיובית. למה? כי לפני \(x_{0}\) היא ירדה, ובדיוק ב-\(x_{0}\) היא הייתה אפס, אז לפני כן היא הייתה חייבת להיות חיובית; ואחרי \(x_{0}\) היא שוב עולה מעלה. אבל זה אומר ש-\(f^{\left(n-2\right)}\) לא שונה עקרונית מ-\(f^{\left(n\right)}\), ולכן אפשר להמשיך את המשחק הזה עוד ועוד עד שמגיעים חזרה למעלה. נקבל בסופו של דבר ש-\(f^{\prime}\) היא או פונקציה שלילית-ואז-חיובית, ואז נקבל ש-\(x_{0}\) היא נקודת מינימום, או ש-\(f^{\prime}\) היא חיובית תמיד ואז \(f^{\prime\prime}\) היא הפונקציה שהיא שלילית-ואז-חיובית, כלומר \(x_{0}\) היא נקודת פיתול.

ואחרי כל המהומה הזו, איך אני פותר את השאלות שמהן התחלתי את הדיון? ובכן, האתגר הראשון היה למצוא איפה ל-\(\sin\left(2\theta\right)\) יש מקסימום בהינתן ש-\(\theta\) הוא בין 0 ל-90 מעלות. גזירה של הפונקציה מניבה את \(2\cos\left(2\theta\right)\). קוסינוס מתאפס בתשעים מעלות, כך שהפונקציה הזו מתאפסת ב-45 מעלות. גזירה נוספת מניבה את \(-4\sin\left(2\theta\right)\), וכשמציבים 45 מעלות ל-\(\theta\)מקבלים שערך הנגזרת השנייה בנקודה ה"חשודה" הוא -4. נגזרת שנייה שלילית – נקודת מקסימום. סיימנו; 45 מעלות היא הזווית האופטימלית (ומי שמדגדג לו לצעוק עלי להשתמש כאן ברדיאנים – אל).

נעבור לדוגמת החתונות. שם, כזכור, המטרה הייתה למצוא את המינימום של הפונקציה \(f\left(x\right)=A+\left(b-c\left(x\right)\right)x\) כאשר \(c\left(x\right)\) היא פונקציה אחרת כלשהי (שהאופי שלה ישפיע מאוד על התוצאה). אם נגזור את \(f\) נקבל \(f^{\prime}\left(x\right)=\left(b-c\left(x\right)\right)-xc^{\prime}\left(x\right)\). מייד שמים לב למשהו מעניין – הפרמטר \(A\), שתיאר את ההוצאות הקבועות על חתונה, בכלל לא משתתף במשחק. מה שחשוב הוא רק המחיר למנה \(b\), והאופי של התשלומים שמשלמים האורחים, \(c\). פוטנציאל לנקודת קיצון יש במקום שבו הפונקציה מתאפסת, כלומר \(\left(b-c\left(x\right)\right)-xc^{\prime}\left(x\right)=0\), כלומר \(b=c\left(x\right)+xc^{\prime}\left(x\right)\). אנו מעוניינים מראש רק בערכי \(x\) חיוביים כי הם מייצגים מספר חיובי – מספר האורחים שהוזמנו לחתונה. כעת אין מנוס אלא לבדוק דוגמאות קונקרטיות של \(c\left(x\right)\) ולראות מה קורה איתן.

דרך פשוטה לבנות פונקציה כזו היא להחליט מה יהיו חלק מהערכים שלה בנקודות מסויימות ואז לבצע אינטרפולציה: למצוא פונקציה פשוטה שמקבלת את הערכים באותן הנקודות. אני אבצע אינטרפולציה פשוטה במיוחד, שבהינתן שתי נקודות מחזירה את הקו הישר שעובר דרכן. בואו נניח שאם יש 0 אורחים אז התשלום הממוצע הוא \(4b\), ואם יש 100 אורחים אז התשלום הממוצע הוא \(\frac{b}{2}\). זה תרגיל פשוט לראות שבמקרה הזה, \(c\left(x\right)=4b-\frac{7b}{200}x\). הנגזרת גם היא פשוטה: \(c^{\prime}\left(x\right)=-\frac{7b}{200}\), ולכן כדי שיתקיים השוויון שלעיל צריך להתקיים \(b=4b-\frac{7b}{200}x-\frac{7b}{200}x\), כלומר \(3b=\frac{7b}{100}x\), כלומר \(x=\frac{300}{7}\) – בערך 42 אורחים. שימו לב שהתוצאה הסופית לא תלויה אפילו ב-\(b\): היא תלויה רק בפרמטרים שאני בחרתי (תשלום שבהתחלה הוא פי ארבע וכשיש 100 אורחים קופץ להיות חצי). אנחנו רואים, אם כן, שבסופו של דבר התשובה לשאלה "כמה אורחים כדאי להזמין" תלויה באופן כמעט בלעדי ביכולת שלנו להעריך כמה מהר יצנח התשלום שלהם, וזה כמובן נתון שלא ניתן להגיע אליו באופן מתמטי טהור נטו – הוא תלוי באלף ואחד גורמים וכנראה שאומדנים על בסיס סטטיסטיקות עבר הם הדרך הטובה ביותר להעריך אותו. אל תתנו לאנשים לסובב אתכם עם מספרים כשהם מנסים לטעון משהו על המספר האופטימלי של מוזמנים בחתונה שלכם!

עוד דוגמה קטנה לסיום: מהו המלבן בעל השטח הגדול ביותר ביחס להיקף שלו? אם אתם רוצים לבנות גדר לשטח ריבועי ולהשקיע כמה שפחות מאמץ וחומרים בבניה ושהשטח שאתם לוכדים יהיה מקסימלי, מה כדאי לכם לעשות? בואו נניח שיש לנו בסך הכל \(N\) מטרים של גדר שאפשר להשתמש בהם. אם נבנה מלבן שאורך צלעו האחת \(x\), אז אורך צלעו השניה יהיה חייב להיות \(\frac{N}{2}-x\) (בדקו זאת!) ולכן השטח יהיה \(f\left(x\right)=x\cdot\left(\frac{N}{2}-x\right)=\frac{N}{2}x-x^{2}\). הנגזרת היא \(f^{\prime}\left(x\right)=\frac{N}{2}-2x\) והיא מתאפסת כאשר \(2x=\frac{N}{2}\), כלומר כאשר \(x=\frac{N}{4}\). קל לבדוק במצב כזה שזוהי אכן נקודת מקסימום (הנגזרת השנייה שלילית) ומכאן, באופן לחלוטין לא מפתיע, שריבוע היא הצורה הטובה ביותר.

אם כן, זה הרעיון הכללי של שימוש בנגזרות לפתרון בעיות קיצון. זה שימוש כה מיידי ופשוט, עד כי הוא נלמד גם בבית הספר – ולטעמי זו הזדמנות אחת לראות כבר בבית הספר יופי מתמטי. כאן מגיע מושג הנגזרת, שלכאורה מדבר על משהו לא קשור, וניתן להשתמש בו כדי לפתור בעיות מעניינות שהמילה "נגזרת" לא מוזכרת ולו ברמז בתיאור שלהן. למרות כל הזמן שחלף מאז שנתקלתי בשימוש הזה של נגזרות לראשונה, ולמרות שבבית הספר הוא הסתכם בגזירה שוב ושוב של המוני פונקציות מייגעות, אני עדיין מתלהב כשאני כותב עליו.

נגזרת – בשביל מה זה טוב? (בעיות קיצון, חלק א')

כשהייתי קטן תהיתי (יש מישהו שלא תהה על זה?) מה הדרך האופטימלית לזרוק כדור כך שהוא יפול במרחק הגדול ביותר האפשרי ממני. ברור שצריך לזרוק בשיא הכוח שלך, אבל באיזו זווית ביחס לאדמה? אם זורקים יותר מדי לגובה, הכדור אמנם יתעופף לגובה אבל לא יתרחק ממני כמעט; ואם זורקים יותר מדי לאורך הכדור אמנם יבלה את חלק הארי של התנועה שלו בהתרחקות ממני אבל ייפול לאדמה חיש קל. הניחוש היה שהפשרה הטבעית בין קדימה ולמעלה, כלומר זווית של 45 מעלות, היא האופטימלית – אבל איך אפשר להשתכנע בכך שזה נכון? כאן נכנסת המתמטיקה לעזרתנו, ובפרט החשבון הדיפרנציאלי.

השלב הראשון הוא לבנות מודל מתמטי שמתאר את התנועה. כלומר, פונקציה שאומרת לי איפה נמצא הכדור בכל שניה החל מרגע הזריקה. פונקציה כזו תהיה תלויה בפרמטרים: גודל הכוח שהשקעתי בזריקה, והזווית שבה זרקתי. בנוסף לכך, הפונקציה קצת מחוכמת – גם הגובה וגם המרחק של הכדור משתנים בכל עת, כך שבפועל אני צריך שתי פונקציות שונות; ואני צריך "לעצור" את המודל ברגע שבו הפונקציה שמתארת את הגובה מקבלת את הערך 0, ולמדוד כמה מרחק הכדור עבר עד אז. בנייה של מודלים כאלו, לטעמי, היא ממש כיף. אין חוקים – אף אחד לא אומר לך מה לעשות, או באיזה אלגוריתם להשתמש; אתה פשוט מגשש ומנסה להמציא דברים בעצמך כדי לתאר את הסיטואציה באופן הטוב ביותר האפשרי. לכן אני ממליץ לכם לנסות ולפתור את הבעיה בעצמכם ואז לחזור ושנשווה תשובות.

טוב, אז מה אני עושה? ראשית, צריך להבין אילו כוחות משפיעים על הכדור במהלך התנועה שלו. יש את הכוח שלי שבא לידי ביטוי בזריקה עצמה, אבל זה לא כוח שפועל לאורך זמן – בשנייה 0, שבה המודל יתחיל, הזריקה כבר בוצעה ואין צורך להכניס אותה באופן ישיר למודל. היא תיכנס באופן עקיף באמצעות המהירות ההתחלתית של הכדור. הכוח היחיד שפועל על הכדור במהלך התנועה שלו, והוא מה שגורם לו ליפול בסופו של דבר, הוא כוח המשיכה. גם לכוח המשיכה אין צורך להתייחס באופן ישיר במודל – כל שצריך להניח הוא שכוח המשיכה גורם לכדור לתאוצה (שינוי במהירות) קבועה כלפי מטה. פיזיקלית, ההנחה הזו אינה נכונה – ככל שהכדור גבוה יותר, כך תאוצת הכובד שלו קטנה יותר – אבל בפועל היא מתארת את הסיטואציה מספיק טוב לצרכים שלי כי הכדור לא צפוי להגיע לגובה כזה שבו ההבדלים יהיו מורגשים (אבל, ישאלו המתמטיקאים שבחבורה, האין זה אומר ש-45 מעלות הן לא הדבר הנכון בהינתן התכונה הזו של כוח הכובד? ובכן, כן, אתם צודקים, הנה לכם תרגיל בונוס לבית).

הבה ונסמן ב-\(v_{0}\) את המהירות ההתחלתית של הכדור. מכיוון שהכדור נזרק בזווית כלשהי, שנסמן אותה ב-\(\theta\), המהירות הזו מתפרקת לשני רכיבים – אחד בציר \(x\) (אופקי) ואחד בציר \(y\) (אנכי). אופן הפירוק הזה ניתן לתיאור כמשולש ישר זווית שהיתר שלו הוא וקטור המהירות \(v_{0}\), והניצבים הם הרכיבים של \(v_{0}\) בצירי \(x,y\): נסמן אותם \(v_{0}^{x},v_{0}^{y}\) בהתאמה. הגודל שלהם נקבע על פי הגודל של \(v_{0}\) ו-\(\theta\) – זהו אחד מהשימושים הבסיסיים של הפונקציות הטריגונומטריות. מקבלים ש-\(v_{0}^{x}=v_{0}\cos\theta\) ו-\(v_{0}^{y}=v_{0}\sin\theta\).

בציר \(x\) אין תאוצה כלל במשך כל תנועת הכדור, ולכן המהירות של הכדור בציר \(x\) היא פונקציה קבועה שאינה תלויה בזמן \(t\): \(v^{x}\left(t\right)=v_{0}^{x}\). מהפונקציה הזו ניתן לקבל חיש קל את פונקצית המיקום בציר \(x\) ביחס לזמן: אנחנו יודעים שהמהירות היא נגזרת המיקום (זוכרים? מהירות הייתה הדוגמה ה"קלאסית" שלנו לנגזרת), ולכן אם נמצא פונקציה קדומה של \(v^{x}\left(t\right)\), מצאנו את פונקצית המיקום. פונקציה קדומה של קבוע קל למצוא: \(x\left(t\right)=t\cdot v_{0}^{x}\) היא דוגמה לפונקציה שכזו. אל תתנו לסימונים שלי לבלבל אתכם – המשתנה של הפונקציה הוא \(t\), ולפונקציה עצמה קוראים \(x\), כי היא מתארת את המיקום בציר \(x\). אלו סימונים שמאוד מבלבלים למי שרגיל כל היום לגזור פונקציות שנראות כמו \(f\left(x\right)\) אבל בדיוק בגלל זה חשוב לראות דרכי סימון אחרות – כך אפשר לראות שבאמת מבינים מה הולך בתרגיל ואת מה גוזרים ואיך ומה, ולא רק שפועלים אלגוריתמית ובכל פעם שרואים \(x\) איפה שהוא רצים לגזור אותו.

זוכרים שאמרנו שלכל פונקציה יש אינסוף פונקציות קדומות, שנבדלות זו מזו בקבוע? אז איך אנחנו יודעים ש-\(x\left(t\right)\) שהצעתי היא ה"נכונה" למודל שלי? התשובה היא שלא יודעים מייד, אלא צריכים להשתמש בתנאי התחלה. אני יודע שבזמן \(t=0\) אני עומד בראשית הצירים – למה? כי ככה נוח לי לסמן את ראשית הצירים, בתור המקום שבו אני עומד. לכן צריך להתקיים \(x\left(0\right)=0\), וזה אכן מה שקורה עבור הפונקציה שלי (אבל עבור כל פונקציה מהצורה \(t\cdot v_{0}^{x}+C\) עם \(C\ne0\) זה לא היה קורה, ולכן הבחירה ב-\(C=0\) הייתה בחירת הקבוע הנכונה). אם כן, \(x\left(t\right)=t\cdot v_{0}^{x}\) היא פונקציה שמתארת נכונה את מסלול הכדור שלי בציר \(x\) כל עוד הכדור לא פגע באדמה. עכשיו כבר מותר לגלות שמה שעשינו כשחיפשנו את \(x\left(t\right)\) היה לפתור משוואה דיפרנציאלית: הייתה נתונה לנו משוואה שמערבת נגזרת של פונקציה כלשהי, וממנה מצאנו את הפונקציה עצמה. כמובן שהמשוואה שלנו הייתה פשוטה מאוד, אבל זו התחלה.

השלב הבא הוא למצוא את \(y\left(t\right)\) – הפונקציה שמתארת את הגובה כפונקציה של הזמן. כאן הסיטואציה יותר מורכבת בגלל שהמהירות של הכדור משתנה עם הזמן, בגלל שפועל עליה כוח הכובד. גם כאן אנו עומדים לפתור משוואה דיפרנציאלית אבל מעט יותר מסובכת, ובהתאם נציג בצורה קצת יותר מדויקת את מה שאנחנו עושים. מה כבר ידוע לנו על הפונקציה \(y\left(t\right)\)? ידוע לנו תנאי ההתחלה \(y\left(0\right)=0\) (בחרתי לסמן את הגובה שלי בזמן 0 בתור 0; אם אני אשאל את אותה שאלה על זריקת כדור מבניין, למשל, אצטרך לבחור כאן תנאי התחלה שונה שיוביל לפתרון שונה). ידוע לנו גם כי \(y^{\prime}\left(0\right)=v_{0}^{y}\) – המהירות בזמן 0 היא בדיוק זו שנתתי לכדור בעצמי. בנוסף, ידוע לנו ש-\(y^{\prime\prime}\left(t\right)=-g\) כאשר \(g\) הוא קבוע תאוצת הכובד, והוא שלילי בגלל שהתאוצה מגדילה את מהירות הכדור בכיוון השלילי – "למטה". מכל פיסות המידע הללו צריך להרכיב את \(y\left(t\right)\) איכשהו.

השלב הראשון הוא זה: אם \(y^{\prime\prime}\left(t\right)=-g\) אז אחרי אינטגרציה מקבלים ש-\(y^{\prime}\left(t\right)=-gt+C\) עבור \(C\) כלשהו. כדי למצוא את \(C\), יש להשוות לאפס: \(v_{0}^{y}=y^{\prime}\left(0\right)=-g\cdot0+C=C\). כלומר, קיבלנו ש-\(C=v_{0}^{y}\) ולכן \(y^{\prime}\left(t\right)=-gt+v_{0}^{y}\). כעת צריך לבצע עוד אינטגרציה; איך עושים אינטגרציה לפונקציה שאינה קבוע? מכיוון שהפונקציה היא פולינום גם זה לא קשה במיוחד לביצוע ומקבלים \(y\left(t\right)=-g\frac{t^{2}}{2}+v_{0}^{y}t+C\) וכל שנותר הוא למצוא את ה-\(C\). השוואה ל-\(y\left(0\right)=0\) מראה לנו ש-\(C=0\) ולכן \(y\left(t\right)=-\frac{g}{2}t^{2}+v_{0}^{y}t\).

הגורם הריבועי בפונקציה \(y\left(t\right)\) הוא שגורם לכך שאם נצייר את מסלול התנועה של הכדור, הוא לא יהיה קו ישר אלא צורה שנקראת פרבולה. מכיוון שהסימן של המקדם של \(t^{2}\) הוא שלילי, זוהי פרבולה "בוכה", מה שמתאים לאופן האינטואיטיבי שבו אנו חושבים על מסלול תנועתו של כדור שנזרק. אני משער שלרובכם הרעיון הזה כבר טבעי עד שאתם לא שמים אליו לב בכלל, אבל לדעתי זה פשוט נפלא מה שהלך פה – על ידי חישוב מתמטי בלבד, במודל מופשט למדי, קיבלנו תיאור גרפי של האופן שבו הכדור צריך להתעופף. לא לקחנו את צורת התעופפות הכדור כאקסיומה או כגורם הבסיסי במודל; בתור גורמים בסיסיים לקחנו הנחות בסיסיות יותר (המרכזית – פעולת כוח הכובד) ומהן הסקנו את צורתו של מסלול הכדור. הכוח הנבואי הזה שנותנת לנו המתמטיקה הוא לדעתי דבר מרשים ביותר.

טוב, הבה ונמשיך. כעת אנו יודעים בדיוק איך מסלול תנועתו של הכדור נראה, והדבר הבא שאנו רוצים לדעת הוא מתי הכדור יפגע באדמה – עבור איזה \(t\) זה מתקיים. במילים אחרות, לפתור את המשוואה \(-\frac{g}{2}t^{2}+v_{0}^{y}t=0\). פתרון אחד הוא \(t=0\) אבל הוא מנוון ולא מעניין – אנחנו רוצים לדעת מתי הכדור נופל שוב לאדמה, לא מתי הוא היה בהתחלה בגובה אפס. אז אם אנחנו מניחים ש-\(t\ne0\) אפשר לחלק בו, להעביר אגפים ולקבל \(\frac{g}{2}t=v_{0}^{y}\), כלומר \(t=\frac{2v_{0}^{y}}{g}\). באופן לחלוטין בלתי מפתיע אנו רואים שככל שהמהירות ההתחלתית גבוהה יותר, כך הזמן גדול יותר, וככל שתאוצת הכובד גדולה יותר, כך הזמן קטן יותר. זה אולי נראה אידיוטי לציין זאת, אבל בחינה "איכותית" כזו של המשואוות שמקבלים היא דרך טובה לוודא שלא עשינו טעויות חישוב בדרך (כמובן, לפעמים צצות תוצאות מפתיעות ואז אנחנו שוברים את הראש בחיפוש אחר טעות שלא קיימת).

כעת, המרחק שהכדור עבר בציר \(x\) עד פגיעתו באדמה הוא בדיוק \(x\left(\frac{2v_{0}^{y}}{g}\right)=\frac{2v_{0}^{y}v_{0}^{x}}{g}\). משוואה סימטרית ויפה, ועכשיו סיימנו ואפשר… אה, רגע. מה בכלל רצינו לעשות, שוב?

המטרה שלנו, כזכור, הייתה למצוא את \(\theta\) האופטימלי עבור הזריקה, כלומר זה שעבורו המרחק בציר \(x\) שנעבור יהיה הגדול ביותר. עשינו המון חישובים וקיבלנו ביטוי שבו \(\theta\) בכלל לא מופיעה – איך כל זה עזר לנו בכלל?

טוב, אני משקר פה – ברור ש-\(\theta\) מופיע בתוצאה שלנו, פשוט באופן סמוי – הרי \(v_{0}^{y}=v_{0}\sin\theta\) ו-\(v_{0}^{x}=v_{0}\cos\theta\). אם נציב את זה לתוצאה, נקבל \(\frac{2v_{0}^{2}\sin\theta\cos\theta}{g}\). ייתכן שלחלקכם קופצת כרגע לעיניים זהות טריגונומטרית – \(\sin2\theta=2\sin\theta\cos\theta\). זו אחת מהזהויות הללו שכדאי לזכור בעל פה, עד כמה שזה מבאס לגלות שבכלל יש במתמטיקה משהו שצריך לזכור בעל פה (וטענה כמו "זה בדף נוסחאות אז לא צריך" היא קצת בעייתית בהתחשב בכך שצריך לזהות את הדברים הללו כשהם קופצים לנו לעיניים מהדף, ואת זה אפשר לעשות רק אם זוכרים את הנוסחה). אם כן, את מה שקיבלנו אפשר לתאר בתור \(\frac{v_{0}^{2}}{g}\sin2\theta\). וכעת נשאלת השאלה – עבור איזה ערך של \(\theta\) התוצאה שנקבל תהיה מקסימלית?

בואו נתאר עוד בעיה שבה אנחנו מחפשים ערך קיצוני כלשהו, הפעם מינימום – בעיית החתונה. חתונות הן עסק יקר, אך יש כאלו שסבורים שניהול נכון של כמות האורחים יכול לצמצם את הנזקים, עד כדי מאמרים שלמים העוסקים בכך. השורה התחתונה: לכל חתונה יש שורה של הוצאות קבועות שלא תלויות בכלל באורחים (החל בדי-ג'יי ותמיכה כספית ברב, וכלה בדגיגי פיראנה כמו "עיצוב השולחנות" ו"סידורי הפרחים"). בואו נסמן את המחיר הזה ב-\(A\). כמו כן, כל אורח עולה סכום כסף מסויים (מחיר המנה שלו וכדומה) – הבה ונסמן סכום זה ב-\(b\). לסיום, כל אורח גם מביא איתו צ'ק נחמד – הבה ונסמן ב-\(c\) את הסכום הממוצע שכל אורח מביא, וב-\(x\) נסמן את מספר האורחים. אז יש לנו את הנוסחה הבאה שמתארת את מחיר החתונה עבורנו: \(f\left(x\right)=A+\left(b-c\right)x\). אם \(c\) גדול מ-\(b\) (וזו הנחת יסוד של המאמר) אז די בבירור ככל שיהיו יותר אורחים כך הנזק יקטן, ובשלב מסויים ההפסד שלנו יהפוך להיות שלילי – נרוויח! זה יקרה כאשר \(A+\left(b-c\right)x<0\), כלומר כאשר \(x>\frac{A}{c-b}\) – אתם מוזמנים לחשב בעצמכם כמה זה יוצא.

בעולם האמיתי זה לא עובד משתי סיבות. ראשית, יש גבול לכמות האורחים שאולמות מוכנים לסבול, וקרוב לודאי שאולמות גדולים יותר ידרשו יותר כסף. אבל בואו נעזוב את זה ונתמקד במשהו מעניין שנאמר במאמר עצמו – יותר אורחים פירושו הזמנה של אנשים פחות קרובים, ולכן כאלו שמשלמים פחות. כלומר, אפשר לחשוב על \(c\) לא כעל קבוע, אלא כעל משהו שהוא בעצמו פונקציה של \(x\), ופונקציה שיורדת עם הזמן (ה"רווח" הממוצע שלנו מהאורחים יורד ככל שאנו מזמינים אורחים יותר מרוחקים. כלומר, \(f\left(x\right)=A+\left(b-c\left(x\right)\right)x\). מה שאנחנו רוצים לעשות הוא למצוא את \(x\) האופטימלי עבורנו – כזה שמבטיח שההפסד שלנו הוא הקטן ביותר האפשרי (כפי שראינו, לא תמיד קיים כזה – אם \(c\left(x\right)\) קבוע הגדול מ-\(b\) זה לא קורה). איך עושים את זה?

בפוסט הבא נתאר איך מטפלים בשתי הבעיות הללו, ואיך באופן כללי מוצאים נקודות מינימום ומקסימום של פונקציה (ועוד דברים). הפתרון, כמובן, עובר דרך הנגזרת.

המשפט היסודי של החשבון הדיפרנציאלי והאינטגרלי

בפוסטים הקודמים על חדו"א הצגתי שני מושגים שונים, שבאו לפתור בעיות שונות והוגדרו בצורות לא קשורות – הנגזרת והאינטגרל. המשותף לשני המושגים הללו היה שבשניהם התבססנו על מושג הגבול כדי להגדיר אותם; ספציפית, הן הנגזרת והן האינטגרל הם תוצרים של תהליך קירוב כלשהו שבו הדיוק שלנו משתפר עד אין קץ; הנגזרת מודדת "מהירות ממוצעת" על פני פרקי זמן שהולכים וקטנים עד אינסוף, כך שהיא למעשה מתארת מהירות רגעית; והאינטגרל מודד שטח שנמדד בעזרת קירובים מלבניים שרוחבם הולך וקטן עד אינסוף (ובכך הדיוק של הקירוב באמצעותם משתפר). המשפט היסודי של החשבון הדיפרנציאלי והאינטגרלי מראה כי שני המושגים הללו הם שני צדדים של אותה המטבע; שחישוב של אינטגרל הוא במובן מסויים הפעולה ההפוכה מחישוב של נגזרת; וזוהי הסיבה שהחדו"א נקראת חשבון דיפרנציאלי (מלשון נגזרת) ואינטגרלי (מלשון אינטגרל) ומערבת את שני המושגים הללו יחד.

בתור התחלה, בואו נדבר על מושג שהזכרתי בחטף בסיום הפוסט שעסק בחישוב נגזרות – "אנטי-נגזרת" (באנגלית זה נשמע טיפה יותר טוב – Antiderivative), או בשם קצת יותר מקובל – פונקציה קדומה. פונקציה קדומה של פונקציה \(f\) היא פונקציה \(F\) כך ש-\(F^{\prime}=f\). כך למשל, פונקציה קדומה של \(f\left(x\right)=3x^{2}\) היא \(F\left(x\right)=x^{3}\). מאיפה ידעתי זאת? ובכן, זו הייתה אחת מהבשורות המרות בפוסט הקודם; בעוד שבכל הנוגע לנגזרת יש לנו ידע מצויין לגבי האופן שבו גזירה מתבצעת, עד כי אנחנו מסוגלים לחשב את הנגזרת של מרבית הפונקציות המעניינות אותנו בלי להפעיל כלל מחשבה (מה שאומר שאנחנו יכולים לתת למחשב לשבור על כך את הראש ולנוח), הרי שבכל הנוגע לחישוב פונקציות קדומות אין פתרונות קסם. יש הרבה ניסוי וטעיה שנכללים בחישוב של פונקציות קדומות. הרבה היכרות עם פונקציות קדומות של פונקציות קיימות (קחו פונקציה פשוטה, תגזרו אותה ותראו מה תקבלו – עכשיו אתם יודעים מה קורה בכיוון השני; כך למשל אפשר לראות שהפונקציה הקדומה של \(\frac{1}{1+x^{2}}\) היא \(\mbox{atan}\left(x\right)\), בעוד שמי היה חושב על זה בלי לגזור את \(\mbox{atan}\left(x\right)\) קודם?) ועוד כמה כללי אצבע מועילים וטכניקות פשוטות שלא אכנס כאן לתיאור שלהן. השורה התחתונה היא שאנחנו יודעים לחשב פונקציות קדומות לפונקציות רבות אך לא לכולן, וזה לא הכי כיף בעולם.

יש בעייתיות קטנה בדיבור על "הפונקציה הקדומה של פונקציה", שנובעת מכך שלכל פונקציה יש הרבה פונקציות קדומות שונות, כי גזירה של פונקציה קבועה מאפסת אותה. לכן, אם \(F^{\prime}=f\) אז גם \(\left(F+C\right)^{\prime}=f\)לכל קבוע \(C\). מצד שני, לא קשה להראות שזהו ההבדל היחיד שיכול להיות בין פנקציות קדומות שונות: אם \(F,G\) שתיהן פונקציות קדומות של \(f\) אז \(\left(F-G\right)^{\prime}=f-f=0\), כלומר הנגזרת של הפונקציה שהיא ההפרש בין \(F,G\) היא אפס בכל נקודה ולכן זו חייבת להיות פונקציה קבועה (לא הוכחתי זאת אך אינטואיטיבית זה ברור – נגזרת אפס בכל נקודה אומר שהפונקציה אינה משתנה ולו טיפה באף נקודה. הוכחה תגיע אולי בפוסט ייעודי שידבר על כמה מהשימושים הנחמדים של הנגזרת). לכן בתיכון אוהבים לנג'ס לתלמידים שמחשבים פונקציה קדומה של משהו ולתבוע מהם לכתוב "\(+C\)" אחריה כדי שיהיה ברור שבעצם יש לנו כאן קבוצה של פונקציות קדומות שנבדלות בקבוע ובלה בלה בלה. אני אישית מעולם לא הבנתי את הקטע.

יפה, אז נניח שאנחנו כן יודעים לחשב פונקציות קדומות פה ושם. איך זה עוזר לנו? ובכן, כאן מגיע הזבנג הגדול – היכולת לחשב פונקציות קדומות נותנת לנו את היכולת לחשב אינטגרלים. זה מפתיע, כי הנה התקשרו להם שני מושגים לא קשורים. מה שקורה הוא שאם \(f\left(x\right)\) היא פונקציה כך שהאינטגרל המסויים \(\int_{a}^{b}f\left(x\right)dx\) קיים, ואם יש לה פונקציה קדומה \(F\left(x\right)\) בקטע \(\left[a,b\right]\) (כלומר, לכל נקודה בקטע מתקיים \(F^{\prime}\left(x\right)=f\left(x\right)\)) אז \(\int_{a}^{b}f\left(x\right)dx=F\left(b\right)-F\left(a\right)\). כלומר, כדי לחשב את האינטגרל המסויים של הפונקציה בקטע – ולא משנה כמה היא משתוללת בקטע – מספיק למצוא את ההפרש בין ערכי הפונקציה הקדומה שלה בקצוות הקטע. אני לא יודע מה אתכם, אבל כשאני שמעתי על זה לראשונה הרגשתי שמרמים אותי ושמשהו לא תקין ביקום (אם כי יש להודות שכאשר מגיעים לחדו"א של פונקציות מרוכבות צצות ועולות תוצאות מטורפות הרבה יותר).

טוב, אז כמובן שזה רק נראה מטורף על פניו. במבט שני, המשפט דווקא הגיוני למדי. מה זה אומר ש-\(F\) היא הפונקציה הקדומה של \(f\)? ש-\(f\) מתארת את "כמות ההשתנות הרגעית" של \(F\) בכל נקודה. אם מבצעים אינטגרל על \(f\), בעצם מודדים את כמות ההשתנות של \(F\), ולכן לא מפליא כל כך שההפרש בין הערכים של \(F\) בקצותיה מתאר את אותה כמות השתנות. אפשר לחזור לדוגמאות פיזיקליות כדי לשפר את האינטואיציה: \(f\) מתארת מהירות, ואילו \(F\) מתארת מיקום. האינטגרל על \(f\) אכן אמור לתאר בדיוק את גודל השינוי במיקום (שימו לב שזה אינו אותו דבר כמו המרחק הכולל שעברנו – אם \(f\) מתארת תנועה שבה בהתחלה נסענו לכיוון אחד ואחר כך נסענו לכיוון ההפוך באותה מהירות ואותה כמות זמן, האינטגרל הכולל יהיה אפס; כדי למדוד את המרחק הכולל שעברנו צריך לחשב את \(\int_{a}^{b}\left|f\left(x\right)\right|dx\)). לסיום, שימו לב שלא חשוב איזו פונקציה קדומה של \(f\) אנחנו לוקחים – כי \(F\left(b\right)-F\left(a\right)=\left(F\left(b\right)+C\right)-\left(F\left(a\right)-C\right)\). לכן ההקפדה על הבדלה בין הפונקציות הקדומות השונות האפשריות נראית עוד יותר מיותרת.

מה שתיארתי כאן נקרא בשם המפוצץ המשפט היסודי של החשבון הדיפרנציאלי והאינטגרלי ויש בכך צדק מסויים שכן הוא קושר את מושגי הנגזרת והאינטגרל יחד. אם להיות הגונים, המשפט המלא אומר עוד משהו פרט לתוצאה שתיארתי למעלה – שלכל פונקציה רציפה קיימת פונקציה קדומה, וגם מתאר איך היא נראית. לכל \(f\) אפשר להגדיר פונקציה על ידי \(F\left(x\right)=\int_{a}^{x}f\left(t\right)dt\), כאשר \(a\) היא נקודה שרירותית. המשפט אומר כי בכל נקודה \(c\) שבה \(f\) היא רציפה, מתקיים ש-\(F\) גזירה וש-\(F^{\prime}\left(c\right)=f\left(c\right)\) (אני קצת לא מדייק טכנית – פורמלית המשפט מדבר על מה שקורה בקטע סגור – אבל נעזוב את זה). שימו לב שהבחירה השרירותית של \(a\) היא זו שקובעת איזה מאינספור הפונקציות הקדומות השונות של \(f\) נקבל – אם נבחר \(a\) אחר, נקבל \(F\) אחרת, אך כזו ששונה בקבוע בלבד מה-\(F\) "שלנו" (קל לראות את זה מתכונה של האינטגרל שלא תיארתי: \(\int_{a}^{b}f\left(x\right)dx=\int_{a}^{c}f\left(x\right)dx+\int_{c}^{b}f\left(x\right)dx\) – מדוע תכונה זו אכן מסייעת לנו להוכחת הטענה שלי?)

גם כאן לא קשה לראות את האינטואיציה שמובילה למשפט: \(F^{\prime}\left(c\right)\) היא השינוי הרגעי של \(F\) באיזור הנקודה \(c\). אם אנו ממשיכים לחשוב על אינטגרל כעל סכום, הרי שזהו השינוי שיתרחש בדיוק כאשר אנו מוסיפים לסכום את הערך של \(f\) בנקודה \(c\), כלומר \(f\left(c\right)\). הרציפות כאן היא הכרחית כי בגלל המשקל האפסי שיש לכל איבר בסכום, אם \(f\) הייתה "משתגעת" בנקודה \(c\) וקופצת לערך לא קשור בעליל, זה לא היה משפיע על האינטגרל. אלו פרטים טכניים שקשה להבהיר עם נפנופי הידיים שלי, וכאשר מנסים להוכיח פורמלית את המשפט הם צצים מאליהם – זוהי עוד דוגמה אחת מני רבות לאופן שבו הבנה אמיתית (וגם אינטואיציה חזקה יותר) של "מה שהולך שם" מגיעה רק על ידי לכלוך הידיים בפרטים הטכניים, שלטעמי הם מעניינים למדי כאן.

בואו נעבור לדוגמה קלאסית שכעת היא בהישג ידינו – חישוב שטח של עיגול. בפרט, עיגול היחידה – העיגול שרדיוסו 1. אי אפשר לתאר מעגל באמצעות פונקציה ממשית, כי למשל הנקודות \(\left(0,1\right)\) ו\(\left(0,-1\right)\) שתיהן על המעגל (אלו הנקודות העליונה והתחתונה ביותר) ולכן אם \(f\) הייתה מתארת את המעגל אז \(f\left(0\right)\) הייתה צריכה להיות גם 1 וגם מינוס 1 וזה אומר שזו אינה פונקציה. כמובן שיש דרך לתאר מעגל כפונקציה, אבל לא פונקציה \(f:\mathbb{R}\to\mathbb{R}\) אלא \(f:\mathbb{R}\to\mathbb{R}^{2}\) (פונקציה שמעבירה מספר ממשי לזוג מספרים ממשיים). גם על פונקציות כאלו ניתן לעשות חדו"א אבל התיאוריה מורכבת מעט יותר ואין סיבה להיכנס לכך כרגע.

מה כן אפשר לעשות? לתאר חצי מעגל באמצעות פונקציה. הפונקציה תתאר את הקו שהוא החצי העליון של המעגל. מכיוון שזהו מעגל היחידה, כל נקודה \(\left(x,y\right)\) שעליו מקיימת את המשוואה \(x^{2}+y^{2}=1\) (למה? משפט פיתגורס – קחו נקודה על המעגל, הורידו אנך לציר \(x\), חברו את הנקודה לראשית הצירים בקו וחפשו טוב טוב את המשולש ישר הזווית). אם כן, \(y^{2}=1-x^{2}\). נוציא שורש לשני האגפים, ונקבל ש-\(y=\pm\sqrt{1-x^{2}}\); כאן אנחנו רואים איך יש לנו שתי בחירות אפשריות לערך של \(f\left(x\right)\). מכיוון שאנו רוצים לתאר את חצי המעגל העליון, נבחר תמיד באפשרות החיובית, כלומר נגדיר את הפונקציה \(f\left(x\right)=\sqrt{1-x^{2}}\). פונקציה זו, בתחום \(-1\le x\le1\) מתארת את חצי מעגל היחידה העליון, ולכן השטח שכלוא בינה ובין ציר ה-\(x\), שהוא בדיוק \(\int_{-1}^{1}f\left(x\right)dx\), הוא שטח חצי עיגול היחידה. במילים אחרות, שטח עיגול היחידה הוא בדיוק \(2\cdot\int_{-1}^{1}\sqrt{1-x^{2}}dx\). בואו נחשב את האינטגרל הזה.

הדרך לחשב את האינטגרל היא לגלות מהי הפונקציה הקדומה של \(\sqrt{1-x^{2}}\). באופן לא מפתיע כל כך, הפונקציות הטריגונומטריות באות לעזרתנו (למה לא מפתיע? כי הן קשורות בקשר אמיץ למעגלים). באופן כללי משהו מהצורה \(1-x^{2}\) גורם לכמה נורות אדומות להבהב בראש של מי שכבר תרגל את הנושא הזה עוד ועוד. מה שעושים הוא לבצע הצבה: נסמן \(x=\sin t\), ובכך נחשוב על \(x\) לא בתור משתנה חופשי אלא בתור תוצאה של הפעלה של סינוס על משתנה חופשי \(t\), ואז נקבל:

\(\sqrt{1-x^{2}}=\sqrt{1-\sin^{2}t}=\sqrt{\cos^{2}t}=\cos t\)

קסם!

מאיפה חשבתי על להציב סינוס? ובכן – כפי שאמרתי, אין חוקים מסודרים כאן. רק כללי אצבע ונסיון, לצערי.

אם כן, בואו ננסה להבין לרגע מה הולך כאן. הייתה לי פונקציה \(f\left(x\right)\) ורציתי למצוא פונקציה \(F\left(x\right)\) כך ש-\(F^{\prime}\left(x\right)=f\left(x\right)\). כעת התחלתי לשחק ב"נדמה לי", לפיו גם \(x\) הוא בעצמו פונקציה, נקרא לה \(g\left(t\right)\), ולכן אפשר לחשוב על \(f\) בתור \(f\left(g\left(t\right)\right)\). עכשיו, \(\left(F\left(g\left(t\right)\right)\right)^{\prime}=F^{\prime}\left(g\left(t\right)\right)\cdot g^{\prime}\left(t\right)\) על פי כלל השרשרת, ובמילים אחרות – אם אנחנו רוצים למצוא את הפונקציה הקדומה \(F\), אנחנו לא רוצים למצוא את הפונקציה הקדומה של \(\cos t\) לבדו (מי שינסה לעשות זאת יגלה את התוצאה המוזרה לפיה הפונקציה הקדומה של \(\sqrt{1-x^{2}}\) היא \(F\left(x\right)=x\), וזה כמובן לא נכון), אלא את הפונקציה הקדומה של \(\cos t\cdot\cos t\) (כי הנגזרת של \(\sin t\) היא \(\cos t\)). במילים אחרות, את הפונקציה הקדומה של \(\cos^{2}t\). מי שהתבלבל ולא הבין מה הלך כאן (וגם אני מתבלבל למרות שכרגע כתבתי את זה), לא נורא – זה עוד אחד מהפרטים הטכניים הקריטיים שקשה להסביר כאן על קצה המזלג, וחשוב להבין רק את האתגר הסופי שהגענו אליו – מציאת פונקציה קדומה של \(\cos^{2}t\).

זו לא פונקציה שקל למצוא לה פונקציה קדומה באופן נאיבי. אמנם, הנגזרת של \(\sin t\) היא \(\cos t\) אבל זה ממש לא אומר שהנגזרת של \(\sin^{2}t\) היא \(\cos^{2}t\) – נסו לגזור ותראו מה קורה. אם כן, עדיף לפשט קודם. לצורך הפישוט אגייס ללא הוכחה זהות טריגונומטרית – \(\cos^{2}t=\frac{1+\cos2t}{2}\). היד אמנם טיפה רועדת כשאני משתמש כך בזהות שאין לי שום דרך טובה להגיד מאין היא באה פרט ל"בואו נזכור שיש דבר כזה בתיכון", וזה נותן לי מוטיבציה לכתוב פוסט שיסביר אחת ולתמיד מה ההגיון מאחורי כל הזהויות הללו ואיך אפשר לדעת לפתח אותן מאפס – אבל לא עכשיו.

למצוא את הפונקציה הקדומה של \(\frac{1+\cos2t}{2}\) זה כבר קל יחסית. ראשית, מה הפונקציה הקדומה של \(\cos2t\)? לא קשה לראות שזוהי \(\frac{\sin2t}{2}\). מכאן קצרה הדרך, בעזרת מה שאנחנו יודעים על חוקי הנגזרות, להסיק שהפונקציה הקדומה שאנחנו מחפשים היא \(\frac{t}{2}+\frac{\sin2t}{4}\). נסו לגזור את היצור הזה ותראו מה תקבלו. סינוס של זווית כפולה הוא קצת בעייתי לנו, ולכן נשתמש בעוד זהות טריגונומטרית ידועה: \(\sin2t=2\sin t\cos t\), ונקבל \(\frac{t+\sin t\cos t}{2}\).

הכל טוב ויפה רק שאנחנו עדיין בפונקציה לפי \(t\) ולא לפי \(x\). מכיוון ש-\(x=\sin t\), אז \(t=\mbox{arcsin}x\) (\(\mbox{arcsin}\) היא הפונקציה ההופכית ל-\(\sin\)). לכן \(\sin t=\sin\left(\mbox{arcsin}x\right)=x\) והכל טוב ויפה, אבל מה זה \(\cos t\)? ובכן, נביע גם אותו באמצעות סינוס: \(\cos t=\sqrt{1-\sin^{2}t}=\sqrt{1-x^{2}}\). נראה מוכר? כמובן, הרי זה מה שהתחלנו ממנו, רק בכיוון ההפוך!

אם כן, נקבל לבסוף את הפונקציה הקדומה הבאה: \(F\left(x\right)=\frac{\mbox{arcsin}x+x\sqrt{1-x^{2}}}{2}\). אם תגזרו את זה אכן תקבלו בסוף \(\sqrt{1-x^{2}}\) – אבל שימו לב כמה הפונקציה הקדומה "מכוערת" ביחס לנגזרת שלה, ובאופן כללי כמה לא פשוט היה התהליך של חישוב הפונקציה הקדומה. כאמור – ככה זה, אבל זה לא סוף העולם.

עכשיו אנחנו יכולים סוף סוף לחשב את האינטגרל \(\int_{-1}^{1}f\left(x\right)dx\) – על פי המשפט היסודי של החדו"א, הוא שווה ל-\(F\left(1\right)-F\left(-1\right)\). מהו \(F\left(1\right)\)? ובכן, ראשית כל \(\mbox{arcsin}\left(1\right)\) היא אותה זווית (בתחום שבין \(-\pi\) ו-\(\pi\)) שכאשר מציבים אותה בסינוס מקבלים 1 – זוהי הזווית \(\frac{\pi}{2}\) (מי שלא מבין איך פאי נכנס לתמונה פתאום – אנחנו מודדים זוויות לא במעלות אלא ברדיאנים, שעליהם כבר הסברתי בפוסט נפרד). בדומה, \(\mbox{arcsin}\left(-1\right)=-\frac{\pi}{2}\) (זה לא מקרי – סינוס היא פונקציה אי זוגית, כלומר מתקיים \(\sin\left(-x\right)=-\sin x\) לכל \(x\)). החלק המפחיד של ה-\(x\sqrt{1-x^{2}}\) עוד יותר פשוט, כי אם מציבים בו \(x=\pm1\) מה שמתחת לשורש מתאפס ולכן כל העסק מתאפס. במילים אחרות, קיבלנו ש-\(F\left(1\right)-F\left(-1\right)=\frac{1}{2}\left(\frac{\pi}{2}-\left(-\frac{\pi}{2}\right)\right)=\frac{\pi}{2}\). זהו שטח חצי העיגול, ולכן שטח העיגול כולו הוא \(\pi\). הנה לכם הוכחה פורמלית לכך ששטח עיגול היחידה הוא \(\pi\) (תוך הסתמכות על כך שאנו יודעים לגזור סינוס; עניין לא טריוויאלי שגם על הקושי שבו רמזתי בפוסט נפרד).

אם כן, זהו המשפט היסודי של החדו"א. האם הסיפור נגמר כאן? בוודאי שלא – המשפט הזה הוא רק נקודת ההתחלה של האקשן האמיתי. ובכל זאת, הכוח שהוא נותן לנו הוא לא מבוטל; ולימודי החדו"א בבית הספר בעצם נגמרים כאן בכל הנוגע לאינטגרלים – רואים את הנוסחה שמאפשרת לחשב אינטגרלים מסויימים, ואז מחשבים הרבה כאלו. אני מקווה שתלמידים שנתקלים בתרגילים הללו אחרי ששרדו את הפוסט (יש כאלו?) ירגישו קצת פחות כאילו "עובדים עליהם".

היה זה תענוג לגזור

באחד הפוסטים הקודמים הצגתי את מושג הנגזרת, אך כל מה שעשיתי היה להציג את ההגדרה הפורמלית; אם כל מה שיש לנו הוא את ההגדרה הזו, אנחנו עדיין לא יכולים לעשות הרבה. בפוסט הזה אני רוצה להציג את הכלים והתוצאות הבסיסיות על חישוב פרקטי של נגזרות, כדי לשכנע אתכם בשני דברים: ראשית, שחישוב נגזרות הוא אכן פרקטי; ושנית, שהוא ממש כיף. אנחנו יוצאים להרפתקאה בג'ונגל כשאנחנו חמושים רק במספריים, ומסתבר שנוכל לפלס לעצמנו את דרך המלך באופן הזה.

אם כן, כזכור, הגדרתי נגזרת עבור פונקציות ממשיות, \(f:\mathbb{R}\to\mathbb{R}\), באופן הבא: \(f^{\prime}\left(x_{0}\right)=\lim_{h\to0}\frac{f\left(x_{0}+h\right)-f\left(x_{0}\right)}{h}\). הנגזרת הוגדרה באופן "נקודתי" – בהינתן נקודה \(x_{0}\) מצאנו את ערך הנגזרת של הפונקציה בנקודה הזו. עם זאת, מה שאנחנו באמת רוצים הוא נגזרת "גלובלית" – בהינתן נוסחה עבור הפונקציה \(f\), להסיק ממנה נוסחה עבור הפונקציה \(f^{\prime}\). זה מה שנעשה בפוסט הזה.

בואו נתחיל ישר מללכלך את הידיים עם פונקציה פשוטה לדוגמה: \(f\left(x\right)=x^{n}\). כאן אפשר לחשב את הנגזרת לכל \(x_{0}\) ישירות מתוך הגדרת הנגזרת, תוך שימוש בבינום של ניוטון: \(\left(x_{0}+h\right)^{n}=x_{0}^{n}+n\cdot x_{0}^{n-1}h+\sum_{i=2}^{n}{n \choose i}x_{0}^{n-i}h^{i}\). הסכום המפחיד באגף ימין אינו כל כך חשוב – כל מה שחשוב בו הוא שהוא מתחלק ב-\(h^{2}\). מדוע? כי כעת, מהו \(\frac{f\left(x_{0}+h\right)-f\left(x_{0}\right)}{h}\), לכל נקודה \(x_{0}\) שרק תרצו? ובכן, \(f\left(x_{0}+h\right)=\left(x_{0}+h\right)^{n}\) ואילו \(f\left(x_{0}\right)=x_{0}^{n}\) ולכן לאחר ביצוע החיסור של שניהם נקבל במונה \(n\cdot x_{0}^{n-1}h+\sum_{i=2}^{n}{n \choose i}x_{0}^{n-i}h^{i}\). אחרי חלוקה ב-\(h\) נקבל \(n\cdot x_{0}^{n-1}+\sum_{i=2}^{n}{n \choose i}x_{0}^{n-i}h^{i-1}\) – ושימו לב, הסכום שבאגף ימין עדיין מתחלק ב-\(h\), כלומר אפשר לחשוב עליו בתור "\(h\) כפול משהו". אבל עכשיו אנו משאיפים את \(h\) לאפס, וזה גורם לסכום להיעלם (כי הדבר היחיד בו שמשתנה הוא \(h\) השואפת לאפס). נשארנו עם \(n\cdot x_{0}^{n-1}\). זה מוביל אותנו לנוסחה הכללית: אם \(f\left(x\right)=x^{n}\) אז \(f^{\prime}\left(x\right)=nx^{n-1}\). בפרט שימו לב שהנגזרת של \(f\left(x\right)=x\) היא \(f^{\prime}\left(x\right)=1\) ושהנגזרת של פונקציה קבועה – \(f\left(x\right)=c=c\cdot x^{0}\) – היא \(f^{\prime}\left(x\right)=0\) (התוצאה הזו מתאימה לאינטואיציה שלנו – אם ערך הפונקציה קבוע אז הפונקציה מתארת "עמידה במקום", כך שהמהירות של הפונקציה היא אפס).

בפני עצמה התוצאה הזו אולי לא עד כדי כך מעניינת, אך בשילוב עם תכונה נוספת של הנגזרת, התוצאה הזו נותנת לנו את הנגזרת של כל הפולינומיםכפי שהזכרתי כאן בעבר, הן אולי הפונקציות המעניינות הבסיסיות ביותר). מהי התכונה? מה שמכונה הלינאריות של הנגזרת, וניתן לתאר בפשטות כך: אם \(f,g\) הן שתי פונקציות גזירות (כלומר, יש להן נגזרת בכל נקודה בתחום שמעניין אותנו), אז \(\left(f+g\right)^{\prime}=f^{\prime}+g^{\prime}\). כמו כן, אם \(c\) הוא מספר ממשי קבוע, אז \(\left(cf\right)^{\prime}=cf^{\prime}\). במילים: נגזרת של סכום היא סכום הנגזרות, ונגזרת של \(f\)-כפולה-בקבוע היא הנגזרת של \(f\) כשהיא (הנגזרת) מוכפלת באותו קבוע. מכאן מגיעים מיידית לנוסחה הבאה: \(\left(\sum_{k=0}^{n}a_{k}x^{k}\right)^{\prime}=\sum_{k=1}^{n}k\cdot a_{k}x^{k-1}\). ההוכחה של תכונת הלינאריות היא עסק מיידי אם כבר יש לנו את התכונה הדומה עבור גבולות; מתקיים:

\(\left(f+g\right)^{\prime}\left(x_{0}\right)=\lim_{h\to0}\frac{\left(f+g\right)\left(x_{0}+h\right)-\left(f+g\right)\left(x_{0}\right)}{h}=\lim_{h\to0}\frac{f\left(x_{0}+h\right)+g\left(x_{0}+h\right)-f\left(x_{0}\right)-g\left(x_{0}\right)}{h}\)

\(=\lim_{h\to0}\frac{f\left(x_{0}+h\right)-f\left(x_{0}\right)}{h}+\lim_{h\to0}\frac{g\left(x_{0}+h\right)-g\left(x_{0}\right)}{h}=f^{\prime}\left(x_{0}\right)+g^{\prime}\left(x_{0}\right)\)

הוכחה דומה עובדת גם עבור כפל בקבוע. המעבר היחיד כאן שהוא מתוחכם הוא הפירוק של הגבול האחד לשני גבולות – זה דורש הצדקה לא טריוויאלית, אך גם לא קשה במיוחד.

המזל שלנו לא נגמר כאן. מסתבר שקל לחשב גם את הנגזרת של מכפלת פונקציות: \(\left(fg\right)^{\prime}=f^{\prime}g+fg^{\prime}\). איך מגיעים לנוסחה הזו? שוב, על פי הגדרה:

\(\left(fg\right)^{\prime}\left(x_{0}\right)=\lim_{h\to0}\frac{\left(fg\right)\left(x_{0}+h\right)-\left(fg\right)\left(x_{0}\right)}{h}=\lim_{h\to0}\frac{f\left(x_{0}+h\right)g\left(x_{0}+h\right)-f\left(x_{0}\right)g\left(x_{0}\right)}{h}\)

כאן אנחנו לכאורה נתקעים כי לא ברור איך אפשר לפשט את הנוסחה עוד; אבל אז נחלץ לעזרתנו טריק שימושי מאוד במתמטיקה – לחבר ולהחסיר את אותו איבר. אם אנחנו רוצים להחסיר מ-\(f\left(x_{0}+h\right)g\left(x_{0}+h\right)\) איבר כך שנקבל בסופו של דבר משהו שנראה כמו הנגזרת של \(f\), מה עלינו להחסיר? די בבירור זה חייב להיות \(f\left(x_{0}\right)g\left(x_{0}+h\right)\), כי \(f\left(x_{0}\right)\) הוא הגורם שחסר לנו כדי לקבל משהו שנראה כמו נגזרת של \(f\), ו-\(g\left(x_{0}+h\right)\) הוא הגורם המשותף שאנחנו רוצים להוציא כדי להישאר רק עם \(f\) בסוגריים.

בקיצור, אחרי חיסור וחיבור של האיבר הזה, אנו מקבלים את:

\(\lim_{h\to0}\frac{f\left(x_{0}+h\right)g\left(x_{0}+h\right)-f\left(x_{0}\right)g\left(x_{0}+h\right)+f\left(x_{0}\right)g\left(x_{0}+h\right)-f\left(x_{0}\right)g\left(x_{0}\right)}{h}\)

\(=\lim_{h\to0}\frac{g\left(x_{0}+h\right)\left(f\left(x_{0}+h\right)-f\left(x_{0}\right)\right)+f\left(x_{0}\right)\left(g\left(x_{0}+h\right)-g\left(x_{0}\right)\right)}{h}\)

ואת זה ניתן לפשט עוד קצת עם כללי הכפל והחיבור של גבולות. למשל, ברור ש-\(\lim_{h\to0}\frac{f\left(x_{0}\right)\left(g\left(x_{0}+h\right)-g\left(x_{0}\right)\right)}{h}=f\left(x_{0}\right)g^{\prime}\left(x_{0}\right)\). הבעיה היא דווקא במחובר הראשון, שעבורו קל לראות ש-\(\lim_{h\to0}\frac{g\left(x_{0}+h\right)\left(f\left(x_{0}+h\right)-f\left(x_{0}\right)\right)}{h}=f^{\prime}\left(x_{0}\right)\cdot\lim_{h\to0}g\left(x_{0}+h\right)\), אבל מהו \(\lim_{h\to0}g\left(x_{0}+h\right)\)? היינו רוצים להגיד שאפשר פשוט להציב \(h=0\) ולקבל \(g\left(x_{0}\right)\), אבל זה נכון רק אם הפונקציה \(g\) רציפה ב-\(x_{0}\)…

ובכן, יש לנו מזל, כי משפט בסיסי בחדו"א הוא שכל פונקציה שגזירה בנקודה כלשהי גם רציפה בה. לא אוכיח אותו פורמלית אלא אתן אינטואיציה פשוטה: אם \(\lim_{h\to0}g\left(x_{0}+h\right)\ne g\left(x_{0}\right)\) אז \(\lim_{h\to0}\left(g\left(x_{0}+h\right)-g\left(x_{0}\right)\right)\ne0\), אבל אז הגבול \(\lim_{h\to0}\frac{g\left(x_{0}+h\right)-g\left(x_{0}\right)}{h}\) אינו קיים בכלל שכן המונה שואף לקבוע, ואילו המכנה שואף לאפס, ולכן הגבול שואף לאינסוף (יותר גרוע אפילו – לאינסוף ולמינוס אינסוף, כתלות בשאלה אם \(h\) חיובי או שלילי). מכאן שכדי שהנגזרת תהיה קיימת הפונקציה חייבת להיות רציפה: הערך של \(g\left(x_{0}+h\right)\) מתקרב לערך של \(g\left(x_{0}\right)\), וכל השאלה שעליה עונה הנגזרת היא כמה מהר ההתקרבות הזו מתבצעת.

סיכום ביניים: אם אנחנו יודעים את הנגזרות של \(f\) ושל \(g\) אנחנו יודעים גם את הנגזרות של \(f+g\) ושל \(f\cdot g\) (כפל בסקלר הוא מקרה פרטי של כפל בפונקציה – סקלר הוא פונקציה קבועה). זה כבר נותן לנו הרבה כוח, כי פונקציות רבות ניתנות לתיאור באמצעות חיבור וכפל (למעשה, אפשר למצוא את הנגזרת של \(f\left(x\right)=x^{n}\) גם בעזרת נוסחה זו בלבד, תוך ביצוע אינדוקציה והסתמכות על הידע שהנגזרת של \(f\left(x\right)=x\) היא \(1\), מה שקל מאוד להוכיח מההגדרה; אבל אני חושב שההוכחה הכללית נחמדה יותר ולכן הבאתי אותה). אלא שעדיין לא הצגתי את מה שנותן לנו את הכי הרבה כוח: יש נוסחה גם עבור נגזרת של הרכבה של פונקציות. וכאן אולי כדאי להסביר למה אני מתכוון.

בואו נסתכל שניה על הפונקציה \(f\left(x\right)=x^{2}+3x\). וכעת בואו ונסתכל על הפונקציה \(h\left(x\right)=\sin^{2}x+3\sin x\). אלו שתי פונקציות שונות, אבל מאוד דומות באופיין: נראה כאילו \(h\left(x\right)\) היא מה שמתקבל מ-\(f\left(x\right)\) אם במקום \(x\) "מציבים" את \(\sin x\). אם כן, אפשר לסמן \(h\left(x\right)=f\left(\sin x\right)\). בדרך קצת יותר מסודרת נוכל להגדיר פונקציה \(g\left(x\right)=\sin x\) ואז יש הגיון בסימון \(h\left(x\right)=f\left(g\left(x\right)\right)\). לדבר הזה – \(f\left(g\left(x\right)\right)\) – קוראים הרכבה של \(f\) על \(g\) ומסמנים אותו ב-\(f\circ g\) לפעמים (ולפעמים ב-\(g\circ f\) כדי לבלבל סטודנטים, כתלות בהקשר ובספר הלימוד – זו הסיבה שבגללה אני נמנע משימוש בסימון הזה). הרכבה היא כלי רב עוצמה מאוד לבנייה של פונקציות מסובכות מתוך פונקציות פשוטות, והעובדה שיש לנו נוסחה פשוטה עבור נגזרת של הרכבת פונקציות היא לא פחות מנס. הנוסחה, שמכונה "כלל השרשרת", היא \(\left[f\left(g\left(x\right)\right)\right]^{\prime}=f^{\prime}\left(g\left(x\right)\right)\cdot g^{\prime}\left(x\right)\). במילים – גוזרים את \(f\), ממשיכים להציב בה את \(g\left(x\right)\) כמקודם, ובנוסף לכך כופלים את הכל בנגזרת של \(g\left(x\right)\) (זו אינה מכפלת הנגזרת של \(f\) בנגזרת של \(g\) מכיוון שאת \(f^{\prime}\) מחשבים בנקודה \(g\left(x\right)\) בעוד שאת \(g^{\prime}\) מחשבים בנקודה \(x\) – כלומר, הן לא מחושבות באותה הנקודה).

דוגמה פשוטה: אם \(f\left(x\right)=x^{2}\) ו-\(g\left(x\right)=\left(x+1\right)\) אז ההרכבה שלהן היא \(\left(x+1\right)^{2}\). כעת, \(f^{\prime}\left(x\right)=2x\) ו-\(g^{\prime}\left(x\right)=1\) ולכן מכלל השרשרת עולה שהנגזרת של הפונקציה המורכבת היא \(2\left(x+1\right)\cdot1=2x+2\). אתם מוזמנים לפתוח את הסוגריים של \(\left(x+1\right)^{2}\) ולחשב את הנגזרת באופן ישיר אם לא השתכנעתם.

הייתי שמח להוכיח את כלל השרשרת כאן, אבל בניגוד להוכחות שכבר הראיתי, ההוכחה של כלל השרשרת דורשת יותר תחכום, בגלל כל מני בעיות עדינות שצצות בהוכחה נאיבית "ישר על פי ההגדרה" שלה. גם להיכנס לבעיות יקח אותנו רחוק מדי. זה לא שההוכחה עד כדי כך מסובכת – היא לא; אבל הפוסט הזה ארוך מספיק בלעדיה. אם כן, קחו בינתיים את כלל השרשרת כנתון.

אילו עוד פונקציות אנחנו מכירים? הזכרתי קצת פונקציות בשעתו – \(\sin x,\cos x,\ln x,e^{x}\)… לכולן קל למצוא נגזרת, אם כי בכל אחד מהמקרים ההוכחה דורשת כלים שמותאמים למקרה הספציפי שאותו תוקפים (כך למשל בשביל הפונקציות הטריגונומטריות צריך את הגבול \(\lim_{h\to0}\frac{\sin h}{h}=1\) שההוכחה שלו היא סיפור שלם). מגלים, כי \(\left(\sin x\right)^{\prime}=\cos x\), \(\left(\cos x\right)^{\prime}=-\sin x\), \(\left(\ln x\right)^{\prime}=\frac{1}{x}\) ו-\(\left(e^{x}\right)^{\prime}=e^{x}\) (זוהי התכונה המיוחדת של פונקצית האקספוננט – נגזרתה שווה לעצמה).

מכאן אפשר לפתח עוד כמה דברים מעניינים. למשל, מהי הנגזרת של \(a^{x}\) כאשר \(a\) הוא מספר ממשי חיובי כלשהו, לאו דווקא \(e\)? ובכן, אפשר תמיד לכתוב \(a=e^{\ln a}\) (למה? תרגיל למי שדברים כאלו מעניינים אותו) ולכן \(a^{x}=e^{x\cdot\ln a}\). קיבלנו כאן הרכבה של שתי פונקציות: \(f\left(x\right)=e^{x}\) ו-\(g\left(x\right)=x\ln a\). הנגזרת של \(g\left(x\right)\) היא \(\ln a\) ולכן נקבל \(\left(a^{x}\right)^{\prime}=\ln a\cdot e^{x\ln a}=a^{x}\ln a\). זו עוד דוגמה לכוח שאנו מקבלים מכלל השרשרת.

בואו נראה עוד דוגמה. עד כה הצלחתי לטפל בפונקציה \(f\left(x\right)=x^{n}\) רק במקרה שבו \(n\) היה מספר שלם אי שלילי. מה על מספרים שליליים? ובכן, ב-\(n=-1\), כלומר בפונקציה \(f\left(x\right)=\frac{1}{x}\), ניתן לטפל באופן ישיר על פי ההגדרה:

\(\lim_{h\to0}\frac{\frac{1}{x_{0}+h}-\frac{1}{x_{0}}}{h}=\lim_{h\to0}\frac{\frac{x_{0}-x_{0}-h}{x_{0}\left(x_{0}+h\right)}}{h}=\lim_{h\to0}-\frac{1}{x_{0}^{2}+hx_{0}}=-\frac{1}{x_{0}^{2}}\)

מקבלים, אם כן, ש-\(\left(\frac{1}{x}\right)^{\prime}=-\frac{1}{x^{2}}\). כעת, כל מספר שלם שלילי אפשר לכתוב כ-\(-n\) כאשר \(n\) הוא שלם חיובי, ואם \(h\left(x\right)=x^{-n}\) אז אפשר גם לכתוב \(h\left(x\right)=\left(x^{n}\right)^{-1}=\frac{1}{x^{n}}\). במילים אחרות, יש לנו כאן את ההרכבה של הפונקציה \(g\left(x\right)=x^{n}\) בתוך הפונקציה \(f\left(x\right)=\frac{1}{x}\). כלל השרשרת יניב לנו כאן את התוצאה \(h^{\prime}\left(x\right)=-\frac{1}{g^{2}\left(x\right)}\cdot g^{\prime}\left(x\right)=-\frac{nx^{n-1}}{x^{2n}}=-nx^{-\left(n+1\right)}\). במילים אחרות, הנוסחה \(\left(x^{m}\right)^{\prime}=mx^{m-1}\) עובדת גם כאשר \(m\) שלילי. בדרך גם ראינו מהי באופן כללי הנגזרת של פונקציה מהצורה \(\frac{1}{g\left(x\right)}\): היא פשוט \(-\frac{g^{\prime}\left(x\right)}{g^{2}\left(x\right)}\). בשילוב עם הנוסחה לנגזרת של מכפלת פונקציות, מקבלים את הנוסחה למנה של פונקציות: \(\left(\frac{f}{g}\right)^{\prime}=\left(f\cdot\frac{1}{g}\right)^{\prime}=\frac{f^{\prime}}{g}-\frac{fg^{\prime}}{g^{2}}=\frac{f^{\prime}g-fg^{\prime}}{g^{2}}\). בפרט, שימו לב שמכיוון שאנו יודעים לגזור כל פולינום, כעת אנחנו יכולים לגזור גם כל פונקציה רציונלית (פונקציה שהיא מנת שני פולינומים).

טרם דיגדגנו אפילו את קצה הגבול של מה שעוד נוכל לסחוט מכלל השרשרת! בואו נעבור לדבר על \(x^{n}\) כאשר \(n\) יכול להיות גם שבר. בפרט, מהו \(x^{\frac{1}{n}}\)? לצורך כך אני שוב אוכיח תוצאה כללית יותר – נגזרת של פונקציה הופכית. אם \(f\left(x\right)\) היא פונקציה, אז אומרים ש-\(g\left(x\right)\) היא הפונקציה ההופכית שלה אם ההרכבה של שתיהן היא פונקצית הזהות, כלומר הפונקציה \(h\left(x\right)=x\). למשל, אם \(f\left(x\right)=x^{n}\) אז \(g\left(x\right)=x^{\frac{1}{n}}\) היא ההופכית שלה. אם כן, נניח שאני יודע את הנגזרת של \(f\left(x\right)\) – מה הנגזרת של ההופכית שלה \(g\left(x\right)\)?

כאן נשתמש בכלל השרשרת ובכך שאנחנו יודעים שהנגזרת של \(x\) היא 1. מכיוון ש-\(g\) היא ההופכית של \(f\) אז \(f\left(g\left(x\right)\right)=x\), ולכן על ידי גזירת שני האגפים נקבל \(f^{\prime}\left(g\left(x\right)\right)g^{\prime}\left(x\right)=1\), כלומר \(g^{\prime}\left(x\right)=\frac{1}{f^{\prime}\left(g\left(x\right)\right)}\). ובמילים: נגזרת הפונקציה ההופכית של \(f\) בנקודה \(x\) שווה לאחד חלקי הנגזרת של \(f\) בנקודה \(g\left(x\right)\). שימו לב – צריך להציב את \(g\) בתוך הנגזרת של \(f\)!

זו הייתה נקודה שבלבלה אותי מאוד כשרק למדתי את הנושא לראשונה. ניקח לדוגמה את \(g\left(x\right)=\sqrt{x}\) שהיא ההופכית של \(f\left(x\right)=x^{2}\). הנגזרת של \(f\left(x\right)\) היא \(f^{\prime}\left(x\right)=2x\), ולכן התבלבלתי וחשבתי ש-\(\left(\sqrt{x}\right)^{\prime}=\frac{1}{2x}\), אך זה לא נכון; מה ששכחתי לעשות הוא להציב את \(g\left(x\right)\) בתוך הנגזרת של \(f\). אחרי שעושים זאת, מקבלים את הנוסחה הנכונה \(\left(\sqrt{x}\right)^{\prime}=\frac{1}{2\sqrt{x}}\). ובאופן כללי מקבלים, בצורה לא מפתיעה, ש-\(\left(x^{\frac{1}{n}}\right)^{\prime}=\frac{1}{n}x^{\frac{1}{n}-1}\). כלומר, הנוסחה \(\left(x^{m}\right)^{\prime}=mx^{m-1}\) נכונה לכל \(m\) רציונלי. למעשה, זה מסיים את העניין גם עבור כל חזקה \(m\) ממשית, שכן חזקה שכזו מוגדרת בתור גבול שמשתמש בחזקות רציונליות, ושיקולי רציפות מעבירים את נוסחת הנגזרת מהמקרה הרציונלי למקרה הממשי הכללי. אם זה נשמע כמו ג'יבריש, לא נורא; גם זה משהו שאני לא רוצה להיכנס אליו.

אם נקבל לרגע את ההנחה ש-\(\ln x\) היא פונקציה שהוגדרה מראש כך שנגזרתה תהיה \(\frac{1}{x}\) (זו, למעשה, ההגדרה המקובלת בספרות), ושאנו יודעים כי \(e^{x}\) היא ההופכית שלה, אז קל להסיק מהכלל של נגזרת הפונקציה ההופכית את התוצאה \(\left(e^{x}\right)^{\prime}=e^{x}\): \(\left(e^{x}\right)^{\prime}=\frac{1}{1/e^{x}}=e^{x}\). זה היה שימוש טיפשי למדי בכלל הנגזרת של ההופכית. בואו ניישם אותו למשהו קצת יותר רציני – הפונקציות ההופכיות לפונקציות הטריגונומטריות. מכיוון שהפונקציה ההופכית האהובה עלי בהקשר הזה היא \(\mbox{atan\ensuremath{\left(x\right)}}\), ההופכית של \(\tan\left(x\right)\), בואו נבין איך באמת מחשבים את הנגזרת של \(\tan\left(x\right)\) קודם – הרי אמרתי (ללא הוכחה) מה הנגזרות של סינוס וקוסינוס אבל לא שלו; זאת מכיוון ש-\(\tan\left(x\right)=\frac{\sin x}{\cos x}\) על פי הגדרתו.

אם כן, נגזור על פי כלל המנה שראינו קודם ונקבל \(\tan^{\prime}\left(x\right)=\frac{\sin^{\prime}\left(x\right)\cos\left(x\right)-\sin\left(x\right)\cos^{\prime}\left(x\right)}{\cos^{2}\left(x\right)}=\frac{\cos^{2}x+\sin^{2}x}{\cos^{2}x}=\frac{1}{\cos^{2}x}\), כשהמעבר האחרון מתבסס על הזהות הטריגונומטרית היסודית \(\sin^{2}x+\cos^{2}x=1\) (זוהי אחת מאותן נוסחאות בודדות שבאמת כדאי לזכור בעל פה, אבל היא גם בעלת משמעות אינטואיטיבית פשוטה – על פי משפט פיתגורס, זהו המרחק מראשית הצירים של נקודה שנמצאת על מעגל היחידה, בזווית \(x\) עם ציר ה-\(x\); ובוודאי שמרחק כל נקודה על מעגל היחידה מהראשית הוא 1…).

\(\frac{1}{\cos^{2}x}\) זה נחמד אבל קצת בעייתי כשבאים למצוא את הנגזרת של \(\mbox{atan}\). לכן נחזור שניה אחורה בזמן לרגע שבו הייתה לנו הזהות \(\frac{\cos^{2}x+\sin^{2}x}{\cos^{2}x}\): אפשר לפרק את הסכום לשניים ולקבל ש-\(\tan^{\prime}\left(x\right)=1+\tan^{2}\left(x\right)\). אם כן:

\(\mbox{atan}^{\prime}\left(x\right)=\frac{1}{\tan^{\prime}\left(\mbox{atan}\left(x\right)\right)}=\frac{1}{1+\tan^{2}\left(\mbox{atan}\left(x\right)\right)}=\frac{1}{1+x^{2}}\)

כשהמעבר האחרון נובע מכך ש-\(\mbox{atan}\) היא ההופכית של \(\tan\). שימו לב לתוצאה המעניינת כאן – \(\frac{1}{1+x^{2}}\) היא פונקציה שכלל לא מזכירה פונקציות טריגונומטריות, ואיכשהוא היא נבעה מתוכן. זה אומר שאם נלך "בכיוון ההפוך" (ואדבר על זה יותר בקרוב), הפונקציות הטריגונומטריות יצוצו לנו באופן טבעי גם אם אנחנו בכלל לא מתעסקים בגאומטריה.

אם כן, בואו נעשה סיכום ביניים קצר. אנחנו יודעים לגזור: את כל הפולינומים והפונקציות הרציונליות, את כל הפונקציות הטריגונומטריות וההופכיות שלהן, את כל הפונקציות המעריכיות והלוגריתמיות, וכל פונקציה שמתקבלת מהפונקציות הללו על ידי חיבור, כפל, הרכבה או הוצאת הופכי. יותר מכך: אנחנו יודעים לעשות את כל זה באופן אלגוריתמי: אין שום קושי מהותי בכתיבת תוכנית מחשב שבהניתן פונקציה, מסובכת ככל שתהיה, שנבנתה באמצעות הפונקציות הבסיסיות שהצגתי ואוסף פעולות הבניה שהצגתי, תחשב את הנגזרת שלה (ואכן, קיימות תוכנות רבות שעושות זאת). זו אולי הסיבה שבגללה כל כך אוהבים לתת מטלות גזירה מעיקות בבית הספר – זה אלגוריתמי ובית הספר עוסק בעיקר בשינון כמה אלגוריתמים טכניים לפתרון בעיות. בעולם האמיתי גזירות מסובכות זה משהו שעדיף להשאיר למחשב…

אם כן, בפעולת הגזירה אנחנו שולטים די טוב. זה מעביר אותנו באופן טבעי לשאלה הבאה – מה עם הפעולה ההפוכה מגזירה? כלומר, אם נותנים לנו פונקציה ואומרים לנו שהיא הנגזרת של משהו, האם אנו יכולים לגלות את המשהו? אקרא כאן למשהו "האנטי-נגזרת" של הפונקציה, אם כי יש לו שם מקובל יותר שאתאר בפוסט הבא (כרגע אני לא רוצה לקלקל את אלמנט ההפתעה עבור המעטים שיופתעו – ומי שלא יופתע כבר יודע מה השם הנכון ממילא). אל תתבלבלו בין זה ובין מציאת נגזרת של פונקציה הפוכה. אני מתכוון, למשל, לכך שהפונקציה \(x^{3}\) מתקבלת על ידי גזירה של… מפתה אולי לומר \(x^{4}\), אבל הנגזרת של \(x^{4}\) היא \(4x^{3}\), כך ש-\(x^{3}\) מתקבלת מגזירה של \(\frac{x^{4}}{4}\). כאן אנחנו כבר רואים שהעסק טיפה מלוכלך.

באופן כללי במתמטיקה אם פעולה היא קלה, אפילו אלגוריתמית, לביצוע בכיוון אחד זה לא אומר הרבה על הכיוון השני. דוגמה קלאסית היא פעולת הכפל: קל לחשב אלגוריתמית את \(a\cdot b\) אם יש לנו את \(a,b\), אבל אם נותנים לנו את המכפלה בלבד – כמה עבודה תידרש לנו כדי לפרק אותה לגורמים? התשובה היא שכל כך הרבה עבודה, ששיטות ההצפנה הפופולריות ביותר כיום מתבססות על כך שמדובר על בעיה קשה. כל ענף הקריפטוגרפיה המודרנית, למעשה, מתבסס על קיום פונקציות "חד-כיווניות" – שקל לחשב, אבל קשה להפוך (בהערת אגב אעיר ש"קל" ו"קשה" בהקשר הזה הם מושגים שמוגדרים באופן מתמטי מדויק ומסויים שאולי לא תואם לחלוטין את האינטואיציה שלנו; ויותר מכך, שלא באמת הוכח קיום של פונקציות שכאלו, אלא רק יש לנו אוסף של "חשודות" כדוגמת הזוג כפל/פירוק לגורמים).

הפונקציה \(\frac{1}{1+x^{2}}\) היא מקרה בוחן לקושי של היפוך פעולת הגזירה. כדי לדעת מה ייתן אותה כנגזרת, צריך "להמציא" את הפונקציות הטריגונומטריות. אם כן, גם אם יש לנו פונקציה שנבנתה באופן "נחמד" מתוך פונקציות אלמנטריות זה כלל לא מבטיח שהאנטי-נגזרת שלה תורכב מפונקציות שכאלו בעצמה באופן נחמד. דוגמה קלאסית לכך היא הפונקציה החשובה עד למאוד שהיא האנטי-נגזרת של \(e^{x^{2}}\) (למעשה של פונקציה טיפה יותר מסובכת אך אין הבדל מהותי) – אפשר להוכיח כי את האנטי-נגזרת הזו פשוט לא ניתן לכתוב באמצעות הפונקציות האלמנטריות ופעולות החיבור-כפל-הרכבה. מכאן שברור שאין מה לדבר על נוסחה שבהינתן הרכבה של שתי פונקציות פשוטות, תיתן את האנטי-נגזרת של ההרכבה באמצעות האנטי-נגזרות של הפונקציות המורכבות. אפילו כלל דומה עבור כפל פונקציות אין ממש (יש משהו שאולי אתאר בהמשך; הוא אמנם מפשט את העניינים לפעמים אבל זו לא נוסחה פשוטה כמו שהייתה עבור הנגזרת). רק פעולות החיבור והכפל בסקלר מתנהגות יפה כמקודם.

העיסוק בשאלת "בהינתן נגזרת, מהי האנטי-נגזרת?" יתגלה כקשור באופן הדוק למושג האינטרל שהצגתי בפוסט הקודם. כדי לא לספיילר יותר, אעצור כאן ואחכה לפוסט הבא. אני מקווה שנהניתם מהטיול בג'ונגל הגזירות ושאתם מסכימים שהצלחנו לסלול בו, פחות או יותר, כביש נוח למדי (אם כי, כמובן, טרם נוסעים עליו רכבים – עוד לא ממש הבנו איך הנגזרות משפרות לנו את החיים).

אז מה זה אינטגרל?

מה השטח של עיגול שרדיוסו באורך 1? אלו מכם שלמדו נוסחאות בבית הספר אולי זוכרים שזה צריך להיות \(\pi\), אבל למה? איך מגיעים לזה? הבעיה הזו – מדידת שטח של צורות מסובכות – העסיקה את המתמטיקאים עוד משחר היוולדה של המתמטיקה, ובפרט אצל היוונים הקדמונים. הפתרון הראשון לבעיה הופיע אצל מי שהיה ככל הנראה גדול המתמטיקאים של העת העתיקה – ארכימדס. בשיטה שלו ניתן לראות את ניצני החשבון האינפיניטסימלי, אך מכיוון שאני לא כותב כרגע פוסט היסטורי לא אכנס לפרטים.

בעיה מתמטית נוספת, שצצה בהקשר מודרני יותר, היא הבעיה של מדידת האנרגיה שמועברת לגוף עליו פועל כוח. במכניקה הקלאסית, כוח שפועל על גוף גורם לשינוי במהירות שלו (או יותר במדויק, בתנע שלו, אבל לא כולם מכירים את המושג הזה). אלא ששינוי במהירות אינו בהכרח שינוי באנרגיה של הגוף – ייתכן שהכוח יגרום לשינוי כיוון המהירות אך לא גודלה (זה המצב, למשל, בתנועה מעגלית). אם כן, השינוי באנרגיה נמדד ביחס לאותו חלק מהכוח שפועל בכיוון התנועה של הגוף. מה שמעניין כאן הוא שאין צורך להכניס את מושג הזמן לתמונה: אין צורך להשתמש בטיעון בסגנון "הפעלתי כוח של כך-וכך למשל חמש שניות ולכן העברתי לגוף אנרגיה כזו וכזו", אלא מספיק לדבר על "הפעלתי כוח של כך-וכך תוך כדי שהגוף עבר מרחק של כך-וכך, ולכן העברתי לגוף אנרגיה כזו וכזו". במילים אחרות, אם הפעלתי על גוף כוח קבוע \(F\) בכיוון תנועתו, והוא עבר מרחק של \(\Delta x\), אז האנרגיה שהועברה לו היא \(F\cdot\Delta x\). לגודל הזה קוראים העבודה של הכוח על הגוף.

אלא שייתכן שהכוח שפועל על גוף תלוי במיקום שלו ואינו קבוע לכל אורך תנועתו של הגוף. דוגמה קלאסית לכך היא גוף שנמצא בנפילה חופשית מעל כוכב לכת מסויים – ככל שהגוף יתקרב יותר לכוכב הלכת כך כוח המשיכה של אותו כוכב יתגבר. במילים אחרות, ייתכן ש-\(F\left(x\right)\) הוא פונקציה לא קבועה, ואז איך נחשב את העבודה של הכוח?

שתי הבעיות הללו הן למעשה אותה הבעיה, ובשתיהן הפתרון שמציע החשבון האינפיניטסימלי הוא לבצע סכום ממושקל כלשהו, שמובן מסויים יהיה "סכום על מספר לא בן מניה של איברים". סכום שכזה נקרא אינטגרל. כדי להבין לאן אני חותר, בואו נחזור אל בעיית חישוב השטח של עיגול. עיגול הוא צורה מסובכת ואין לנו מושג איך למדוד את השטח שלו, אז לאיזו צורה אנחנו כן יודעים למדוד שטח? הצורה הפשוטה ביותר היא ככל הנראה מלבן. מלבן שאורכו \(a\) ורוחבו \(b\) הוא בעל שטח של \(a\cdot b\) – זוהי הנחת היסוד בכל הדיון הזה. האינטגרל הוא דרך לקחת את הגדרת השטח הזו ובאמצעות מושג הגבול להחיל אותה לפחות או יותר כל צורה נורמלית שתוכלו לחשוב עליה – רק עבור מקרים "לא נחמדים" יחסית נקבל צורות שלא ניתן למדוד להן שטח באופן הזה.

בואו נניח לצורך פשטות שאפשר לצייר את הצורה שאנחנו רוצים למדוד באופן הבא: מצד אחד, היא תחומה מלמטה על ידי הישר \(y=0\) ("ציר ה-\(x\)"). מצד שני, היא תחומה מלמעלה באמצעות עקומה כלשהי שמתוארת באמצעות פונקציה \(f\left(x\right)\), שלכל ערך של \(x\) בתחום מסויים (נניח לבינתיים שבין 0 ל-1) מתארת את גובה העקומה. לכאורה זו דרך הצגה קצת מגבילה, כי לא ניתן לתאר כך עיגול, למשל (העקומה שמגדירה עיגול אינה ניתנת לתיאור באמצעות פונקציה כזו כי למרבית ערכי ה-\(x\), העקומה שמקיפה את העיגול אינה פונקציה – יש לה שני ערכים שונים), אבל במקרה של עיגול אין בעיה אמיתית (כי רבע עיגול כן ניתן לתאר כך בקלות: העקומה \(f\left(x\right)=\sqrt{1-x^{2}}\) כש-\(x\) בין 0 ו-1 מתארת בדיוק את רבע עיגול היחידה; גם חצי עיגול ניתן לתאר בקלות אם מרשים ל-\(x\) לרוץ בין מינוס 1 ו-1).

הרעיון כעת הוא פשוט ומבריק – בואו נקרב את הצורה שאנחנו רוצים למדוד באמצעות מלבנים, שאת שטחם אנו יודעים למדוד במדויק. אפשר לחלק את הקטע שבין 0 ו-1 ל-\(n\) מקטעים זהים שאורך כל אחד מהם \(\frac{1}{n}\), ולבנות בכל מקטע שכזה מלבן שרוחב בסיסו הוא \(\frac{1}{n}\), וגובהו נקבע לפיה גובה הפונקציה באותו קטע. כאן מגיע קסם מסויים – לא באמת אכפת לנו איזה גובה לבחור למלבן שלנו, כל עוד זה יהיה גובה של אחת מהנקודות של הפונקציה בקטע; כל עוד הפונקציה "מתנהגת נחמד" לא תהיה עם זה שום בעיה. התוצאה? קירוב, אולי גס, לשטח שלוכדת הפונקציה באותו מקטע.

פורמלית ניתן להגדיר זאת כך: לכל \(1\le k\le n\) ניקח נקודה \(x_{k}\) בתוך המקטע \(\left[\frac{k-1}{n},\frac{k}{n}\right]\), ונקבע את גובה המלבן להיות \(f\left(x_{k}\right)\). כעת שטח המלבן לאותו מקטע יהיה \(f\left(x_{k}\right)\cdot\frac{1}{n}\), ולכן סכום השטחים של כל המלבנים יהיה \(\sum_{k=1}^{n}f\left(x_{k}\right)\cdot\frac{1}{n}\).

המחשות לסכומי רימן

אותו תעלול בדיוק יכול לשמש אותנו גם ככלי להעריך את העבודה שכוח מבצע על גוף בתנועה. נניח שהגוף נע מהנקודה 0 לנקודה 1, ושהכוח שפועל עליו מתואר על ידי הפונקציה \(F\left(x\right)\). נחלק את הקטע \(\left[0,1\right]\) למקטעים מגודל \(n\) ונניח את ההנחה המקלה שבכל מקטע הכוח שפועל על הגוף קבוע ושווה לערך של \(F\) באחת מהנקודות במקטע, נאמר \(x_{k}\); אז אנחנו יודעים בדיוק מה העבודה על הגוף באותו מקטע – היא בדיוק \(F\left(x_{k}\right)\cdot\frac{1}{n}\). לכן סכום העבודה הכולל הוא \(\sum_{k=1}^{n}f\left(x_{k}\right)\cdot\frac{1}{n}\). שתי הבעיות השונות שלנו הפכו לבעיה אחת (עם הבדל אחד – בבעיה שמדבר על כוח, הפונקציה יכולה להיות גם שלילית, אבל הפתרון שנציג עובד גם במקרה זה).

בשני המקרים אנחנו מקבלים קירוב גס בלבד. מתי, אם כן, הסכום יניב את הערך המדויק? ובכן, כאשר לא נקרב את השטח באמצעות מלבנים, אלא באמצעות "מקלות" חסרי רוחב. אלא מה, הכלים המתמטיים הרגילים שלנו לא מאפשרים לנו לתאר מקרים שכאלו – למקלות חסרי רוחב יש שטח 0, ויש מספר לא בן מניה שלהם. אין דרך הגיונית לבצע סכום שלהם באמצעות הכלים שמוכרים לנו. אבל אם אותם מקלות יתרחבו, אפילו טיפ-טיפה, ויהיו בעלי רוחב \(\Delta x\) קטן ככל שנרצה, אז אפשר יהיה לבצע את חישוב השטח של הקירוב הזה בשיא הקלות, כי יש לנו מספר סופי של מחוברים שכולם מלבנים. אם כן, אנחנו מקבלים סדרה אינסופית של קירובים, והשאלה שאנו שואלים את עצמנו היא – האם הסדרה הזו שואפת למשהו? האם יש לה גבול? אם כן, הגבול הזה תופס בדיוק את מושג ה"סכום לא בן מניה של המקלות חסרי הרוחב"; והסכום הזה נקרא האינטגרל של \(f\left(x\right)\) בקטע \(\left[0,1\right]\). פורמלית: \(\int_{0}^{1}f\left(x\right)dx=\lim_{n\to\infty}\sum_{k=1}^{n}f\left(x_{k}^{n}\right)\cdot\frac{1}{n}\), כש-\(n\) ב-\(x_{k}^{n}\) בא לציין שלכל \(n\) יש אוסף נקודות שונה שאנו עשויים לבחור כדי לקרב את \(f\left(x\right)\).

בואו נדבר רגע על הסימון \(\int_{0}^{1}f\left(x\right)dx\). ה-\(\int\), שהוא הסימן המוסכם לאינגטרל, הוא מעין גרסה מוארכת של האות \(S\), מלשון "סכום" (Sum). ה-\(0,1\) שרואים למטה ולמעלה הם ה"גבולות" של האינטגרל. ה-\(dx\) שבפנים הוא חסר משמעות מעשית. אינטואיטיבית, הרעיון שמאחוריו הוא זה: מכיוון שאינטגרל הוא הכללה של סכום סופי מהצורה \(\sum f\left(x_{k}\right)\Delta x\), כש-\(\Delta x\) מייצג יחידת מרחק קטנה (בדוגמה שלנו, \(\frac{1}{n}\) כש-\(n\) קטן עוד ועוד), הרי שכשעוברים ל"סכום אינסופי על מספר לא בן מניה של איברים" צריך לעשות שינוי בסימונים שיבהיר את האופי השונה של הסכימה. כשם שאת \(\sum\) הופכים ל-\(\int\), כך גם את \(\Delta x\) הופכים ל-\(dx\) שמציין, אינטואיטיבית "יחידת מרחק קטנה באופן אינפיניטסימלי". בפועל אין לזה משמעות (כי חישוב של אינטגרל מתבצע באופן שונה מחישוב של סכום סופי – לא באמת כופלים ביחידות שטח אינפיניטסימליות) ולכן ה-\(dx\) בעיקר מסייע להבהיר מי המשתנה שרלוונטי לאינטגרציה, במקרה שבו \(f\) היא פונקציה של כמה משתנים. בבתי הספר משתמשים באותו \(dx\) גם בתור תירוץ טוב להוריד נקודות למי ששכח אותו.

זה שהגדרנו מה זה אינטגרל ממש לא אומר שההגדרה עובדת – האם לכל פונקציה \(f\) אכן קיים הגבול שכתבתי לעיל? התשובה היא שממש, ממש לא. למעשה, העובדה שהשארתי את שאלת "איך בכלל בוחרים את הנקודות \(x_{n}^{k}\) הללו" פתוחה מאפשרת לכל מי שרוצה לעשות צרות "להנדס" סדרה של נקודות שעבורה הגבול הנ"ל בכלל לא יתכנס. דוגמה קלאסית לפונקציה שאין לה אינטגרל היא פונקצית דיריכלה, שמוגדרת להיות 1 על המספרים הרציונליים ו-0 על האי רציונליים. המלכוד הוא בכך שכל קטע שהוא מכיל גם רציונליים וגם לא רציונליים. לכן על ידי בחירה מתאימה של נקודות אני יכול לגרום לכך ש-\(\sum_{k=1}^{n}f\left(x_{k}\right)\cdot\frac{1}{n}\) יהיה שווה 0 (נבחר רק נקודות אי רציונליות בתור \(x_{k}\)) או ש-\(\sum_{k=1}^{n}f\left(x_{k}\right)\cdot\frac{1}{n}\) יהיה שווה 1 (נבחר רק נקודות רציונליות) מה שיחבל בהגדרה של \(\lim_{n\to\infty}\sum_{k=1}^{n}f\left(x_{k}^{n}\right)\cdot\frac{1}{n}\): אוכל לקבל שהגבול הוא 0, או 1, או כלל לא קיים – הכל תלוי בשאלה איך אני בכלל בוחר את הנקודות \(x_{k}^{n}\). לכן הדיון באינטגרלים צריך להתחיל בשאלה – עבור אילו פונקציות ההגדרה בכלל עובדת, ותמיד מספקת את אותו המספר, בלי ליצור בעיות?

מחלקה אחת של פונקציות שעבורה ההגדרה עובדת היא הפונקציות הרציפות שהזכרתי בפוסט קודם. הרציפות של הפונקציה אומרת שהיא מתנהגת "מאוד נחמד" כשמצמצמים אותה לקטעים קטנים – אם אבחר נקודה \(x_{k}\) בתוך קטע, אז \(f\left(x_{k}\right)\) תהיה קרובה מאוד לכל הערכים האפשריים של הפונקציה באותו הקטע, ולכן גודל השגיאה שלי לא יכול להיות משמעותי. למעשה, ההוכחה טיפה יותר מתוחכמת ומסתמכת על תכונה מעט יותר חזקה מ"סתם" רציפות – תכונה שנקראת רציפות במידה שווה – אך מכיוון שזה פוסט מבוא לא אציג לא את התכונה ולא את ההוכחה (אבל כן אעיר שרציפות במידה שווה תמיד מתקיימת עבור פונקציות רציפות בקטע סגור – גם זה משפט לא טריוויאלי לחלוטין שיש להוכיח – ולכן לא באמת שיקרתי לכם).

פונקציות רציפות הן לא סוף הסיפור. ההגדרה עובדת גם עבור פונקציות כלליות יותר, גם אם יש להן מספר נקודות אי רציפות. למשל, כל פונקציה בעלת מספר סופי של נקודות אי רציפות – עובדת. גם מספר אינסופי אך בן מניה של נקודות אי רציפות עובד. הקריטריון הכללי ביותר שניתן לתת מנוסח בעזרת מושג שלא הגדרתי: לפונקציה יש אינטגרל במובן שתיארתי לעיל אם ורק אם קבוצת נקודות אי הרציפות שלה היא ממידה אפס. מה פירוש "ממידה אפס"? לא ניכנס לכך כרגע.

מושג האינטגרל שתיארתי למעלה נקרא אינטגרל רימן, על שם המתמטיקאי בן המאה ה-19. זה נראה קצת מוזר, כי אינטגרלים היו בשימוש כבר על ידי ניוטון ולייבניץ במאה ה-17; העניין הוא בכך שהתיאור הפורמלי באמצעות גבולות לא היה קיים עד למאה ה-19, אז נוסח מחדש החשבון האינפיניטסימלי באופן מדויק ופורמלי יותר. ההגדרה של רימן איננה ההגדרה היחידה – קיימת הגדרה נוספת של דארבו שבה במקום לבחור נקודה "אקראית" מתוך כל קטע כדי לקבוע את גובה המלבן שייבנה עליו, בוחרים את הנקודות הגבוהה והנמוכה ביותר, בונים כך שני קירובים שונים לפונקציה (אחד גדול יותר והשני קטן יותר) ואז משווים ביניהם ורואים האם הם שואפים לאותו הדבר ככל שמעדנים את החלוקה של הקטע. לא השתמשתי בדרך ההצגה הזו כאן כי לדעתי היא מעט פחות אינטואיטיבית (למרות שגם לה יתרונות לא מעטים) ומכיוון שהיא לא מאפשרת לכתוב הגדרה קצרה ונאה כמו \(\lim_{n\to\infty}\sum_{k=1}^{n}f\left(x_{k}^{n}\right)\cdot\frac{1}{n}\).

למעשה, גם ההגדרה של אינטגרל רימן שנתתי ניתנת להכללה כלשהי. אף אחד לא באמת דורש ממני לבצע את החישוב רק על הקטע \(\left[0,1\right]\); אותו רעיון עובד לכל קטע סופי. אף אחד גם לא דורש ממני לפרק את הקטע לחלקים בגודל שווה – העיקר שהוא מפורק ל-\(n\) קטעים כלשהם, ושכשאנחנו משאיפים את \(n\) לאינסוף, גודלם של כל הקטעים שואף לאפס. וכמובן, הסיפור לא נגמר גם כאן. אפשר להגדיר אינטגרלים דו, תלת ו-\(d\)-ממדיים, לכל \(d\); ואפשר להגדיר אינטגרלים על תנועה לאורך מסלול (זו ההגדרה הכללית שבה משתמשים בחישוב עבודה), ואפשר להגדיר אינטגרלים על משטחים; ואפשר להגדיר אינטגרלים על קטעים אינסופיים; וכל זה רק על ידי וריאציות פשוטות על ההגדרה של אינטגרל רימן. יש אינטגרלים יותר מתוחכמים שמוגדרים באופן שמכליל את אינטגרל רימן ופותר חלק מהבעיות שבו – ככל הנראה האינטגרל המפורסם ביותר שמכליל את אינטגרל רימן הוא אינטגרל לבג. כך למשל פונקצית דיריכלה שהצגתי קודם היא אינטגרבילית לבג בצורה פשוטה מאוד (ערך האינטגרל הוא 0, מה שמתאים לאינטואיציה שלנו שה-1-ים שתורמים המספרים הרציונליים הם כאין וכאפס בהתחשב בכך שהרציונליים הם רק בני מניה ואילו כל הקטע \(\left[0,1\right]\) איננו בן מניה). כל המושגים הללו ראויים לפוסטים משל עצמם; אני בפוסט הזה בסך הכל מציג את הבסיס של הבסיס של הבסיס.

אולי אתם מרגישים קצת מרומים – לא הראיתי לכם בסופו של דבר איך מחשבים את השטח של עיגול היחידה עם המושג החדש שהמצאתי. הסיבה לכך היא שטרם הסברתי איך מחשבים את האינטגרל. לצורך כך צריך להכניס לתמונה מושג חדש – האינטגרל הלא מסויים – ולקשר בין מושג האינטגרל למושג הנגזרת. לכך אגיע בהמשך, בפוסט על המשפט היסודי של החדו"א.

לסיכום, גם למי שאיבד את עצמו בסבך הפרטים, הסבר קצר: אינטגרל רימן של פונקציה \(f\left(x\right)\) על קטע \(\left[a,b\right]\) הוא מעין סכום משוקלל אינסופי של כל ערכי \(f\left(x\right)\) בקטע. כאשר \(f\left(x\right)\) חיובית, זה יוצא בדויק השטח שכלוא בין ציר ה-\(x\) ובין גרף הפונקציה באותו קטע. האופן שבו מתבצע חישוב הסכום המשוקלל הזה הוא באמצעות בניית סדרה אינסופית של סכומים משוקללים סופיים ושימוש במושג הגבול כדי לראות לאן הקירובים מתכנסים. ומה שמדהים כל כך כאן הוא שהקירוב הזה עובד. אנחנו מצליחים לחשב במדויק שטחים של צורות מסובכות למדי באמצעות ההגדרה-מבוססת-הקירוב הזו, כמו במקרה של נגזרת, שבה קירבנו "מהירות רגעית" באמצעות סדרה של "מהירויות ממוצעות" על גבי פרקי זמן הולכים וקטנים. זה לטעמי הקסם הגדול ביותר בחשבון האינפיניטסימלי, ואחד מהקסמים הגדולים במתמטיקה: היכולת להפוך את הקירוב הלא מדויק לתשובה סופית מדויקת לחלוטין. לשמחתי זכיתי למספר רב של רגעי "וואו" מתמטיים שבהם נפל לי אסימון והותיר אותי חסר נשימה לרגע. ההוכחה של קנטור לקיום גדלים שונים של אינסוף היא הדוגמה הראשונה שאני חושב עליה תמיד; אבל הקירוב-שהוא-מדויק של אינטגרלים ונגזרות נמצא במקום השני.

אז מה זו נגזרת?

בעיית ה"מכונית שנוסעת מתל אביב לחיפה" נשחקה עד לזרא בבתי הספר, ולכן אני מקווה שתסלחו לי על כך שאני משתמש בה – רכב מנצח לא מחלפים. אם כן, המרחק מתל אביב לחיפה הוא 100 קילומטרים. מכונית יוצאת מתל אביב לחיפה ומגיעה לשם תוך שעתיים. מה הייתה מהירותה בדרך?

ובכן, אין לשאלה הזו שום תשובה חד משמעית. מהירות היא לא דבר קבוע – היא משתנה כל הזמן. אפשר להניח שבאיזור תל אביב המכונית נקלעה לפקקים שבהם לתקופות ארוכות היא לא זזה כלל, ובתקופות אחרות זזה לאט מאוד. אחר כך, כשהגיעה סוף סוף לכביש המהיר היא ככל הנראה נסעה במהירות גבוהה, עד שנתקלה בתאונת דרכים באמצע הדרך ועצרה לסייע. אולי היא אפילו הסיעה אנשים לבית החולים הקרוב ולשם כך חזרה על עקבותיה ונסעה במהירות "שלילית". כל מה שאנחנו יכולים להגיד הוא שהיא עברה מרחק כולל של 100 קילומטרים בשעתיים, ולכן מהירותה הממוצעת הייתה 50 קילומטרים בשעה.

מה בא הממוצע לתאר כאן? ובכן, נניח שהרכב היה נוסע במהירות קבועה. המהירות הממוצעת היא בדיוק המהירות בה הרכב היה צריך לנסוע באופן קבוע למשך כל הנסיעה כדי שיגיע בדיוק באותו הזמן שבו הגיע הרכב שלנו. היא בעצם מתארת את דרך הנסיעה ה"משעממת" ביותר, או ה"פשוטה" ביותר, תלוי איך אתם רוצים להסתכל על זה.

מושג הנגזרת – אחד משני המושגים המרכזיים בחשבון הדיפרנציאלי והאינטגרלי (יחד עם מושג האינטגרל) הוא בסך הכל הכללה לא מסובכת של הרעיון הזה – במקום לדבר על המהירות הממוצעת לאורך זמן, הוא מדבר על המהירות הממוצעת ברגע זמן נתון. לכאורה אין שום משמעות למה שאמרתי כרגע – ממוצע צריך להימדד לאורך זמן. הוא תמיד נמדד ביחס לשני פרקי זמן שונים – התחלה וסוף. איך אפשר לדבר עליו בנקודה מסויימת? מבחינה מתמטית, אם בזמן \(t_{1}\) אני במיקום \(x_{1}\) ובזמן \(t_{2}\) אני במיקום \(x_{2}\), אז המהירות הממוצעת שלי היא \(\frac{x_{2}-x_{1}}{t_{2}-t_{1}}\); אבל אם \(t_{1}=t_{2}\), כלומר אני באותו זמן בשני המקרים, ועל כן גם \(x_{2}=x_{1}\) (כי לא "הספקתי לזוז") הרי ש-\(\frac{x_{2}-x_{1}}{t_{2}-t_{1}}=\frac{0}{0}\) ואפס חלקי אפס הוא מה שאוהבים לקרוא לו בח"מ – ביטוי חסר משמעות. זו אכן הבעיה; ולכן מושג הנגזרת הוא כל כך קסום – הוא מצליח לתת משמעות, ועוד משמעות הגיונית, טבעית ומתבקשת, לאותו בח"מ.

הרעיון הוא כזה: אמנם, אם נסתכל רק בתמונה קפואה אחת של הרכב בנקודת זמן מסויימת לא נוכל להגיד כלום על המהירות שלה; אבל אם ייתנו לנו סרטון קצר של הרכב בתנועה שמתחיל באותה נקודת זמן נוכל להסיק ממנו מה הייתה מהירות הרכב בערך באותה נקודת זמן. איך? פשוט נחשב באמצעות הסרטון מה היה המרחק שעבר הרכב במהלך הסרטון, וכמה זמן חלף (זהו אורכו של הסרטון), ובעזרת נתונים אלו נחשב את המהירות הממוצעת של הרכב במהלך הסרטון. אם אנו מניחים שהרכב לא ביצע שינוי דרסטי במהירות שלו בזמן הסרטון (מה שלא סביר אם הסרטון קצר), הרי שהמהירות הממוצעת של הרכב שנמדדה בסרטון קרובה למדי למהירות האמיתית של הרכב.

כאן אנחנו עדיין מדברים על קירוב; הרעיון העמוק של החשבון האינפיניטסימלי הוא שאפשר לעבור מדיבורים על קירובים לדיבורים על דברים מדוייקים לגמרי על ידי כך שמקטינים את רזולוציית המדידה לאינסוף. זה רעיון שיחזור על עצמו שוב גם כאשר נעסוק באינטגרלים. כאן מה שאנו אומרים הוא – לא צריך את כל הסרט; בואו נקצוץ את הזמן שלו בחצי, ונבצע את החישוב של המהירות הממוצעת בזמן זה. אנחנו נקבל קירוב שהוא מדויק יותר מהקירוב הקודם, כי השלכנו את החצי השני של הסרט שהיה לא רלוונטי בכלל לשאלה מה הייתה המהירות של הרכב בתחילת הסרט.

אבל למה לעבוד עם חצי סרט? אפשר לעבוד עם הרבע הראשון; והשמינית הראשונה; והמאית הראשונה, וכן הלאה וכן הלאה. בכל פעם שאנו קוצצים חלק מיותר נוסף מהסרט אנחנו מקבלים קירוב טוב יותר למהירות ה"רגעית" של הרכב בתחילת הסרט. בשום שלב של הקיצוצים הללו אנחנו לא נפטרים מכל הסרט פרט לפריים הראשון; אבל באופן שנראה לא אינטואיטיבי, ככל שאנחנו זורקים יותר מידע לפח, כך הקירוב שלנו משתפר (זה לא כל כך מפתיע בהתחשב בכך שכל המידע שנזרק לפח הוא מיותר).

בעולם האמיתי שיטת העבודה הזו בלתי אפשרית כי יש גבול לכמה שניתן לקצץ את הסרט; בסופו של דבר יוותרו בידינו רק שני פריימים של הסרט – הראשון, וזה שבא מייד אחריו. אבל כאשר אנו עוסקים בפונקציות מתמטיות מהממשיים לממשיים, אפשר לבצע את שיפור הקירוב הזה עוד ועוד, "עד לאינסוף"; הדרך הפורמלית להגדיר זאת היא באמצעות מושג הגבול שהצגתי בעבר.

פורמלית, נניח שיש לנו פונקציה \(f\left(x\right)\), ונקודה \(x_{0}\). חשבו על \(f\) כמייצגת פונקציה של מיקום הרכב כתלות בזמן הנוכחי \(x\). אנו רוצים לדעת מה הייתה "המהירות הרגעית" של הרכב בזמן \(x_{0}\). הדרך לעשות זאת, כאמור, הייתה באמצעות מהירות ממוצעת. אם \(x\ne x_{0}\) היא נקודה אחרת בזמן, אז המהירות הממוצעת בין הזמן שבו \(f\) ב-\(x_{0}\) והזמן שבו \(f\) ב-\(x\) היא \(\frac{f\left(x\right)-f\left(x_{0}\right)}{x-x_{0}}\) (הנוסחה הזו עובדת גם כאשר \(x>x_{0}\) וגם כאשר \(x<x_{0}\)). ישנה דרך קצת יותר פשוטה לסמן את הדבר הזה – בואו נסמן את \(x-x_{0}\) באות \(h\). אז \(x=x_{0}+h\), ולכן המהירות הממוצעת ניתנת לכתיבה בתור \(\frac{f\left(x_{0}+h\right)-f\left(x_{0}\right)}{h}\). ככל ש-\(h\) יותר קרוב ל-0, כך הרזולוצייה של המדידה שלנו יותר מדויקת – יותר קשה להכניס פנימה סיפורי מעשיות כגון "נתקעתי עם הרכב באמצע הכביש וחזרתי אחורה לתחנת הדלק". ומכאן ההגדרה שלנו: \(f^{\prime}\left(x_{0}\right)=\lim_{h\to0}\frac{f\left(x_{0}+h\right)-f\left(x_{0}\right)}{h}\). במילים: הערך של הנגזרת של \(f\) בנקודה \(x_{0}\) הוא הגבול של המהירות הממוצעת של \(f\) בנקודה \(x_{0}\) ובנקודה קרובה \(x_{0}+h\) כאשר משאיפים את המרחק בין שתי הנקודות לאפס.

מכיוון שלכל נקודה \(x\) אפשר לדבר על "ערך הנגזרת של \(f\) בנקודה \(x\)", עולה שגם הנגזרת של \(f\) היא בעצמה פונקציה, ומכאן הסימון – \(f^{\prime}\) ("\(f\) תג" בעברית). אותה \(f^{\prime}\) נקראת "הפונקציה הנגזרת של \(f\)" או פשוט הנגזרת שלה, ולפעמים קוראים ל-\(f^{\prime}\left(x_{0}\right)\) בשם "המספר הנגזר של \(f\) בנקודה \(x_{0}\)". כל אלו הם עניינים טרמינולוגיים לא חשובים עד כדי כך.

דבר אחד שמתמטיקאי צריך לעשות אחרי שהוא נתקל במושג חדש הוא לרחרח סביבו בחשדנות – האם המושג בכלל בעל משמעות? האם הוא מתקיים תמיד? למי הוא לא מתקיים? כשהוא כן מתקיים, עבור מי הוא מתקיים? ולכן אני רוצה לפתוח באכזבה – לא לכל פונקציה יש נגזרת, וגם אם יש – לא תמיד היא מוגדרת בכל מקום.הדוגמה הקלאסית ביותר היא פונקציית הערך המוחלט – \(f\left(x\right)=\left|x\right|\). עבור \(x>0\) הפונקציה מתנהגת בדיוק כמו \(f\left(x\right)=x\); ועבור \(x<0\) היא מתנהגת בדיוק כמו \(f\left(x\right)=-x\), ולשתי הפונקציות הללו יש נגזרת (נדבר על כך בעתיד. אולי). אבל בנקודה \(x=0\) הכל מתרסק. בואו נראה את זה פורמלית: \(f\left(0\right)=0\) במקרה הזה, ולכן עבור \(h>0\) נקבל \(\frac{f\left(x_{0}+h\right)-f\left(x_{0}\right)}{h}=\frac{f\left(h\right)-f\left(0\right)}{h}=\frac{h}{h}=1\), ואילו עבור \(h<0\) נקבל \(\frac{f\left(h\right)-f\left(0\right)}{h}=\frac{-h}{h}=-1\). במילים אחרות, אם נסתכל רק על תמונות מהצילומים של \(f\left(x\right)\) מהרגע שלפני \(x=0\), נקבל את הרושם שהמהירות היא \(-1\); ואם נסתכל רק על הרגע שאחרי, נקבל את הרושם שהמהירות היא \(1\); אבל אז, מה המהירות באמצע? יש לנו שני קירובים שונים וסותרים. המסקנה היא שאי אפשר לדבר על המהירות ברגע הזה באופן משביע רצון, ואנחנו מסתפקים באמירה שהנגזרת של \(f\) לא מוגדרת בנקודה הזו; ש-\(f\) לא גזירה בנקודה הזו. באופן כללי אנחנו נוהגים לסווג את הפונקציות בעולם לגזירות ולא גזירות (ואם לא גזירות, היכן), ולמזלנו – רוב הפונקציות המעניינות גזירות.

בואו נעזוב את סיפור המכונית ונעבור לדוגמה אחרת לגמרי שבה יש משמעות לנגזרת – משיקים. במילה "משיק" במשמעותה המתמטית-גאומטרית נתקלים לרוב בבית הספר בהקשר של משיק למעגל בנקודה מסויימת. במקרה זה המשיק הוא קו ישר שנוגע במעגל באותה נקודה, ובנקודה זו בלבד (כלומר, הוא לא חותך את המעגל אלא רק "מלטף" אותו). אנחנו רוצים לדבר על משיק ליצורים גאומטריים אחרים – גרפים של פונקציות. אלא שכאן יש לנו בעיה – בהינתן גרף של פונקציה ונקודה כלשהי עליו ייתכן שיש הרבה ישרים שאפשר להעביר ולא חותכים את הגרף בשום נקודה אחרת; וגרוע מכך, ייתכן שהישר ש"מרגיש לנו נכון" בקשר להיותו משיק בנקודה מסויימת דווקא כן חותך את גרף הפונקציה בנקודות אחרות. אז מה עושים?

תמונה של משיק לעקום

מה שצריך לעשות הוא לזנוח את ההגדרה המקורית של משיק ולנסות להבין על מה אנחנו באמת מדברים כשאנו מדברים על משיק. משיק לנקודה מסויימת בעקום הוא קו ישר שהכיוון שלו זהה ל"כיוון של העקום" בנקודה זו. מי שמכיר טיפה מכניקה יכול לחשוב על זה כך: העקום מתאר תנועה של גוף בהשפעת כוח מטורלל כלשהו. המשיק בנקודה כלשהי מתאר את מסלול התנועה של הגוף מנקודה זו והלאה אם הכוח המטורלל היה עוזב אותו לנפשו שם והוא היה ממשיך בתנועתו ללא הפרעה, על פי החוק הראשון של ניוטון. ההגדרה הזו תופסת היטב את המשיק ה"קלאסי" למעגל, אבל היא טובה בהרבה מההגדרה האחרת – ובפרט, ניתן לתאר אותה באמצעות הנגזרת.

אם כן, נניח שיש לנו עקום שמתואר בתור הגרף של הפונקציה \(f\left(x\right)\) (כלומר, זה אוסף הנקודות במישור מהצורה \(\left(x,f\left(x\right)\right)\)). אמנם, אנחנו לא יכולים לתאר כך את כל העקומים (בפרט לא מעגל…) אבל לעת עתה זה מספיק לנו; אפשר בשיטות קצת יותר כלליות לטפל בכל סוגי העקומים. מה שאנחנו רוצים לדעת היא מה המשוואה של המשיק לגרף הפונקציה בנקודה \(x_{0}\). המשיק הוא קו ישר; אלו מכם שמכירים גאומטריה אנליטית יודעים שקו ישר ניתן לתאר באמצעות המשוואה \(y=mx+n\), כאשר המספר \(m\) מכונה השיפוע של הישר, ובא לציין כמה הישר נוטה באלכסון ביחס לציר ה-\(x\) (פורמלית, אם הזווית שהישר יוצר עם ציר ה-\(x\) היא \(\theta\), אז \(m=\tan\theta\)). עוד אתם אולי יודעים שאם נתון לנו השיפוע של ישר, ונקודה אחת שדרכה הישר עובר, הישר נקבע כך באופן יחיד. נקודה אחת שבה המשיק עובר אנחנו יודעים – זוהי בדיוק הנקודה \(\left(x_{0},f\left(x_{0}\right)\right)\). כל מה שעלינו לגלות כעת הוא את השיפוע שלו.

אם אנחנו יודעים שתי נקודות שדרכן עובר ישר, ניתן לגלות את השיפוע שלו בקלות. נניח שאלו הן הנקודות \(\left(x_{1},y_{1}\right)\) ו-\(\left(x_{2},y_{2}\right)\). אז נקבל את שני השוויונות \(y_{1}=mx_{1}+n\) ו-\(y_{2}=mx_{2}+n\). נחסר את שני השוויונות זה מזה ונקבל \(y_{2}-y_{1}=m\left(x_{2}-x_{1}\right)\), ובמילים אחרות, \(m=\frac{y_{2}-y_{2}}{x_{2}-x_{1}}\). נראה מוכר?

אם כן, כדי לחשב את השיפוע בנקודה \(x_{0}\), מה שנעשה הוא פשוט: עבור ערכים הולכים וקטנים של \(h\) נעביר ישר בין הנקודה \(\left(x_{0},f\left(x_{0}\right)\right)\) והנקודה \(\left(x_{0}+h,f\left(x_{0}+h\right)\right)\) ונחשב את השיפוע שלו. נקבל קבוצה של "קירובים טובים לישר", שהולכת ונראית כמו הישר ככל ש-\(h\) קטן יותר; ונקבל קבוצה של "קירובים טובים לשיפוע" שהולכת ונראית כמו שיפוע הישר ככל ש-\(h\) קטן יותר. פורמלית, נקבל ש-\(m=\lim_{h\to0}\frac{f\left(x_{0}+h\right)-f\left(x_{0}\right)}{h}\) – וזוהי בדיוק ההגדרה שלנו לנגזרת. במילים אחרות, הנגזרת של \(f\) בנקודה \(x_{0}\) היא שיפוע הישר שמשיק לגרף של \(f\) בנקודה זו. זוהי הדרך לתת משמעות גאומטרית לנגזרת. יותר מכך – על הקו המשיק הזה אפשר לחשוב בתור "קירוב מסדר ראשון" של הפונקציה בנקודה \(x_{0}\) – פונקציה פשוטה (קו ישר) שמהווה "קירוב טוב ל-\(f\)" בסביבה קטנה של הנקודה \(x_{0}\).

מבחינה היסטורית, אלו שתי הבעיות שהולידו את מושג הנגזרת – הנסיון לתאר שינוי רגעי, והנסיון למצוא את המשיק לעקומים. מיותר אך הכרחי לציין שמאז הנגזרת התגלתה כשימושית באינספור הקשרים אחרים – זהו ללא ספק אחד מהמושגים הנפוצים ביותר במתמטיקה, וכל אדם בעל השכלה מתמטית מינימלית צריך להכיר אותו. הפוסט הזה הוא רק השלב הראשון.

גבולות של פונקציות ופונקציות רציפות

בפוסט הקודם שלי על חדו"א תיכונית הצגתי מושג שלא נלמד בתיכון, אבל הוא בסיסי ביותר בחדו"א – מושג הגבול. ליתר דיוק, הצגתי את המושג עבור סדרות של מספרים ממשיים; כעת אני רוצה להציג את ההגדרה עבור פונקציות של מספרים ממשיים – בסימון שהצגתי בפוסט על פונקציות, פונקציות מהצורה \(f:\mathbb{R}\to\mathbb{R}\). ההגדרה תהיה מעט יותר מסובכת מזו שעבור סדרות (ולכן חיכיתי איתה), אבל אחרי שתבינו אותה, לא יהיה קשה בהרבה גם להבין הגדרות כלליות עוד יותר לגבול (שלא אתן, בשלב זה, כי אז כבר לא נעסוק בחדו"א אלא במתמטיקה מתקדמת יותר).

גבול של סדרה בא לתאר את התנהגות הסדרה "באינסוף". גבול של פונקציה הוא מושג מסובך יותר כי אנחנו צריכים גם להגיד איפה אנחנו מסתכלים על התנהגות הפונקציה. בואו נקפוץ למים ונציג את הסימון: \(\lim_{x\to x_{0}}f\left(x\right)=L\) פירושו "כאשר \(x\) שואף ל-\(x_{0}\), ערך הפונקציה \(f\) שואף ל-\(L\)". עבור סדרות אפשר היה לחשוב על הגבול כ"משחק" – נותנים לנו \(\varepsilon\) ומטרתנו הייתה למצוא איזה \(N_{\varepsilon}\) כך שהתנהגות אברי הסדרה שאחרי האיבר ה-\(N_{\varepsilon}\) היא כזו, שאף אחד מהם לא נמצא במרחק גדול מ-\(\varepsilon\) מהגבול. כעת עלינו להחליף את \(N_{\varepsilon}\) במשהו אחר – הטענה תהיה שקיים מספר ממשי \(\delta>0\) כך שאם \(x\) קרוב ל-\(x_{0}\) עד כדי \(\delta\), אז \(f\left(x\right)\) קרוב ל-\(L\) עד כדי \(\varepsilon\). אומרים ש-\(\delta\) מגדיר "סביבה" של \(x_{0}\): אוסף כל הנקודות שסביבו, במרחק לכל היותר \(\delta\). נעבור לפורמליסטיקה של ממש: \(\lim_{x\to x_{0}}f\left(x\right)=L\) אם ורק אם לכל \(\varepsilon>0\) קיים \(\delta>0\) כך ש-\(0<\left|x-x_{0}\right|<\delta\Rightarrow\left|f\left(x\right)-L\right|<\varepsilon\) (כאן חץ כפול פירושו "גורר"). זהו, זו ההגדרה המסובכת והמפחידה ביותר שאציג בכל סדרת הפוסטים הזו. נגזרות ואינטגרלים, למרות שהגדרתם אינה מובנת מאליה, הם לדעתי קלים יותר להבנה (טוב, אולי אינטגרל לא…)

שימו לב לאי השוויון \(0<\left|x-x_{0}\right|\). הוא אומר שאם \(x=x_{0}\), לא חייב להתקיים \(\left|f\left(x\right)-L\right|<\varepsilon\). במילים אחרות, דווקא בנקודה \(x_{0}\) עצמה, הפונקציה יכולה "להשתולל"ולא חייבת להיות בסביבת הגבול. כלומר, הגבול בנקודה \(x_{0}\) מתאר את התנהגות הפונקציה סביב הנקודה הזו, אך לא בנקודה עצמה. רוצים דוגמה? אין בעיה! נגדיר \(f\left(x\right)\) באופן האידיוטי הבא: אם \(x\ne0\) אז \(f\left(x\right)=2\), וכמו כן \(f\left(0\right)=42\). אם נצייר גרף של הפונקציה הוא יהיה קו אופקי בגובה 2 מעל ציר \(x\), פרט ל"חור" בנקודה \(x=0\) שבמקומו יש נקודה בודדת בגובה 42 מעל ציר \(x\). קל לראות שהפונקציה שואפת ל-2 בנקודה 0, ועם זאת ערכה שם הוא מרוחק למדי מ-2. הפונקציה הזו נראית מלאכותית משהו כי לקחנו פונקציה פשוטה ו"קרענו" אותה; זה מוביל אותי מייד למושג הבא שעליו אני רוצה לדבר כאן ושמושג הגבול של פונקציה מאפשר לי לדבר עליו – רציפות. פונקציה \(f\) היא רציפה בנקודה \(x_{0}\) אם \(\lim_{x\to x_{0}}f\left(x\right)=f\left(x_{0}\right)\). אני אוהב לומר שפונקציה רציפה היא ההפך מפוליטיקאי – היא גם מבטיחה וגם מקיימת. מבטיחה, זה הגבול \(\lim_{x\to x_{0}}f\left(x\right)\), שנותן לנו את התחושה, ככל שאנו מתקרבים לנקודה \(x_{0}\), שערך הפונקציה מתקרב למשהו ספציפי; ומקיימת זה ש-\(f\left(x_{0}\right)\) הוא אכן אותו משהו ספציפי.

מה שתיארתי כאן הוא רציפות בנקודה מסויימת; בדרך כלל נהוג לדבר על רציפות של פונקציה בקטע כלשהו. קטע הוא פשוט קבוצת כל הנקודות שבין שני מספרים; כך למשל \(\left[3,4\right]\) הוא אוסף כל המספרים שקטנים או שווים ל-4 וגדולים או שווים ל-3. זו דוגמה לקטע סגור; אפשר גם לדבר על הקטע הפתוח \(\left(3,4\right)\) שמכיל את כל המספרים בין 3 ו-4 לא כולל 3 ו-4 עצמם; והקטע ה"חצי פתוח" \((3,4]\) שאינו מכיל את 3 אבל כן מכיל את 4, והקטע \(\left(2,\infty\right)\) שמכיל את כל המספרים הממשיים שגדולים מ-2, וכדומה. אם כן, להגיד "\(f\) רציפה בקטע \(\left[3,4\right]\)" זו דרך להגיד "לכל \(3\le x_{0}\le4\), מתקיים ש-\(f\) רציפה ב-\(x_{0}\)". מעתה ואילך כשאדבר על "פונקציה רציפה"תמיד יהיה ברור שאני מתכוון ל"רציפה בקטע כלשהו" (שיכול להיות גם \(\left(-\infty,\infty\right)\) – ציר המספרים הממשיים כולו).

אוהבים לומר שפונקציות רציפות הן פונקציות ש"ניתן לצייר מבלי להרים את העט מהדף". זה תיאור טיפה פשטני כי הוא עובד רק לפונקציות שקל לצייר בקו אחד – למשל, פונקציות \(f:\mathbb{R}\to\mathbb{R}\) (להבדיל מפונקציות מרוכבות, למשל). למרבה המזל, אלו בדיוק הפונקציות שעליהן אנו מדברים בחדו"א בסיסית ועבורן התיאור הזה הוא הולם למדי, למעט העובדה שעדיין יש פונקציות, ואפילו רציפות, שקשה לנו לצייר באופן כללי. לכן אני מציע להשתמש בזה בתור אינטואיציה, לא בתור הגדרה.

אני רוצה להציע דרך התבוננות נוספות על פונקציות רציפות, שאולי תהיה קשה למדי להבנה בשלב הזה אבל היא הפתח להכללה חזקה ביותר של המושג הזה. חשבו על פונקציה ממשית באופן גאומטרי יותר, בתור משהו ש"תופס בידיים" את ציר המספרים \(\mathbb{R}\), ומתחיל לעקם ולפתל אותו בתוך המרחב הדו-ממדי שבו אפשר לדמיין ש-\(\mathbb{R}\) חי בתור קו ישר. למשל, הפונקציה \(f\left(x\right)=x^{2}\) תופסת את \(\mathbb{R}\) ב"קצוות" שלו (אין לו באמת כאלו – הם באינסוף!) ומושכת אותם בחוזקה כלפי "מעלה". הפונקציה \(f\left(x\right)=\sin x\) תופסת את הישר, מעקמת אותו ויוצרת ממנו מעין גל שחוזר על עצמו. הפונקציה \(f\left(x\right)=e^{x}\) מרימה את הישר טיפה אל מעבר לציר \(x\), את הקצה הימני היא מושכת מעלה בצורה חזקה מאוד, בעוד שהקצה השמאלי ממשיך להישאר "נמוך" וקרוב לציר, וכן הלאה. לכל הדוגמאות הללו תכונה משותפת – ההתעללות שביצענו ב-\(\mathbb{R}\) לא קרעה אותו. עשינו עיוות כלשהו של \(\mathbb{R}\) שכלל מתיחות והזזות שלו, אבל בלי קריעה. "לקרוע" בהקשר הזה פירושו לגרום לכך שנקודות שקודם היו קרובות אחת לשנייה על הציר פתאום יהיו מרוחקות זו מזו באופן משמעותי (ושוב – זה לא מוגדר היטב – מה מבדיל בין "קריעה"ובין מתיחה חזקה במיוחד? לכן לא צריך לחפש את הצדק המתמטי במה שאני אומר אלא את האינטואיציה; הצדק המתמטי מצוי בהגדרה שכבר נתתי).

למעשה – וזה כבר באמת למתקדמים מביניכם – אפילו תיאור של פונקציה רציפה כפונקציה ש"לא קורעת" אינו מדויק מספיק, למרות שבמקרה של \(\mathbb{R}\) הוא מספיק טוב. בעולם האמיתי פונקציה רציפה יכולה גם לקרוע, בתנאי שאחר כך היא "תופרת" בחזרה את הקרעים. כך למשל כשמדברים על פונקציות על אובייקטים תלת ממדיים אפשר לדבר על פונקציה שלוקחת כדור והופכת אותו "פנימה והחוצה". אם תנסו לעשות זאת לכדור אמיתי בלי לקרוע אותו לא תצליחו; אבל אפשר לעשות זאת אם מבצעים בו קרע קטן, הופכים אותו ואז תופרים בחזרה את הקרע. אבל כאמור – דיה לצרה בשעתה, ולא על זה אני רוצה לדבר כאן.

למה בעצם טרחתי לדבר על פונקציות רציפות? כי מבין כל הפונקציות הן הפונקציות ה"נחמדות" ביותר. אפשר להראות שפונקציה רציפה בקטע סגור (למשל \(\left[3,4\right]\)) היא חסומה ומקבלת בו את המינימום והמקסימום שלה – תכונות מועילות מאוד, שעוזרות לנו לראות שלכל פונקציה רציפה קיים אינטגרל (ועל כך נדבר בהמשך). בדומה אפשר להראות שכל פונקציה שאפשר לגזור (וגם על זה נדבר בהמשך) חייבת להיות רציפה. כמו כן, הפונקציות העיקריות שאנחנו מכירים – הפולינומים, הפונקציות הטריגונומטריות, האקספוננט, הלוגריתם – כולן רציפות. זה לא מדויק במאה אחוזים – למשל, \(\tan x\) לא מוגדר עבור ערכי \(x\) שהן כפולה שלמה אי זוגית של \(\frac{\pi}{2}\); אבל בין כל שתי נקודות כאלו זו פונקציה רציפה גם כן.

סיבה אחרת לכך שפונקציות רציפות הן כל כך אהובות – ושוב, אני קצת גולש – היא שאם מסתכלים על תוצאה ההפעלה שלהן על כל הנקודות בקבוצה מסויימת ולא רק על הפעולה ה"נקודתית" שלהן, יש מספר תכונות מעניינות של הקבוצה שפונקציות רציפות ישמרו. כך למשל התמונה של קטע סגור תהיה בעצמה קטע סגור (ובאופן כללי, התמונה של קטע תמיד תהיה קטע – לא ייתכן שפונקציה רציפה תעביר קטע לשני קטעים מבודדים).

הנה עוד תכונה מעניינת של פונקציות רציפות. נניח שיש לנו סדרת מספרים ממשיים \(a_{n}\) שמתכנסת לערך כלשהו \(a\), כלומר \(\lim_{n\to\infty}a_{n}=a\) על פי ההגדרה של הפוסט הקודם. אז אם \(f\) היא פונקציה רציפה, מתקיים ש-\(\lim_{n\to\infty}f\left(a_{n}\right)=f\left(a\right)\). במילים אחרות, מספיק שנדע את ערכה של \(f\) על סדרת נקודות שמתכנסת ל-\(a\) כדי שנדע את ערכה ב-\(a\). למה זה מעניין? כי סדרה היא קבוצה יחסית קטנה של מספרים; השוו זאת להגדרה של \(\lim_{x\to x_{0}}f\left(x\right)=f\left(x_{0}\right)\) שבה אנחנו מדברים על אוסף כל הנקודות בסביבה כלשהי של \(x_{0}\).

כדי להבין עד כמה זה חזק, הנה משפט: אם ידועים לנו ערכיה של פונקציה \(f\) על המספרים הרציונליים, וידוע לנו ש-\(f\) רציפה, אז הערכים של \(f\) על כל המספרים הממשיים נקבעים בצורה יחידה – יש "הרחבה יחידה לממשיים" של \(f\). כמו כל דבר בחדו"א גם המשפט הזה ניתן להכללה רחבת היקף שעליה לא אומר כלום.

דוגמה אחת לשימוש של המשפט היא במה שמכונה המשוואה הפונקציונלית של קושי. המשוואה הפונקציונלית היא זו: \(f\left(x+y\right)=f\left(x\right)+f\left(y\right)\), ואנו שואלים את עצמנו (או לפחות קושי שאל את עצמו) אילו פונקציות מקיימות זאת בכלל. המפתח לפתרון הוא זה: ראשית, אם \(n\) טבעי אז \(f(nx)=f(x)+f\left(\left(n-1\right)x\right)=f\left(x\right)+f\left(x\right)+f\left(\left(n-2\right)x\right)=\dots=nf(x)\). כעת, מהמשוואה הזו מקבלים על ידי חלוקה ב-\(n\) של שני האגפים ש-\(\frac{1}{n}f\left(nx\right)=f\left(x\right)\) ועל ידי החלפת משתנה מקבלים \(\frac{1}{n}f\left(y\right)=f\left(\frac{y}{n}\right)\). מכאן כבר לא קשה לראות (נדרש תעלול כלשהו גם עבור מספרים שליליים) שלכל מספר רציונלי \(q\) מתקיים \(f\left(q\right)=q\cdot f\left(1\right)\). כלומר, הערך של \(f\) על כל המספרים הרציונליים נקבע על פי ערכה ב-\(1\), שהוא מספר קבוע כלשהו, ולכן הצורה הכללית של \(f\) היא \(f\left(x\right)=c\cdot x\) לכל מספר רציונלי (כאשר \(c\) הוא קבוע ממשי שמאפיין את \(f\)).

מה שעשינו כאן היה תעלולים אלגבריים פשוטים. הם מסוגלים להביא אותנו רק עד הרציונליים – אי אפשר לטפל בממשיים בעזרת תעלולים דומים. אלא מה? אם דורשים גם ש-\(f\) תהיה רציפה, אז ערכיה על הרציונליים קובעים את ערכה בכל מספר ממשי. אם \(a\) הוא מספר ממשי ו-\(a_{n}\) סדרת נקודות רציונליות שמתכנסת אליו (תמיד יש כזו) אז \(f\left(a_{n}\right)=c\cdot a_{n}\), ולכן \(f\left(a\right)=\lim f\left(a_{n}\right)=\lim c\cdot a_{n}=c\cdot a\). בקיצור, הראינו ש-\(f\left(x\right)=c\cdot x\) לכל מספר ממשי. במילים: אם דורשים ש-\(f\) רציפה, אז הפתרון היחיד למשוואה הפונקציונלית של קושי הוא פונקציות מהצורה \(f\left(x\right)=c\cdot x\).

אם כן, אלו היו פונקציות רציפות על קצה המזלג. בפוסט הבא בנושא אחזור לדבר על נושא שנלמד במפורש גם בתיכון – נגזרות.

מהו גבול? (של סדרה)

בשעה טובה הגענו לשלב בסדרת הפוסטים על חדו"א שבו אפשר להתחיל לדבר על מושג הגבול – מושג שלא מתואר באופן מדויק בתיכון, ואני רוצה כן לתאר אותו כאן באופן מדויק עד הסוף. מכיוון שזהו מושג קשה יחסית לעיכול, אתחיל מתיאור מקרה פרטי (חשוב מאוד לכשעצמו) – גבול של סדרה. אם כן, נתחיל מלדבר על מהי סדרה בכלל. בהקשר שלנו, סדרה היא אוסף סדור של מספרים – אפשר לדבר על "המספר הראשון בסדרה", "המספר השני בסדרה" וכן הלאה. למשל, \(a_{1},a_{2},a_{3},\dots\) היא סדרה שהאיבר הראשון שלה הוא המספר \(a_{1}\), האיבר השני הוא המספר \(a_{2}\) וכן הלאה. משתמשים ב-\(a_{n}\) כדי לסמן את "האיבר הכללי" של הסדרה – לרוב נותנים תיאור של \(a_{n}\) כפונקציה כלשהי של המספר הטבעי \(n\) (למעשה, אפשר לחשוב על סדרות באופן כללי בתור פונקציות שהתחום שלהן הוא הטבעיים). שימו לב שיש לסדרה אינסוף איברים – לכל מספר טבעי (ויש אינסוף כאלו) יש איבר בסדרה. החדו"א מטבעה עוסקת ביצורים אינסופיים כאלו – עבור סדרות סופיות אין משמעות למושג הגבול.

סדרה פשוטה אחת היא \(a_{n}=n\), כלומר הסדרה \(1,2,3,\dots\) של כל הטבעיים. סדרה פשוטה אחרת היא \(1,0,1,0,\dots\), כלומר הסדרה ש"מזפזפת" בין 0 ו-1. אפשר לתאר אותה באמצעות נוסחה עם \(a_{n}=\frac{1+\left(-1\right)^{n+1}}{2}\) – נכון שהתיאור של \(1,0,1,0,\dots\) פשוט יותר? וסדרה שלישית היא \(1,\frac{1}{2},\frac{1}{3},\dots\) שניתן לתאר על ידי \(a_{n}=\frac{1}{n}\). מושג הגבול של סדרה בא לתאר את ההתנהגות "לטווח ארוך" של הסדרות הללו. בואו נגיד זאת במפורש: גבול של סדרה הוא מספר שאברי הסדרה מתקרבים אליו עוד ועוד, עד אין קץ. ההגדרה המילולית הזו מיועדת לתת אינטואיציה ותו לא; כהגדרה פורמלית היא מלאה חורים וחסרת טעם. מה זה "מתקרבים"? מה זה "עוד ועוד"? מה פשר "עד אין קץ"? למה בכלל קיים מספר כזה? האם יכולים להיות כמה מספרים כאלו? אלו שאלות מצויינות שהגדרה פורמלית ומדוייקת של הגבול אמורה לאפשר לנו לענות עליהן.

בואו נתמקד לעת עתה בסדרה \(a_{n}=\frac{1}{n}\). אנחנו רואים שככל ש-\(n\) גדול יותר, כך \(a_{n}\) קטן יותר. מצד שני, כל אברי הסדרה חיוביים – גדולים ממש מ-0. אם כן, יש לנו סדרה שאבריה הולכים וקטנים עוד ועוד, אבל כולם חיוביים. התחושה האינטואיטיבית שלנו היא שאיברי הסדרה הזו "הולכים לאפס", או, אם להשתמש במילה יותר גסה, "שואפים לאפס". מצד שני, איך אפשר לבטא תכונה כזו בצורה פורמלית? והאם האינטואיציה הזו בכלל נכונה? הרי הסדרה לא מגיעה לאפס. אף פעם! אף איבר בסדרה הוא לא אפס. אם כן, מאחר ואפס לא מופיע בכלל בסדרה, האם נכון לטעון בכל זאת שגבול הסדרה הוא אפס?

לעומת זאת, בסדרה \(1,0,1,0,\dots\) אנחנו מקבלים את הרושם שהסדרה לא "מתקרבת" לשום מקום. היא לפעמים קרובה ל-1 ולפעמים קרובה ל-0, אבל היא כל הזמן מזפזפת בין שני הערכים הללו וקשה להגיד שהיא קרובה לאחד מהם באופן מיוחד. אינטואיטיבית אולי נרצה לומר שיש לסדרה שני גבולות. אמנם, אמירה זו אינה חסרת טעם ובחדו"א אכן מתייחסים אליה באופן מסויים, אבל לא נכון לקרוא ל-1 "גבול" במקרה הזה, פשוט כי מחצית מאברי הסדרה לא מגלים שום נטייה מיוחדת להתקרב אליו יותר מאשר הם מגלים נטייה להתקרב אל \(-1\), למשל. באותו אופן גם 0 לא ראוי לכינוי "גבול" ואכן, כשאציג את ההגדרה הפורמלית נראה שזוהי דוגמה לסדרה שאין לה גבול.

ומה עם הסדרה \(1,2,3,\dots\)? גם במקרה שלה, לא נראה שהיא מתקרבת למספר מסויים. אם ננסה לטעון שהיא מתקרבת, למשל, ל-137, הרי שנשים לב שמהאיבר ה-137 והלאה בסדרה, כל האיברים גדולים מ-137, והם ממשיכים לגדול עוד ועוד – הסדרה מתרחקת מ-137. לכן לא סביר ש-137 הוא גבול של הסדרה; ומכיוון ש-137 היה שרירותי לגמרי, אין לסדרה גבול. מצד שני, במובן מסויים אפשר לומר שהסדרה שואפת לאינסוף – אמירה שבאה לציין את ההתנהגות של "גדלים עוד ועוד מעבר לכל מספר ממשי".

מה שצריך להיות ברור בשלב הזה הוא שאנחנו רוצים לדבר בצורה פורמלית כלשהי על המושג של מרחק כדי שאפשר יהיה לדבר על גבולות. עבור מספרים ממשיים ההגדרה אינה מסובכת. מהו, למשל, המרחק שבין 1 ו-3? אינטואיטיבית אנחנו אומרים 2, ואפשר לתת לזה משמעות קצת יותר פורמלית – זהו אורך הקטע שמחבר את הנקודה 1 עם הנקודה 3 על גבי ציר המספרים. הדרך לתאר את זה באופן פורמלי היא זו: אם \(a,b\) הם שני מספרים ממשיים, אז המרחק ביניהם הוא \(\left|a-b\right|\), כלומר הערך המוחלט של ההפרש שלהם. הערך המוחלט בא להבטיח שהמרחק יהיה תמיד מספר חיובי (כי אורך של קטע הוא תמיד חיובי) ושנוכל לדבר על המרחק בין \(a\) ו-\(b\) בלי לטרוח לחשוב מי הגדול מבין שניהם.

שימו לב לשלוש תכונות שהמרחק מקיים: הראשונה היא שאם \(a=b\) אז המרחק ביניהם הוא \(0\), מה שהגיוני כמובן – המרחק שלי מעצמי הוא תמיד אפס. מצד שני, אם \(a\ne b\) המרחק ביניהם תמיד יהיה גדול מאפס. בנוסף, המרחק הוא סימטרי; המרחק מ-\(a\) אל \(b\) הוא כמו המרחק מ-\(b\) אל \(a\) (פורמלית: \(\left|a-b\right|=\left|b-a\right|\)). לבסוף, ואת זה לא קל לראות או להוכיח, מושג המרחק שלנו מקיים את מה שנקרא "אי שוויון המשולש", שמשמעותו הפורמלית היא שאורך הקו הישר מ-\(a\) אל \(b\) תמיד קצר יותר מאורך המסלול שבו קודם כל עוברים מ-\(a\) לאיזו נקודה אחרת \(c\), ואז הולכים מ-\(c\) אל \(b\). פורמלית, \(\left|a-b\right|\le\left|a-c\right|+\left|c-b\right|\).

שלוש התכונות הללו מאפיינות בצורה חזקה למדי את הרעיון האינטואיטיבי של "מרחק" – בצורה כל כך חזקה, שאפשר להגדיר מרחקים גם על קבוצות שאינן של מספרים ממשיים דווקא באמצעות פונקציות שרירותיות, שכל מה שדורשים מהן הוא שיקיימו את שלוש התכונות הנ"ל. פונקציות כאלו נקראות מטריקות, ואני לא הולך לפרט עליהן כאן, כי מדובר בחומר מתקדם מדי עבור תיכון; אני רק רוצה לציין את עובדת קיומן , וכפועל יוצא מכך את העובדה שאת כל מה שאני הולך להציג כעת אפשר להכליל בצורה פרועה ביותר וזה בדיוק גם מה שעושים. במילים אחרות, החדו"א של מספרים ממשיים הוא רק תחילתו של קצה הקרחון.

עכשיו משאנחנו מצויידים בהגדרת המרחק, אפשר לגשת להגדרת הגבול עצמה. לפני כן, למען בניית המתח, אני רוצה להגיד מילה או שתיים על למה לדעתי ההגדרה הזו כל כך קשה לעיכול במבט ראשון עבור מי שאינו מנוסה במתמטיקה. הסיבה היא, לדעתי, רמת הכימות של ההגדרה. "כימות" כאן הוא שימוש בכמתים לוגיים – באמירות "לכל" ו"קיים". לדוגמה, ההגדרה של מספר מושלם היא "מספר ששווה לסכום מחלקיו הקטנים ממנו". כאן אין כימות בכלל. ההגדרה של מספר פריק הוא "מספר שקיים לו מחלק הקטן ממנו וגדול מ-1". את השערת גולדבך ניתן לנסח בתור "לכל מספר זוגי גדול מ-4, קיים פירוק שלו לסכום שני מספרים ראשוניים". כאן כבר יש שני כמתים שבאים האחד אחרי השני. ומכיוון שאחד הוא "לכל" והשני הוא "קיים", לא ניתן לאחד אותם (כלומר, להפוך טענה בסגנון "לכל \(x\) ולכל \(y\) מתקיים בלה בלה" ל"לכל זוג \(x,y\) מתקיים בלה בלה"). ההתעסקות בכמות הכמתים נראית מטופשת לגמרי במבט ראשון, אך יש בה הגיון רב; בלוגיקה ובמדעי המחשב ניתן להשתמש ברמת כימות כדי לסווג "קושי" או "כוח" של דברים מסויימים, אך לא ארחיב על כך כעת. הפאנץ' הוא שהגדרת הגבול כוללת שלושה כמתים (שכל אחד מהם אומר משהו לא פשוט) ולכן היא אולי מהווה קפיצה ברמת הקושי-לעיכול-בסיסי מאשר דברים כמו השערת גולדבך.

הנה הגדרה שמחביאה בתוכה את מרבית הכמתים אבל שומרת על המשמעות האינטואיטיבית: \(L\) הוא גבול הסדרה \(a_{n}\) (ומסמנים זאת \(\lim_{n\to\infty}a_{n}=L\) או בקיצור \(a_{n}\to L\)) אם כמעט כל אברי \(a_{n}\) קרובים ככל שנרצה ל-\(L\).

נתחיל בלהבין למה הכוונה ב"קרובים ככל שנרצה". כבר ראינו עם הסדרה \(a_{n}=\frac{1}{n}\) שהסדרה לא בהכרח חייבת "לגעת" בגבול שלה. אם כן, אנחנו לא יכולים לדרוש שאברי הסדרה יהיו במרחק 0 מהגבול. אנחנו כן דורשים שלכל מרחק גדול מאפס, כמעט כל אברי הסדרה לא יהיו מרוחקים יותר מהגבול מאשר המרחק הזה. כלומר – כמעט כל איברי הסדרה נמצאים במרחק \(1\) מהגבול; כמעט כולם נמצאים במרחק \(\frac{1}{2}\); כמעט כולם נמצאים במרחק \(\frac{1}{5432}\) וכן הלאה וכן הלאה. פורמלית כותבים זאת בתור "לכל \(\varepsilon>0\), כמעט כל איברי הסדרה \(a_{n}\) מקיימים \(\left|a_{n}-L\right|<\varepsilon\)"(האות היוונית נקראת אפסילון).

טוב ויפה, אז הבנו מה זה "קרוב ככל שנרצה". אבל מה זה "כמעט כל"? הכוונה היא – כל אברי הסדרה, חוץ אולי ממספר סופי שלהם. בפועל זה אומר שהחל ממקום מסויים בסדרה, כל האיברים מקיימים את מה שאנחנו רוצים. הנקודה החשובה, המרכזית, המהותית פה היא שהמקום המסויים הזה תלוי ב-\(\varepsilon\)! כלומר, ייתכן שהחל ממקום 3 בסדרה כל האיברים בה קרובים ל-\(L\) עד כדי \(\frac{1}{2}\), אבל רק ממקום 3,000,000 בסדרה כל האיברים קרובים ל-\(L\) עד כדי \(\frac{1}{4}\). זה מוביל אותנו לתיאור המדויק הבא: עבור \(\varepsilon>0\) נתון, אומרים שכמעט כל אברי הסדרה קרובים ל-\(L\) עד כדי \(\varepsilon\) אם קיים \(N\) טבעי כך שלכל \(n>N\) מתקיים \(\left|a_{n}-L\right|<\varepsilon\). לעתים נהוג לכתוב \(N_{\varepsilon}\) כדי להדגיש את התלות של \(N\) ב-\(\varepsilon\).

בואו נחבר את החלקים ונצטט במפורש פעם אחת ולתמיד את הגדרת הגבול הפורמלית. הסדרה \(a_{n}\) שואפת לגבול \(L\) אם לכל \(\varepsilon>0\) קיים \(N_{\varepsilon}\) טבעי כך שלכל \(n>N_{\varepsilon}\) מתקיים \(\left|a_{n}-L\right|<\varepsilon\). זו ההגדרה כולה. זו הגדרה קצרה למדי; הקושי, כאמור, טמון כנראה בשלושת הכמתים.

פרט לקושי של הבנת ההגדרה, יש גם את הקושי של עבודה איתה. אז יופי, הבנו איך מגדירים גבול, אבל איך מוכיחים ככה דברים בתכל'ס? התשובה היא שלעתים זה לא פשוט, ושיש כאן טכניקה שצריך להשתלט עליה. בואו נטפל בסדרה הפשוטה \(a_{n}=\frac{1}{n}\) ונראה איך על פי הגדרת הגבול מתקיים \(a_{n}\to0\). הוכחות על פי הגדרה הן מעין "משחק" שאני משחק עם יריב ערמומי כלשהו. היריב נותן לי "אתגר" בדמות \(\varepsilon>0\), אני משיב לאתגר הזה במענה משלי, \(N_{\varepsilon}\), שמבוסס על האתגר שקיבלתי; וכעת מטרת היריב שלי היא לתת \(n>N\) ש"מקלקל", כלומר שעבורו מתקיים \(\left|a_{n}-L\right|\ge\varepsilon\). אם הוא מצא כזה, הפסדתי; ואחרת ניצחתי. המטרה שלי היא להראות שאני תמיד יכול לנצח במשחק הזה.

אם כן, יהא \(\varepsilon>0\) כלשהו. אנו רוצים למצוא \(N\) כך שלכל \(n>N\) מתקיים \(\left|a_{n}-0\right|<\varepsilon\), ובמילים אחרות, שמתקיים \(\left|\frac{1}{n}\right|<\varepsilon\), ובמילים אחרות, שמתקיים \(n>\frac{1}{\varepsilon}\). אם כן, נבחר \(N=\left\lceil \frac{1}{\varepsilon}\right\rceil \) – הסימון הזה מתאר את הערך השלם העליון של \(\frac{1}{\varepsilon}\) – המספר השלם הקטן ביותר שגדול מ-\(\frac{1}{\varepsilon}\). זה בבירור מספר טבעי כי \(\varepsilon\) חיובי. כעת אם \(n>N\) אז בפרט \(n>\frac{1}{\varepsilon}\) ולכן נקבל \(\left|a_{n}-0\right|<\varepsilon\) כנדרש. זה הסגנון של כל הוכחות הגבולות בחדו"א; רק שכאן היה טריוויאלי למצוא את \(N\) הדרוש ולהראות שהוא מקיים את התכונה המבוקשת, ואילו בדרך כלל זה קשה בהרבה.

בואו נדגים עכשיו שימוש תיאורטי יותר של ההגדרה – נוכיח שלא ייתכן שלסדרה יהיה יותר מגבול אחד. האינטואיציה לא קשה – אם יש לסדרה שני גבולות, בואו נעשה "זום" על שניהם, ונתבע שאברי הסדרה יהיו קרובים אליהם עד כדי \(\varepsilon\) זעום ביחס למרחק שבין שני הגבולות. התוצאה תהיה שכמעט כל אברי הסדרה יהיו חייבים להיות גם קרובים מאוד לגבול הראשון וגם קרובים מאוד לגבול השני למרות ששני הגבולות הללו מרוחקים, וזו תהיה סתירה.

פורמלית ההוכחה הולכת כך: אם \(a_{n}\to L_{1}\) וגם \(a_{n}\to L_{2}\), נגדיר \(\varepsilon=\left|\frac{L_{1}-L_{2}}{2}\right|\). על פי הגדרת הגבול קיימים קבועים \(N_{1},N_{2}\) כך שאם \(n>N_{1}\) אז \(\left|a_{n}-L_{1}\right|<\varepsilon\), ובאופן דומה עבור \(N_{2}\). נגדיר \(N=\max\left\{ N_{1},N_{2}\right\} \), וכעת אם \(n>N\) מובטח שמתקיים גם \(\left|a_{n}-L_{1}\right|<\varepsilon\) וגם \(\left|a_{n}-L_{2}\right|<\varepsilon\). כלומר, הנקודה \(a_{n}\) קרובה מאוד הן ל-\(L_{1}\) והן ל-\(L_{2}\), ומזה אני יכול להסיק את המסקנה ש-\(L_{1},L_{2}\) לא יכולים להיות מרוחקים מדי! זהו בדיוק שימוש של אי שוויון המשולש שהזכרתי לעיל: \(\left|L_{1}-L_{2}\right|\le\left|a_{n}-L_{1}\right|+\left|a_{n}-L_{2}\right|<\varepsilon+\varepsilon=\left|L_{1}-L_{2}\right|\). מכאן קיבלתי סתירה: \(\left|L_{1}-L_{2}\right|<\left|L_{1}-L_{2}\right|\), והרי מספר לא יכול להיות קטן מעצמו.

שימו לב שהמשפט הזה מוכיח שלסדרה \(1,0,1,0,\dots\) אין גבול, אם אתם מוכנים להיות קצת פיזיקאים ולהגיד ששיקולי סימטריה מראים שאם 0 היה גבול של הסדרה, גם 1 היה גבול שלה (הוכחה על פי הגדרה שאין לסדרה הזו גבול היא פשוטה ביותר גם היא אבל אלגנטית פחות).

בואו נעבור עכשיו למשהו שמשלב את התיאורטי עם המעשי – נניח ש-\(a_{n},b_{n}\) הן שתי סדרות, וש-\(a_{n}\to A\) ו-\(b_{n}\to B\). בואו נגדיר עכשיו סדרה חדשה על ידי חיבור "איבר איבר" שלהן: \(c_{n}=a_{n}+b_{n}\). טבעי לחשוב שיתקיים \(c_{n}\to A+B\) וזה גם נכון. ההוכחה? ניקח \(\varepsilon>0\). אז יש \(N_{1},N_{2}\) כך שאם \(n>N_{1}\) אז \(\left|a_{n}-A\right|<\frac{\varepsilon}{2}\), ואם \(n>N_{2}\) אז \(\left|b_{n}-B\right|<\frac{\varepsilon}{2}\). ניקח כעת \(N=\max\left\{ N_{1},N_{2}\right\} \) (האם אתם מזהים תבנית בהוכחות שלי?) ולכל \(n>N\) יתקיים \(\left|a_{n}+b_{n}-\left(A+B\right)\right|\le\left|a_{n}-A\right|+\left|b_{n}-B\right|<\left|a_{n}-A\right|<\frac{\varepsilon}{2}+\left|a_{n}-A\right|<\frac{\varepsilon}{2}=\left|a_{n}-A\right|<\varepsilon\).

כמו שאפשר לנחשב, באופן דומה (מסובך קצת יותר) מוכיחים ש-\(a_{n}b_{n}\to AB\), ש-\(a_{n}-b_{n}\to A-B\) וש-\(\frac{a_{n}}{b_{n}}\to\frac{A}{B}\), כשהאחרון נכון רק אם \(B\ne0\). התכונות הללו מכונות אריתמטיקה של גבולות, והן מאוד יעילות ככלי לחישוב גבולות; במקום שיהיה צורך לחשב גבול של סדרה מסובכת, אפשר לחשוב עליה כבנויה מסדרות פשוטות יותר ולטפל בכל אחת בנפרד. למשל, הסדרה \(a_{n}=\frac{2n+2}{n+2}\) אולי נראית בעייתית ממבט ראשון, אבל אפשר לנקוט עבורה בתעלול הבא: ראשית, \(2n+2=2\left(n+1\right)\) ולכן די אם נמצא את הגבול של \(\frac{n+1}{n+2}\) ונכפול את התוצאה ב-2 (כי אפשר לחשוב על \(\frac{2n+2}{n+2}\) כאילו הוא \(\frac{n+1}{n+2}\) כפול הסדרה הקבועה \(b_{n}=2\), שגבולה הוא כמובן 2). נשים לב ש-\(\frac{1}{n+2}\to0\) (ההוכחה דומה להוכחה עבור \(\frac{1}{n}\to0\)) ולכן \(\lim\frac{n+1}{n+2}=\lim\frac{n}{n+2}+0\). לסיום ניתן לכפול מונה ומכנה ב-\(\frac{1}{n}\) ולקבל את הסדרה \(\frac{1}{1+\frac{2}{n}}\). מכיוון ש-\(\frac{2}{n}\to0\) נקבל ש-\(\frac{1}{1+\frac{2}{n}}\to\frac{1}{1+0}=1\), ולכן קיבלנו סך הכל ש-\(\frac{2n+2}{n+2}\to2\).

אם כן, סיימנו לדבר על גבול של סדרות. עם זאת, אני לא יכול להתאפק ורגע לפני שאעבור לדבר על פונקציות אני רוצה להכניס עוד מושג לתמונה – טורים אינסופיים. טור אינסופי הוא פשוט סדרה אינסופית של מחוברים, למשל \(\frac{1}{2}+\frac{1}{4}+\frac{1}{8}+\dots\). אנחנו רוצים לתת משמעות לסכום של אינסוף איברים שכאלו, ומושג הגבול של סדרה נותן לנו משמעות שכזו במתנה. אם יש לנו טור מהצורה \(a_{1}+a_{2}+a_{3}+\dots\) אז מגדירים סכום חלקי בתור \(S_{n}=a_{1}+\dots+a_{n}\) – הסכום החלקי ה-\(n\)-י הוא הסכום (הסופי) של \(n\) האיברים הראשונים בטור. כעת נתבונן בסדרת הסכומים החלקיים \(S_{n}\); אם יש לה גבול, אז מגדירים את סכום הטור \(a_{1}+a_{2}+a_{3}+\dots\) בתור גבול זה. כך למשל לא קשה מדי להראות ש-\(\frac{1}{2}+\frac{1}{4}+\frac{1}{8}+\dots=1\) על פי הגדרה זו. אולי תשאלו איך זה קשור לפוסט במתמטיקה תיכונית; ובכן, בתיכון לומדים על יצור שנקרא סדרה הנדסית – סדרה שכל איבר בה גדול פי \(q\) מקודמו, עבור \(q\) קבוע כלשהו. כלומר, אבריה הם מהצורה \(a_{1},qa_{1},q^{2}a_{1},\dots\) וכן הלאה. אפשר להראות (בצורה פשוטה למדי, אבל לא אעשה זאת כעת) כי סכום \(n\) האיברים הראשונים בסדרה שכזו הוא \(a_{1}\cdot\frac{q^{n-1}-1}{q-1}\). כעת, לא הוכחתי זאת אבל אם \(q\) הוא מספר קטן קטן מ-1 בערכו המוחלט, כלומר \(\left|q\right|<1\), אז מתקיים \(q^{n}\to0\) (שימו לב: כאן \(q\) הוא קבוע ואילו \(n\) מופיע בכלל בחזקה). שימוש בנוסחה זו מראה לנו ש-\(a_{1}\cdot\frac{q^{n-1}-1}{q-1}\to\frac{a_{1}}{1-q}\) וערך זה, \(\frac{a_{1}}{1-q}\), נלמד בתיכון בתור "הסכום של סדרה הנדסית אינסופית", לרוב ללא הוכחה או הסבר. ובכן, כעת יש לכם הסבר; הוכחה מדויקת (כלומר, הוכחה ש-\(q^{n}\to0\)) תחכה לפעם אחרת.

מהן פונקציות? (גרסה מכוונת-חדו"א)

הפוסט הזה הוא חלק מסדרת הפוסטים שמטרתה להציג חדו"א באופן פשוט, ומכיוון שהחדו"א עוסק בפונקציות הכרחי להציג כאן פונקציות – אבל ההצגה הזו רלוונטית לעוד דברים פרט לחדו"א, מהסיבה הפשוטה שפונקציה היא אחד מהמושגים המרכזיים ביותר במתמטיקה כולה, אם לא המושג המרכזי ביותר. בפרט, מי שחשב שמספרים הם המושג המרכזי – ובכן, לא, מצטער, טעיתם; פונקציות הן מושג מרכזי יותר.

פונקציה היא דרך לתאר קשר מסויים בין אובייקטים מסוג א' לאובייקטים מסוג ב', אבל לא סתם קשר כללי (המושג הכללי לתיאור קשרים שכאלו מכונה "יחס"; פונקציה היא סוג של יחס אבל ישנם יחסים אחרים) אלא קשר של סיבה ותוצאה. קשר של קלט ופלט. למה הכוונה? ובכן, בואו נתחיל מלדבר על הפונקציות שעליהן מדברים בדרך כלל בחדו"א – פונקציות שמקבלות מספר ממשי כקלט ומוציאות מספר ממשי כפלט (מהו מספר ממשי? על זה דיברתי בפוסט הקודם).

פונקציות נוהגים לסמן באותיות מכל הסוגים והמינים, בהתאם להקשר שלהן, אבל האות הנפוצה ביותר לתיאור פונקציה היא \(f\), ככל הנראה מהמילה Function. לכתוב \(f\left(x\right)=y\) פירושו לומר "הערך שמתקבל כאשר מפעילים את הפונקציה \(f\) על הקלט \(x\) הוא הפלט \(y\)" אם כותבים משהו בסגנון \(f\left(x\right)=x^{2}\), אומרים בזה "הפונקציה \(f\), כשמפעילים אותה על קלט \(x\), מחזירה את הפלט \(x^{2}\)", כלומר זוהי פונקציה של "העלאה בריבוע". כזו שקושרת בין כל מספר והריבוע שלו. עוד דוגמאות: \(f\left(x\right)=x+3\) מוסיפה 3 לקלט; \(f\left(x\right)=7x^{2}+2x+5\) מעלה את הקלט בריבוע, מכפילה ב-7, מוסיפה לזה את הקלט כפול 2, ולזה מוסיפה 5. אפשר לחשוב על פונקציה שכזו כאילו התיאור שלה מכילה גם "הוראות הכנה": \(7x^{2}+2x+5\) הוא בעצם "מתכון" שמסביר איך אפשר להפיק מתוך \(x\) את הערך של \(f\left(x\right)\). המונח המקובל במתמטיקה למתכונים שכאלו הוא אלגוריתם.

לפעמים גם משתמשים בסימון \(y=x^{2}\) כדי לתאר פונקציה; כאן המשמעות של \(y\) היא "המשתנה שמייצג את הפלט", שמכונה גם "המשתנה הקשור" (כי הוא קשור ל-\(x\); כאשר הערך של \(x\) משתנה, הערך של \(y\) משתנה בהתאם). זה סימון נפוץ בספרי לימוד חדו"א אבל אני לא אוהב אותו ולא אשתמש בו יותר.

הבה ונעבור לפונקציה יותר בעייתית, מבחינות רבות: \(f\left(x\right)=\sqrt{x}\). הפונקציה שבהינתן מספר ממשי, מתאימה לו את השורש שלו. מה הבעיות כאן? ובכן, שלוש בעיות עיקריות: ראשית, לא לכל מספר ממשי יש שורש ממשי; שנית, יש מספרים שיש להם שני שורשים ממשיים; שלישית, גם אם למספר יש שורש לא ברור איך מוצאים אותו.

ובכן, נתחיל מהבעיה הראשונה – למספר \(-1\) אין שורש ממשי, כלומר אין מספר ממשי שכאשר נעלה אותו בריבוע ייתן לנו \(-1\). לעומת זאת, קיימת קבוצת מספרים אשר מרחיבה את הממשיים ובה כן יש שורש למינוס 1 – המספרים המרוכבים. אם כן, הדרך לפתור את הבעיה הזו היא להגיד שהפונקציה לא חייבת להחזיר רק מספרים ממשיים, אלא יכולה גם להחזיר מספרים מרוכבים. במילים אחרות, יש חשיבות לקבוצת האיברים שממנה נלקחים הפלטים של הפונקציה. לקבוצה הזו קוראים טווח. שימו לב: אנחנו לא דורשים שכל ערך שנמצא בטווח בהכרח יוחזר על ידי הפונקציה בעבור קלט כלשהו; אנחנו פשוט מציינים בדרך שנוחה לנו קבוצת ערכים שמובטח לנו שכל פלטי הפונקציה ישתייכו אליה. למשל, עבור \(f\left(x\right)=x^{2}\) אפשר לציין בתור הטווח את קבוצת כל המספרים הממשיים, \(\mathbb{R}\). אך למעשה אפשר גם לדבר על הקבוצה \(\mathbb{R}^{+}\) שמכילה רק את המספרים הממשיים האי-שליליים (החיוביים ואפס), שכן אם מעלים מספר ממשי בריבוע יתקבל מספר אי שלילי. אם כן, מהו הטווח ה"נכון" כאן? אין משמעות לשאלה זו; \(\mathbb{R}\) ו-\(\mathbb{R}^{+}\) שניהם טווחים לגיטימיים של \(f\left(x\right)=x^{2}\). מכיוון שלפעמים כן יש חשיבות לשאלה מיהו הטווח של הפונקציה, נוהגים לומר זאת במפורש כאשר יש בכך צורך.

דרך אחרת לפתור את הבעיה של \(-1\) היא להגיד שהפונקציה \(f\left(x\right)=\sqrt{x}\) פשוט לא מוגדרת על ערכים שליליים של \(x\). כלומר, אנחנו מגבילים מראש את טווח הערכים שהפונקציה יכולה לקבל. עשינו זאת כבר קודם, כאשר הגבלנו את \(f\left(x\right)\) לקבל רק מספרים ממשיים ולא, למשל, ספרי מתמטיקה. אם כן, מה הבעיה להגביל עוד קצת את אוסף הערכים ש-\(f\) יכולה לקבל? לקבוצת הערכים שאותם \(f\) מקבלת קוראים התחום של \(f\) – ובדומה לטווח, לגיטימי לדבר על תחומים שונים ומשונים (כך למשל לפונקציה \(f\left(x\right)=x^{2}\) תחום לגיטימי הוא \(\mathbb{R}\), אבל גם \(\mathbb{R}^{+}\) הוא תחום לגיטימי).

אם כן, פונקציה מאופיינת על ידי שלושה דברים: התחום שלה, הטווח שלה, ומה שהיא עושה – המיפוי שהיא מבצעת בין קלט ופלט. כאשר יש חשיבות לתחום ולטווח נוהגים לכתוב \(f:A\to B\) כדי להגיד "הפונקציה \(f\) היא בעלת תחום \(A\) וטווח \(B\)". כדי לציין את מה שהפונקציה עושה משתמשים בסימון דוגמת \(f\left(x\right)=x^{2}\) שראינו קודם, אבל עוד סימון מקובל הוא \(x\mapsto x^{2}\), שיש לקרוא כ"\(x\) מתמפה אל \(x^{2}\)". אלו בסך הכל שיטות סימון שונות ואין ביניהן הבדל מהותי.

אם כן, את פונקצית השורש אפשר לתאר כך: \(f:\mathbb{R}^{+}\to\mathbb{R}^{+}\), \(x\mapsto\sqrt{x}\). פתרנו את הבעיה הראשונה.

הבעיה השניה היא שאם \(x\) הוא מספר ממשי חיובי (גדול מאפס) יש לו שני שורשים. למשל, ל-4 יש את השורשים \(2\) ו-\(-2\). עם זאת, לפונקציה יכול להיות פלט יחיד. מה עושים? פשוט – בוחרים את אחד מהפלטים האפשריים וחסל. פונקצית השורש מוגדרת ככזו שלוקחת תמיד את השורש החיובי מבין השניים (השורשים של מספר ממשי הם תמיד מהצורה \(a\) ו-\(-a\) עבור \(a\) ממשי חיובי כלשהו). כמובן שמתמטיקאים תמיד ששים להכליל כל דבר ולשבור את החוקים בכל הזדמנות (באמת!) ולכן קיים גם מושג של "פונקציה רב-ערכית" – פונקציה שבה לכל קלט יכולים להיות כמה פלטים – אך זה מושג שמופיע בהקשרים ספציפיים, וניתן לפרמל אותו תוך שימוש במושג ה"רגיל" של פונקציה ובלי באמת לשבור את הכללים, ולכן לא נדבר עליו כעת.

הבעיה השלישית היא אולי המהותית ביותר כאן. מה קורה כאשר מזינים לפונקציה \(f\left(x\right)=\sqrt{x}\) את הערך \(2\)? איך מוצאים את התשובה? יותר חשוב – אפילו אם מצאנו אותה, באיזה מובן מצאנו אותה? האם אנחנו יכולים לכתוב את כולה על נייר בבסיס עשרוני? האם \(\sqrt{2}\) איננה תשובה מספיקה? כמו שאתם רואים, השאלה הזו היא פילוסופית בעיקרה – לא ברור לנו מה נחשב תשובה "לגיטימית". לכן אנחנו מבצעים הפרדה חדה, כשמדברים על פונקציות, בין ההגדרה של הפונקציה ובין החישוב שלה. זה שהצלחנו להגדיר פונקציה במילים או בנוסחה עדיין לא אומר שאנחנו יודעים לחשב אותה – ולמעשה, ידועות פונקציות שניתנות להגדרה במילים, אך הן בלתי ניתנות לחישוב, לפחות לא באופן שבו אנחנו מבינים כיום את המושג "חישוב". בהקשר זה פונקציות כמו \(f\left(x\right)=7x^{2}+2x+5\) הן פשוטות מאוד יחסית – ההגדרה שלהן כבר כוללת אלגוריתם (ואפילו אלגוריתם יעיל) לחישוב שלהן. אבל חשוב להבין שזה בשום פנים ואופן לא מאפיין כללי של כל הפונקציות.

אם כן, הבה וננסה להביא הגדרה קצת יותר מדוייקת של "מהי פונקציה"- ההגדרה האמיתית שאיתה עובדים המתמטיקאים. לשם כך נתחיל מלדבר על התחום והטווח – ניקח שתי קבוצות \(A,B\), ונגדיר פונקציה בתור קבוצה של זוגות מהצורה \(\left(a,b\right)\) כך ש-\(a\in A,b\in B\) (\(a\) שייך ל-\(A\) ו-\(b\) שייך ל-\(B\)), באופן כזה שלכל איבר של \(A\) קיים זוג יחיד שבו הוא מופיע בצד שמאל. במילים אחרות, אם נסתכל על כל הזוגות, כל איבר של \(A\) יופיע מתישהו בצד שמאל של הזוגות, ולא יופיע פעמיים. זה הכל. המשמעות של זוג \(\left(a,b\right)\) כזו היא בדיוק \(f\left(a\right)=b\), כלומר שהפונקציה מעבירה את \(a\) ל-\(b\).

העובדה שכל איבר של \(A\) מופיע בצד שמאל של אחד מהזוגות מבטיח שהפונקציה מוגדרת על כל האיברים של \(A\). העובדה שהוא מופיע רק בזוג אחד מראה שההגדרה הזו היא "בסדר" – שאנחנו לא מתאימים לאותו איבר כמה ערכים אפשריים.

שימו לב שעשינו כאן קפיצה מחשבתית מסויימת – אם אנחנו מתארים פונקציה בתור אוסף של זוגות, אנחנו אפילו לא נזקקים לדיבורים על איזה שהוא כלל שמגדיר את התנהגות הפונקציה; כל אוסף שרירותי לגמרי של זוגות נחשב פונקציה. התוצאה של כך היא (ועכשיו אני גולש למתמטיקה מחוכמת למדי ולא מצפה שכולם יבינו) שבהינתן \(A,B\) אפשר לדבר על דברים כמו "קבוצת כל הפונקציות מ-\(A\) ל-\(B\)" למרות שייתכן שאין לנו שום דרך לתאר איך חלק מהפונקציות הללו נראות.

בואו נראה כמה דוגמאות לפונקציות. הדוגמאות הנוחות ביותר הן של פונקציות \(f:\mathbb{R}\to\mathbb{R}\) כי הן גם נפוצות למדי וקרוב לודאי שכל מי שלמד מתמטיקה בתיכון נתקל בהן. כתבתי שהתחום הוא \(\mathbb{R}\), אבל זו הייתה הכללה גסה – בחלק מהפונקציות התחום ייאלץ להיות קטן יותר, ואני אגיד במפורש מהו במקרה הזה. יותר מכך – במקרה של פונקציות כאלו, אפשר לתאר אותן בצורה גאומטרית נוחה – בתור קו כלשהו במישור. הרעיון הוא שלכל נקודה בציר \(x\), מוצאים ה"גובה"בציר \(y\) שמתאים ל-\(f\left(x\right)\) ומציירים שם נקודה. כלומר, מציירים נקודה בקוארדינטה \(\left(x,f\left(x\right)\right)\). מכיוון שלכל \(x\) מתאים בדיוק \(f\left(x\right)\) יחיד, הרי שאם נמתח קו אנכי שקוארדינטת ה-\(x\) שלו היא \(x\) שלנו, הוא יחתוך את הקו שציירנו בדיוק בנקודה אחת. זו התכונה שמאפיינת ציורים של פונקציות. באופן כללי ציורים כאלו נקראים גרף.

ובכן, נתחיל מ-\(f\left(x\right)=a\) כאשר \(a\in\mathbb{R}\). זוהי פונקציה קבועה – לא משנה מה הקלט, הפלט תמיד זהה ושווה ל-\(a\). זהו אולי הסוג הפשוט ביותר של פונקציות. הגרף של הפונקציה הזו הוא פשוט קו ישר בעל גובה קבוע – \(a\).

לאחר מכן יש את \(f\left(x\right)=x\) – זוהי פונקצית הזהות שבה הקלט שווה לפלט. כאן הגרף הוא קו אלכסוני שעובר דרך ראשית הצירים.

עכשיו אפשר להתחכם – \(f\left(x\right)=ax+b\), כלומר מכפילים את הקלט ב-\(a\) ומוסיפים לו \(b\). פונקציות כאלו מכונות לינאריות (שם מדויק יותר הוא "אפיניות", אבל נעזוב את זה). כאן הגרף הוא קו נטוי שחותך את ציר \(y\) בדיוק בנקודה \(b\) (למה?) והשיפוע של הקו (ה"כמות" שבה הוא נוטה) תלויה ב-\(a\); ככל ש-\(a\) קטן יותר, כך הקו יותר אופקי, עד שב-\(a=0\) הוא הופך להיות אופקי לגמרי (ואז חזרנו למקרה של פונקציה קבועה), וככל ש-\(a\) גדול יותר כך הקו יותר אנכי (שימו לב שלא משנה כמה הוא גדול, לא נגיע לקו אנכי לגמרי; קו אנכי לגמרי אינו מייצג פונקציה). עבור \(a=1\) נקבל קו שהוא בדיוק "באמצע הדרך" – וזה נראה קצת מוזר בהתחשב בכמה ש-1 הוא מספר קטן. ומה קורה כאשר \(a\) שלילי? נסו לצייר בעצמכם ולראות.

עוד פונקציה שכבר דיברנו עליה היא \(f\left(x\right)=x^{2}\). הגרף שלה הוא מה שנקרא פרבולה. כמו קודם, אפשר לעשות כאן מניפולציות של כפל בקבוע וחיבור של \(x\) וכדומה, ולדבר על פונקציה כללית יותר: \(f\left(x\right)=ax^{2}+bx+c\). כל תלמיד תיכון כנראה כבר מכיר (ושונא…) את היצור הזה, אבל גם יודע שהנקודות שבו הוא חותך את ציר ה-\(x\) מתאימות בדיוק לפתרונות של המשוואה הריבועית \(ax^{2}+bx+c=0\). אני רוצה לעצור רגע ולהדגיש עד כמה זה דבר יפה. תשכחו מכל התרגילים הטכניים המזוויעים שקשורים לכך – יש לנו כאן קשר בין נקודות חיתוך בין שני יצורים גאומטריים, ובין פתרונות של משוואה אלגברית. זה לא קשר טריוויאלי או מובן מאליו; והרעיון הזה, של קשר בין גאומטריה ובין אלגברה, נותר אחד מהרעיונות החשובים ביותר גם בענפים מתקדמים מאוד של המתמטיקה (בפרט הגאומטריה האלגברית).

אם ההגדרה של הפונקציות עבדה לנו עד \(x^{2}\), למה לא להמשיך? ואכן, אפשר להגדיר גם \(f\left(x\right)=x^{3}\), \(f\left(x\right)=x^{4}\) וכן הלאה. באופן כללי: \(f\left(x\right)=x^{n}\), עבור \(n\) שהוא מספר טבעי (גדול או שווה לאפס) כלשהו. ואז אפשר לעשות קפיצת מדרגה קדימה ולהגדיר פונקציה שנראית כך: \(f\left(x\right)=a_{n}x^{n}+a_{n-1}x^{n-1}+\dots+a_{2}x^{2}+a_{1}x+a_{0}\). פונקציה כזו נקראת פולינום ("רב-איבר"), והיא הצורה הכללית ביותר של כל הפונקציות שהצגנו עד כה. לפולינומים חשיבות עצומה בשל הפשטות הרבה שלהם, שבאה לידי ביטוי גם בתיאור הפשוט שלהם וגם בעובדה שקל לחשב אותם – הם הדבר הראשון שבו אנו מטפלים במסגרת החדו"א, ובעזרתם אפשר לדעת דברים מעניינים על פונקציות מסובכות בהרבה (למשל, איך לחשב עבורן קירוב).

מה שעד כה לא היה בפונקציות שלנו הוא חילוק. למשל, \(f\left(x\right)=\frac{1}{x}\) טרם הופיע. שימו לב לסיבוך שהפונקציה הזו גוררת – היא לא מוגדרת ב-\(x=0\) ולכן תחום ההגדרה שלה הוא כל שאר המספרים הממשיים. כשמציירים אותה רואים שאכן קרה כאן משהו מוזר – הפונקציה מפוצלת לשני "ענפים"שמתנהגים שונה, האחד מימין לציר ה-\(y\) והשני משמאל לו.

ומה על פונקציה כמו \(f\left(x\right)=\frac{1}{x+1}\)? גם בה יש בעיה, אבל לא ב-\(x=0\) אלא דווקא ב-\(x=-1\). וזה יכול להסתבך: \(f\left(x\right)=\frac{1}{x^{2}-1}\) הוא בעל שתי נקודות בעייתיות שונות – \(x=1\) ו-\(x=-1\). בקיצור, הבעיה עם שברים היא בכל הנקודות שבהן המכנה מתאפס. כשמבקשים למצוא את תחום ההגדרה של פונקציות כאלו, כמו שמאוד אוהבים לעשות בתיכון, המטרה היא למצוא את הנקודות שבהן המכנה מתאפס. שימו לב שזה לא בהכרח קורה בכלל, אפילו אם יש לנו שבר: \(f\left(x\right)=\frac{1}{x^{2}+1}\) מוגדר לכל \(x\) כי המכנה לא יכול להתאפס כלל (במספרים ממשיים).

באופן כללי אם \(p\left(x\right),q\left(x\right)\) הם שני פולינומים, אז אפשר להגדיר פונקציה \(f\left(x\right)=\frac{p\left(x\right)}{q\left(x\right)}\). פונקציה שכזו (שהיא מנה של שני פולינומים) מכונה פונקציה רציונלית. אפשר לחשוב עליה בתור "רמת הסיבוך הבאה" אחרי פולינומים. תחום ההגדרה שלה כולל את כל הנקודות שבהן \(q\left(x\right)\) שונה מאפס; מכיוון שלפולינום מדרגה \(n\) יש לכל היותר \(n\) ערכים שמאפסים אותו (זהו משפט לא מסובך במיוחד, אך גם כזה שלא רואים בתיכון) הפונקציה מוגדרת "כמעט בכל מקום".

בדיקה קצרה מראה שסכום של פונקציות רציונלית הוא בעצמו פונקציה רציונלית, וגם מכפלה או חלוקה שלהן; לכן פונקציות רציונליות מתארות את כל הפונקציות שהחישוב שלהן דורש רק הפעלה של מספר סופי של פעולות החשבון הבסיסיות. מכאן שפונקציות אחרות שנתאר יהיו אינהרנטית מסובכות יותר וכבר לא יהיה אפשר לתאר אותן בצורה פשוטה ויפה; למעשה, חלק ממה שעושים בחדו"א הוא לפתח כלים שמאפשרים חישוב יעיל של הפונקציות הללו.

יותר מכך, עבור פונקציות נוספות אין ממש טעם להציג אותן ותו לא; צריך לתת מוטיבציה כלשהי לקיומן. עשיתי זאת לא מזמן עבור הפונקציות העיקריות שאציג כעת, אם כי יש עוד הרבה דרכים שונות לתת מוטיבציה לדיבורים על הפונקציות הללו. אני מדבר על פונקציות הסינוס והקוסינוס \(\sin\left(x\right),\cos\left(x\right)\) (והפונקציות שמתוארת באמצעותם, דוגמת \(\tan\left(x\right)=\frac{\sin\left(x\right)}{\cos\left(x\right)}\), על הפונקציה המעריכית \(e^{x}\) והפונקציה ההפוכה לה, הלוגריתם \(\ln x\). יש עוד מחלקה של פונקציות פופולריות – הפונקציות ההיפרבוליות – אך נעזוב אותן בשקט כי הן לא מופיעות בתיכון, וגם במתמטיקה מתקדמת יותר הן מופיעות רק בהקשרים מאוד ספציפיים (בעוד שהפונקציות הטריגונומטריות – סינוס וקוסינוס – והפונקציה המעריכית והלוגריתמית מופיעות כל הזמן כמעט). כאמור, אין לי תיאור פשוט לאף אחת מהפונקציות הללו כך שלא אתאר אותן עכשיו בכלל; למעשה, לא רק שאפשר להשתמש בחדו"א כדי לתת דרכים טובות לחשב את הפונקציות הללו, אלא אפשר להשתמש בחדו"א כדי לספק להן הגדרות משביעות רצון. זה בדיוק מה שעשיתי בפוסטים שעסקו בפונקציות הטריגונומטריות ובפונקציה המעריכית, שבהם הראיתי איך ניתן להשתמש בנגזרת כדי לתאר את הפונקציות הטריגונומטריות והפונקציה המעריכית; תיאור טוב של הלוגריתם (שהוא מאוד מקובל בספרים בנושא) הוא באמצעות האינטגרל.

אם כן, דיברתי כאן על קצה המזלג על פונקציות וסיפרתי קצת על הפונקציות הממשיות הבסיסיות שבהן עוסקים בחדו"א. הקרקע כעת הוכנה ואפשר לעבור ולדבר במפורש על החדו"א עצמה; ואתחיל מהמושג הבסיסי שבו היא עוסקת, מושג הגבול.

מהם המספרים הממשיים?

בהמשך לפוסט הקודם, אני מתחיל כעת בסדרת הפוסטים שתנסה לתאר בצורה פשוטה את יסודות החשבון הדיפרנציאלי והאינטגרלי ברמה שתתאים גם לתלמידי תיכון, ואנחנו חייבים להתחיל מלתאר את ה"עולם" שבו פועל החשבון הזה – עולם שכוכביו הראשיים הם מה שנקרא "המספרים הממשיים" (Real Numbers). כמו שקורה בדרך כלל במתמטיקה, קיימות הכללות רבות של החדו"א לעולמות אחרים, שבהם אין מספרים ממשיים (או שיש הרחבות של המספרים הממשיים – דוגמת המספרים המרוכבים, למי שמכיר) והתוצאה היא תיאוריות יפות ומרתקות; אבל כדי להבין אותן רצוי להבין קודם את המקרה הפשוט של המספרים הממשיים (ואנסה להסביר בהמשך באיזה מובן זהו אכן "המקרה הפשוט ביותר"). הפוסט יהיה ארוך למדי כי אני לא חושב שנכון לפצל אותו לכמה חלקים; אני ממליץ לכם לקחת הפסקה מתישהו.

במושג "מספרים ממשיים" נתקלים כבר בתיכון, ולכן יש לי שאלה לקוראים, בפרט לאלו שחסרים השכלה מתמטית אוניברסיטאית – האם תוכלו להגיד לי מהם המספרים הממשיים? בספרי לימוד תיכוניים לרוב מופיעה הגדרה בסגנון "כל המספרים שעל ציר המספרים" שלא אומרת לנו יותר מדי – מהו ציר המספרים ואיך מחליטים מה מופיע בו בכלל? עם זאת, ההגדרה הזו גם תופסת באופן מסויים תכונה חשובה של המספרים הממשיים – הרצף שלהם, העובדה שאנחנו תופסים את ציר המספרים כולו באמצעותם. גם לזה נחזור מאוחר יותר.

לעת עתה בואו נעשה חזרה מהירה על מהם מספרים בכלל – בראשית ימי הבלוג כתבתי סדרת פוסטים בנושא למעוניינים, וכעת אקצר יותר. המשחק מתחיל עם המספרים \(1,2,3,\dots\) ודומיהם המוכרים לנו כבר מחיי היום יום – אלו הם המספרים הטבעיים. בשלב הבא אפשר להוסיף למשחק את אפס. בתרבות שלנו, שבה רווח המנהג לקרוא לאנשים "אפס", המושג נראה לנו טבעי לגמרי – אבל בעבר הוא לחלוטין לא היה מובן מאליו ואפשר לכתוב פוסטים היסטוריים מרתקים (אפילו ספרים) בעניין זה. התכונה שמעניינת אותנו באפס היא שהוא איבר נייטרלי ביחס לחיבור – כאשר מוסיפים אותו למספר, נאמר \(n\), מקבלים שוב \(n\). השלב הבא הוא הוספת מספרים מוזרים עוד יותר – המספרים השליליים. מינוס \(n\) הוא מספר שהתכונה המאפיינת אותו (אפילו המגדירה אותו, במובן מסויים) הוא שכאשר מחברים לו \(n\) מקבלים אפס. גם המספרים השליליים השתרשו בחיי היום יום שלנו זה לא מכבר – יש לנו חוב בבנק, שהוא יתרה של מינוס כך וכך שקלים; יש לנו קומות שמתחת לקומת הכניסה לבניין, שהן קומות מינוס משהו. בדומה, ים המלח נמצא בגובה מינוס 421 מטר ביחס לפני הים.

משיש לנו את כל המספרים הללו, אנחנו מציירים את "ציר המספרים"- קו ישר שבמרכזו 0, ועליו מסומנות נקודות במרווחים שווים. שתי הנקודות הראשונות סביב 0 הן 1 ומינוס 1 (הנוהג הוא ש-1 יופיע מימין ל-0 ומינוס 1 משמאל). שתי הנקודות הבאות הן 2 ומינוס 2, וכן הלאה. קו הוא יצור "רציף"- ציירנו אותו במשיכת עט בודדת, בלי להרים את העט מהדף. לכן אינטואיטיבית ניתן לחשוב שכל נקודה על ציר המספרים – לא רק אלו שסימנו במיוחד – מסמנת מספר, ולכל המספרים שמתקבלים כך לקרוא "מספרים ממשיים". למי שזה מפריע לו (בצדק…) אפשר לנקוט בגישה קצת יותר פורמלית – להגיד שנקודה כלשהי על חלקו הימני של הציר מסמנת מספר שמתאים לאורך של הקטע שבין נקודה זו ובין 0 (ונקודה על חלקו השמאלי מתאימה למינוס האורך של קטע זה). אם אנחנו יוצאים מנקודת הנחה שאורכים של קווים הם משהו "אמיתי", ושנכון להגדיר מספרים על פיהם, האינטואיציה שלנו מפוייסת מאוד; כמובן שזו עדיין לא הגדרה מתמטית-פורמלית, אבל זו ההגדרה שאליה ספרי הלימוד מכוונים – והיא לא כל כך גרועה, בהתחשב בכמה שהסיפור האמיתי מסובך יותר.

ציר המספרים

כעת אנחנו מרחיבים את המספרים שלנו על ידי הכנסת שברים לתמונה. נניח שניקח בציר המספרים את הקטע שבין 0 ל-1, ונשים בו נקודה חדשה בדיוק באמצע – איזה מספר הנקודה הזו תייצג? אפשר לחשוב על זה כך – היחס שבין מרחק הנקודה הזו מאפס, לבין מרחק הנקודה 1 מאפס, הוא בדיוק 1 ל-2; כלומר, המרחק של הנקודה הזו מאפס נכנס בדיוק פעמיים במרחק של 1 מאפס. כותבים את זה \(\frac{1}{2}\) וקוראים לזה "חצי", או "1 חלקי 2".

באופן דומה אפשר לסמן שתי נקודות במרווחים שווים בקטע שבין 0 ו-1, ולקבל את \(\frac{1}{3}\) ו-\(\frac{2}{3}\) (למה?). ובאופן כללי אפשר לסמן \(n\) נקודות במרווחים שווים ולקבל את המספרים \(\frac{1}{n},\frac{2}{n},\dots,\frac{n-1}{n}\). ולא חייבים להסתפק בקטע שבין 0 ו-1. למשל, אם נסמן נקודה בדיוק באמצע הדרך בין 1 ו-2, נקבל את \(\frac{3}{2}\); הרעיון כאן הוא שאם נחבר קטע זה לעצמו פעמיים, נקבל בדיוק את 3. בצורה הזו קיבלנו את כל השברים מהצורה \(\frac{a}{b}\) כאשר \(a,b\) שניהם מספרים שלמים (אין בעיה עם זה שהם יהיו שליליים), פרט למקרה אחד בעייתי – אין משמעות לכל המשחק הזה אם \(b=0\). למשל, \(\frac{1}{0}\) היה צריך להתפרשן אצלנו בתור "אורך הקטע שכאשר מסתכלים על 0 עותקים סמוכים שלו, מקבלים את 1", אבל לא קיים כזה קטע – 0 עותקים של קטע כלשהו הם 0, ולעולם לא יהיו 1. אם כן, מדוע לא לומר ש-\(\frac{0}{0}=0\), משהו שאוסרים עליו במפורש בתיכון? ובכן, כי הגדרה כזו תשבור את חוקי החשבון שאנחנו מכירים. אם אנחנו רוצים לחבר את \(\frac{a}{b},\frac{x}{y}\) אנחנו משתמשים במה שנקרא "מכנה משותף" – את \(\frac{a}{b}\) אנו כופלים ומחלקים ב-\(y\) ומקבלים \(\frac{ay}{by}\). ל-\(\frac{x}{y}\) אנחנו מעניקים טיפול דומה ומקבלים את \(\frac{bx}{by}\), ועכשיו יש לנו מכנה משותף לשני המספרים ואפשר לחבר אותם "כרגיל"ולקבל \(\frac{ay+bx}{by}\). אם ננסה להפעיל את זה על \(\frac{0}{0}\) יקרה הדבר המוזר הבא: \(\frac{a}{b}=\frac{a}{b}+0=\frac{a}{b}+\frac{0}{0}=\frac{a\cdot0+b\cdot0}{b\cdot0}=\frac{0+0}{0}=\frac{0}{0}=0\). כלומר, קיבלנו שכל מספר שווה לאפס – ואנחנו לא רוצים שדבר כזה יקרה. לכן ההגדרה של \(\frac{0}{0}=0\) היא ממש הרסנית אם אנחנו לא משנים את כללי החשבון שלנו בהתאם – וכללי החשבון שלנו יקרים לנו בהרבה מאשר האפשרות לתת שם אחר לאפס. אגב, שימו לב שהשתמשתי כאן בכך ש-\(a\cdot0=0\) לכל \(a\); האם אתם יכולים להוכיח זאת ממש, על פי כללי החשבון? (אפשר, וההוכחה אפילו אינה כה מסובכת אף כי יכול להיות בעייתי לגלות אותה בלי נסיון קודם בתעלולים כאלו).

נראה ששברים מסיימים לנו את העניין. יש להם את התכונה היפה שבין כל שני שברים קיים עוד שבר (להבדיל, בין המספרים השלמים 1 ו-2 לא קיים עוד מספר טבעי) – למשל, אפשר לקחת את הקו שמחבר את שתי הנקודות על ציר המספרים שמתאימות השברים ואז להסתכל באמצע שלו – גם נקודה זו תהיה שבר. הדעת נותנת שכל נקודה על ציר המספרים תוכל להתקבל באופן שכזה. אלא שזה לחלוטין לא נכון. כאן אני קופץ לחומר שלא בהכרח מראים בבית הספר – לא כל המספרים על ציר המספרים הם שברים. למעשה, רובם לא. עבורי, ההבנה של הדבר הזה (שלא הבנתי כלל בתיכון, וגם לא נתתי עליו את דעתי כלל) הייתה אחת מנקודות הציון החשובות בדרך שלי להתאהבות במתמטיקה.

אם כן, אילו מספרים אינם שברים? למשל, \(\sqrt{2}\) אינו שבר. אם נצייר ריבוע שאורך צלעו הוא 1, אז אורך אלכסונו יהיה \(\sqrt{2}\) (ממשפט פיתגורס), כך שבבירור \(\sqrt{2}\) הוא אורכו של קטע "חוקי" כלשהו, ולכן – על פי ההגדרה שלנו – מספר ממשי. אלא שכל נסיון לכתוב את \(\sqrt{2}\) כשבר יוביל לסתירה. הראיתי בעבר את ההוכחה לכך, והנה תקציר: אם \(\sqrt{2}=\frac{a}{b}\) אז \(2=\frac{a^{2}}{b^{2}}\), כלומר \(a^{2}=2b^{2}\), ומכיוון שהריבוע של \(a\) זוגי גם הוא זוגי, כלומר \(a=2c\), כלומר \(4c^{2}=2b^{2}\), כלומר \(2c^{2}=b^{2}\), ומכיוון שהריבוע של \(b\) זוגי, גם \(b\) זוגי. מכאן שגם \(a\) וגם \(b\) זוגיים. אבל אם כך היה הדבר, אפשר היה לחלק את שניהם ב-2 ולקבל מ-\(\frac{a}{b}\) שבר אחר (שבו המונה והמכנה קטנים יותר) וגם הוא שווה ל-\(\sqrt{2}\), וגם בו המונה והמכנה שניהם מתחלקים ב-2. אבל אי אפשר לחזור על התעלול הזה לנצח כי בכל פעם המונה והמכנה קטנים (ושניהם שלמים חיוביים) ולכן בסוף בהכרח נגיע לסתירה (כלומר, ניווכח שלא ייתכן שגם \(a\) וגם \(b\) זוגיים). ההוכחה הזו היא דוגמה מובהקת להוכחה מתמטית "אמיתית" – יש בה הנחה בשלילה, יש בה תעלול רעיוני מחוכם למדי של "נצא ממצב מסויים ונגיע למצב דומה לו, אבל עם מספרים קטנים יותר – וזה תהליך שאי אפשר לחזור עליו לנצח" (רעיון זה נפוץ מאוד במתמטיקה), וכן – יש בו גם טיפה טכניקה.

באופן דומה ומחוכם קצת יותר אפשר להראות שגם \(\sqrt{n}\) הוא לא שבר עבור כל \(n\) שאיננו ריבוע של מספר טבעי. אבל הסיפור לא נגמר במספרים כאלו בלבד. למשל, גם השורש השלישי של 2 איננו שבר, והרביעי וכן הלאה. והמצב מסובך עוד יותר: שורש של \(n\) הוא בסך הכל פתרון של המשוואה \(x^{2}=n\), ומה שאמרנו כאן הוא שאין למשוואה הזו פתרון שהוא שבר. אבל יש עוד המון משוואות בעולם, למשל \(x^{2}+x-1=0\), וגם למשוואה זו אין פתרון שהוא שבר, אבל הוא כן נמצא על ציר המספרים הממשיים (איך רואים דבר כזה? ובכן, משוואה כזו מגדירה את מה שנקרא פרבולה, שהיא עקומה בעלת צורה מסויימת. אם מציירים אותה במישור רואים שהיא חותכת את ציר המספרים בשתי נקודות – אלו הם ה"פתרונות" של המשוואה). אלו מכם שנוסחת השורשים עוד לא נמאסה עליהם לחלוטין יוכלו לראות שפתרון למשוואה הוא \(\frac{-1+\sqrt{5}}{2}\) – כלומר משהו שמערבב שברים עם שורשים. וגם כאן הסיפור עוד לא נגמר ואפשר לדבר על יצורים מסובכים עוד יותר. הבה וניקח למשל מעגל שאורך קוטרו הוא בדיוק 1 – מהו היקפו? אם מקבלים זה שההיקף גם הוא מספר ממשי, אפשר להראות (וזה כבר קצת מאתגר) שהיקף זה איננו שבר, ואפשר גם להראות (וזה כבר ממש מאתגר) שהיקף זה אפילו איננו פתרון של משוואה (פורמלית – משוואה שמקדמיה הם בעצמם שברים). להיקף זה יש שם שבו הוא מוכר קצת יותר טוב: \(\pi\).

התגלית הזו, שקיימים מספרים שאינם שברים, מיוחסת לפיתגוראים (פיתגורס ותלמידיו – לא ברור מי גילה מה). גרסא אחת מדברת על \(\sqrt{2}\) שמגיע מריבוע; גרסא אחרת מדברת על \(\sqrt{5}\) שמופיע בפנטגרם, ובכל מקרה ההוכחה היא גאומטרית באופיה ולא זהה להוכחה שתיארתי למעלה. האגדה מספרת שאחד מתלמידיו של פיתגורס – היפאסוס – גילה את התגלית הזו לעולם הרחב והוטבע בשל כך על ידי הפיתגוראים; הפיתגוראים ביססו את תפיסת העולם שלהם על כך שכל מספר ניתן להצגה כיחס בין שני שלמים, והתגלית הזו ערערה אותם. כך נוצרה הבדלה בין מספרים שניתן להביע בתור יחס כזה, שנקראו מספרים רציונליים (כאשר רציו כאן פירושו ככל הנראה יחס והשם ככל הנראה אינו מרמז שהמספרים הללו "הגיוניים" יותר מאחרים – אם כי קראתי גם טענות שטוענות אחרת), וכאלו שלא – "אי רציונליים". הממשיים הם המספרים הרציונליים והאי רציונליים יחדיו, אבל זוהי כמובן אמירה ריקה כי לא ברור אילו מספרים אי רציונליים קיימים בכלל. אם אתם תוהים כעת מדוע הממשיים נקראים "ממשיים"- ובכן, ככל הנראה כדי להנגיד אותם למספרים הדמיוניים (למי שלא מכיר – יש דבר כזה), ואם זו אכן הסיבה מדובר בתקלה היסטורית מצערת שכבר מאוחר מדי לשנות.

בתקופת היוונים, מספרים נתפסו כאורכים של קטעים, כך שלאפס ולמספרים שליליים לא הייתה משמעות רבה. עם השנים והתהפוכות שהמתמטיקה עברה, גם אופן ההתייחסות למספרים השתנה, כשלמהפך החשוב ביותר אחראית שיטת הספרה שהשתרשה בסופו של דבר – ייצוג מספרים באמצעות ספרות, כאשר הערך שאותו כל ספרה מייצגת תלוי במיקום שלה בייצוג. למשל, 21 פירושו "עשרים ואחד" ואילו 12 פירושו "שניים-עשר" למרות ששני הייצוגים הללו מכילים בדיוק את אותן הספרות. ההבדל הוא ששתיים מייצג את ספרת העשרות בייצוג הראשון, ואת ספרת האחדות בייצוג השני. כיום הדברים הללו די מובנים מאליהם עבורנו, שכן הורגלנו אליהם; אבל בשעתו הייתה זו דרך הצגה חדשנית ורבת עוצמה, שפישטה עד מאוד את היכולת לבצע חישובים אריתמטיים (שעד כה נעשו במהירות באמצעות כלי עזר דוגמת חשבוניה – בציור רואים תחרות של ממש שנערכה בין משתמש חשבוניה ו"אלגוריסט" שהשתמש באריתמטיקה) בעוד ששיטת הייצוג שהייתה רווחת עד אז, באמצעות ספרות רומיות (שבהן אין את הרעיון של קביעת ערך על פי מיקום – \(\mbox{I}\) הוא תמיד המספר 1, אם כי לעתים מופע שלו במספר אומר שצריך לחסר אותו ולא לחבר אותו) הייתה מסורבלת ולא צלחה לכאלו מטלות.

תחרות חישוב בין מפעיל חשבוניה ואריתמטיקאי

ראוי להעיר כאן שהרעיון של ספרות שערכן נקבע לפי מקומן היה ידוע כבר לבבלים ולבני המאיה (הם השתמשו בבסיסי הספירה 60 ו-20 בהתאמה, בעוד שאצלנו משתמשים בבסיס 10; מן הסתם בבסיסים אלו יש המון "ספרות" ולכן כל ספרה יוצגה באופן דומה לשיטה הרומית), אך השיטה "שלנו" הומצאה בידי ההודים אי שם במאה ה-6 לספירה, ורק במאה ה-9 לספירה התגלתה למערב בזכות המתמטיקאי הפרסי אל-ח'ואריזמי – אולי חשוב המתמטיקאים של תקופת ימי הביניים, שבה המתמטיקה האירופאית (שכה פרחה בימי היוונים העתיקים) הייתה מצויה בעידן חושך משלה, בעוד התרבות המוסלמית היא זו שקידמה את המתמטיקה בימים הללו.

בשיטה העשרונית הספרה הראשונה מייצגת אחדות, השנייה מייצגת עשרות וכן הלאה – אבל איך מייצגים שברים? כותבים נקודה בתוך המספר, ואז הספרה הראשונה שמימין לנקודה מייצגת עשיריות, הספרה השניה מייצגת מאיות וכדומה. כך למשל \(0.123\) מייצג את המספר \(\frac{1}{10}+\frac{2}{100}+\frac{3}{1000}=\frac{123}{1000}\). אנחנו לומדים בבית הספר איך לכתוב שברים בצורה עשרונית באמצעות חילוק ארוך עם שארית; ומהר מאוד מגלים שיש מספרים שבהם העסק לא נגמר ויש להם אינסוף ספרות אחרי הנקודה. כך למשל \(\frac{1}{3}=0.333\dots\) (שלוש הנקודות אומרות "כאן המספר לא נגמר אלא ממשיך וממשיך"). תזכורת קצרה לגבי האופן שבו זה קורה עבור \(\frac{1}{3}\): אנחנו לא יכולים לחלק את 1 ב-3 כי 1 קטן מדי, ולכן אנו כותבים 0 (1 נכנס ב-3 0 פעמים) ונותרים עם שארית 1. כעת אנו מכפילים את השארית הזו ב-10 ומקבלים 10; וכעת אפשר לחלק את זה ב-3 ומקבלים 3 (שאותו אנו כותבים מייד אחרי הנקודה) ושארית 1. גם את השארית הזו כופלים שוב ב-10 ומחלקים ב-3, ושוב מקבלים תוצאה 3 ושארית 1, וכן הלאה וכן הלאה; בבירור אפשר להמשיך עם תהליך החלוקה הזה לנצח ובכל פעם נקבל תוצאה 3 ושארית 1. אנחנו "תקועים בלולאה אינסופית".

אפשר להראות שכל מספר רציונלי שננסה לכתוב כשבר עשרוני יתנהג כך – או שהכתיבה שלו תהיה סופית (כמו \(\frac{123}{1000}\) מיודענו) ואז אפשר לחשוב עליו כאילו מרגע מסויים מופיעים בו רק אפסים (כלומר, \(0.123=0.123000\dots\)), או שהכתיבה שלו תהיה אינסופית, אך מחזורית – תהיה קבוצת ספרות כלשהי שפשוט תחזור על עצמה מרגע מסויים ועד אינסוף. אבל כדאי לשים לב שאפשר לכתוב מספרים עשרוניים אינסופיים שאינם מחזוריים באופן הזה, למשל \(0.101100111000\dots\) שבו בהתחלה מופיע \(10\), אחר כך \(1100\) ובאופן כללי – מופיעה סדרה באורך \(n\) של אחדות, אז סדרה באורך \(n\) של אפסים, אז סדרה באורך \(n+1\) של אחדות, וכן הלאה. אתם מוזמנים להציע עוד מספרים לא מחזוריים משל עצמכם (ויש דברים יצירתיים שאפשר להציע למשל, מספר שבו יש 0 אחרי הנקודה למעט בספרות שהמיקום שלהן הוא ראשוני, ושם יש 1), אבל אני מניח שכבר הבנתם את הרעיון – מצאנו דרך תיאור כלשהי למספרים שאינם רציונליים. הגישה של המתמטיקאים במשך שנים רבות הייתה לחשוב על כל סדרה כזו כמספר לגיטימי; ולמעשה, זה המצב גם כיום, אך כבר איננו בוחרים להגדיר את המספרים הממשיים באופן זה, בגלל קשיים טכניים שהדבר יוצר (איך מחברים שני מספרים אינסופיים? הרי החיבור צריך להתחיל מהקצה הימני!).

רק לקראת סוף המאה ה-19, הציעו שני מתמטיקאים דרכים מדוייקות "לבנות" את המספרים הממשיים, ובשני המקרים הבנייה התבססה על המספרים הרציונליים. שניהם הושפעו מהרוח שנשבה במאה ה-19 וכבר תיארתי בפוסט הקודם, של הגברת הדיוק (מילה אהובה על מתמטיקאים בהקשר הזה היא "ריגורוזיות") של המתמטיקה. ריכארד דדקינד המציא את הבניה שלו כבר ב-1858 אך לא טרח לפרסם אותה שכן לא חשב שיש בה עניין גדול לקהילה המתמטית. רק כאשר גאורג קנטור פרסם ב-1872 את הגישה שלו דדקינד חש שגם לו יש מה להציע ופרסם את רעיונותיו. שתי הבניות הן שונות באופיין ולכל אחת הכללות משל עצמה; אציג כאן את זו של דדקינד שכן זו של קנטור מצריכה מושגים שכדי להבין אותם צריך להכיר קצת חדו"א קודם כל. עם זאת, אני רוצה לחכות מעט עם הבניה ולפני כן לשאול את עצמנו – מה בעצם אנחנו רוצים להשיג?

בשורה התחתונה אנחנו רוצים לעשות חדו"א. עוד לא אמרתי מה זה חדו"א, כך שלא ברור מה בעצם אנחנו צריכים, אבל אני יכול לרמוז – במערכת המספרים שבה נעבוד, יהיה הכרחי עבורנו שנוכל לבצע חיבור, חיסור, כפל וחילוק. את זה אי אפשר לעשות רק עם המספרים השלמים, למשל (אי אפשר לחלק את 1 ב-2 ולקבל מספר שלם) אבל בהחלט אפשר לעשות עם הרציונליים. לקבוצה שבה אפשר לבצע את פעולות החשבון הללו והן מתנהגות "כפי שאנחנו מצפים מהן" (כלומר: מקיימות את חוקי החילוף, הקיבוץ והפילוג, 0 הוא נייטרלי לחיבור ו-1 הוא נייטרלי לכפל) קוראים שדה. אם כן, אנו רוצים לעבוד בתוך שדה, לכל הפחות. אפשר היה להגיד כעת שנזדקק גם להוצאות שורש, אבל זה לא כל כך נכון – לא באמת נזדקק להוצאות שורש. אם כן, למה הכרחי למי שעוסק בחדו"א להגדיל את המספרים הרציונליים? זו אינה שאלה טריוויאלית כלל. כדאי להעיר כאן שהרבה דברים יפים במתמטיקה נעשים תוך התמקדות במספרים הרציונליים ובשדות שמקבלים מהם אחרי שמוסיפים להם מספר מוגבל של שורשים (למשל, מסתכלים על שדה כל המספרים מהצורה \(a+b\sqrt{2}\) כאשר \(a,b\) רציונליים). זהו, למשל, התחום שבו עוסקת תורת המספרים האלגברית (שהיא תחום מתקדם יותר במתמטיקה מאשר החדו"א שעליו אדבר). אם כן, הממשיים אינם הכרחיים לצורך עיסוק "כללי" במתמטיקה. אבל בחדו"א מתבססים לעתים קרובות על תכונה של הממשיים שמכונה "אקסיומת החסם העליון". כדי להסביר מדוע מסתמכים עליה ובאיזה מקומות הצורך הזה צץ, צריך להעמיק קצת בחדו"א ולא אוכל לעשות זאת כרגע; בינתיים אתאר את האקסיומה עצמה (לא להתבלבל – "אקסיומה" במובן המתמטי המודרני אינה משהו שהוא מובן מאליו לכל; זהו פשוט דרך להגיד "תכונה שאנו מצפים שתתקיים באובייקט שעליו אנחנו מדברים, ואם הוא לא מקיים אותה אין משחק").

תכונה אחת של המספרים שטרם דיברתי עליה כלל היא קיום סדר עבורם. ניתן להשוות כל שני איברים ולהגיד מי מהם גדול יותר. 1 גדול מ-0 ובוודאי שגדול ממינוס 1, אבל קטן מ-2. מסמנים \(a\le b\) אם \(a\) קטן או שווה ל-\(b\). גם ברציונליים נשמרת תכונת הסדר הזו, ואנו רוצים שגם בממשיים היא תתקיים. כעת, אם נתונה קבוצה כלשהי של מספרים, אז כל מספר שגדול מכל המספרים בקבוצה מכונה "חסם מלמעלה" (או "חסם מלעיל" כמו שאוהבים לומר לפעמים) של הקבוצה. למשל, 0 הוא חסם מלמעלה של קבוצת כל השליליים; לקבוצת כל החיוביים אין חסם מלמעלה; קבוצת "כל השנים שבהן מכבי ת"א זכתה באליפות" חסומה מלמעלה על ידי, נניח, 3,000; אבל גם על ידי 2,100 וכדומה. אם כן, לקבוצה \(A\) יכולים להיות הרבה מאוד חסמים, ואנחנו יכולים לדבר על (זהירות, הגענו לקטע מבלבל) – החסם מלמעלה הקטן ביותר של הקבוצה \(A\). החסם הזה (המינימום של קבוצת כל החסמים מלמעלה של \(A\)) נקרא החסם העליון של \(A\), ובעברית – הסופרמום (קרי: סופרימום) של \(A\), ומסמנים אותו כ-\(\sup A\).

וכעת לפאנץ', עוד לפני שתספיקו לשאול את השאלה. אם אנחנו מגבילים את העולם שלנו למספרים רציונליים, ישנן קבוצות שחסומות מלמעלה אך אין להן חסם עליון. והנה הדוגמה: קבוצת כל המספרים הרציונליים הקטנים מ-\(\sqrt{2}\), ובכתיב מתמטי: \(A=\left\{ a\in\mathbb{Q}|a<\sqrt{2}\right\} \). זהו סימון סטנדרטי אך קשה למי שאינו מכיר – האות \(\mathbb{Q}\), מהמילה Quotient, מייצגת את הרציונליים; \(\in\) מייצג "שייך ל-", והקבוצה מתוארת באמצעות שני חלקים. צריך לקרוא אותה משמאל לימין ואז יוצא משהו בסגנון "כל המספרים הרציונליים אשר מקיימים (ופה מגיע החלק השני) שהם קטנים מ-\(\sqrt{2}\)). קרוב לודאי שחלק מכם יתרגזו כעת, ובצדק, על ההגדרה הטיפשית הזו – אמרתי ש-\(\sqrt{2}\) איננו רציונלי אבל עכשיו אני מתעקש לדבר רק על רציונליים, ולכן "אסור" לי בכלל לאזכר את \(\sqrt{2}\)! אין בעיה, אני אומר, אז נשנה את הגדרת \(A\) באופן הבא: \(A=\left\{ a\in\mathbb{Q}|a^{2}<2\right\} \). עם הגדרה זו אין בעיה של ממש והיא תופסת בדיוק את אותם האיברים פרט למספרים שליליים קטנים מספיק, שממילא לא מעניינים אותנו.

למה אין ל-\(A\) חסם עליון? הבה וניקח מספר רציונלי חיובי כלשהו, \(a>0\). אז אנחנו יודעים ש-\(a^{2}\ne2\). נניח לרגע ש-\(a^{2}<2\), אז אני טוען שקיים \(b\) רציונלי כך ש-\(a<b\) ועם זאת \(b^{2}<2\). והדרך שבה אני הולך להוכיח זאת כבר תהיה דרך חדו"אית למהדרין – זו ההזדמנות הראשונה שלנו לראות את סגנון ההוכחות שהולך בחדו"א.

אני אגדיר את \(b\) להיות המספר הבא: \(b=a+\delta\), כאשר \(\delta\) (האות היוונית דלתא) הוא מספר רציונלי שאני טרם מתחייב על גודלו. בינתיים נחשוב עליו כעל משתנה, ועוד מעט נחליט מה הוא יהיה על פי מה שיהיה לנו נוח; לעת עתה אני רק דורש ש-\(\delta>0\) ולכן אכן מתקיים ש-\(b>a\); וש-\(\delta\) רציונלי ולכן גם \(b\) רציונלי (סכום של שני רציונליים הוא רציונלי). כעת, אני רוצה שיתקיים \(b^{2}<2\), כלומר שיתקיים \(\left(a+\delta\right)^{2}<2\). לאחר פתיחת סוגריים אקבל שאני רוצה שיתקיים \(a^{2}+\delta\left(2a+\delta\right)<2\).

עכשיו אשתמש בתעלול כדי להיפטר מה-\(\delta\) שבסוגריים. עוד לא בחרתי את ערכו של \(\delta\) אבל אתם אולי מרגישים כבר כעת שאני רוצה שהוא יהיה קטן. אם כן, אין לי בעיה להוסיף עוד הנחה למשחק: \(\delta<a\). מכאן ש-\(\delta\left(2a+\delta\right)<\delta\cdot3a\), ולכן אם אראה ש-\(a^{2}+\delta\cdot3a<2\) מתקיים עבור \(\delta\) כלשהו, הראיתי גם ש-\(a^{2}+\delta\left(2a+\delta\right)<2\) מתקיים עבורו. שימו לב להזנחה הזו! היא מקלה עלי את החיים מבחינה טכנית, ולא פוגמת כלל בנכונות ההוכחה. הקושי שב"התרגלות" לביצוע הזנחות שכאלו הוא אחד מהקשיים העיקריים של סטודנטים באוניברסיטה כשהם מתמודדים לראשונה עם חדו"א. בלי לזהות מקומות שבהם אפשר "להקל על החיים" כך, התרגילים הטכניים הקשים של חדו"א אוניברסיטאית הופכים לקשים פי כמה.

נמשיך. אני רוצה למצוא \(\delta\) כך ש-\(a^{2}+\delta\cdot3a<2\). זה כבר תרגיל אי שוויונים תיכוני: מעבירים אגף, מחלקים, ומקבלים \(\delta<\frac{2-a^{2}}{3a}\). מכיוון ש-\(a^{2}<2\) (כך הנחנו – זוכרים?) הרי שהמספר באגף שמאל הוא גדול מאפס. בנוסף, \(a\) רציונלי ולכן גם הוא עצמו רציונלי; לכן אפשר פשוט לבחור \(\delta=\frac{1}{2}\cdot\frac{2-a^{2}}{3a}\) ולקבל את מה שרצינו: \(\delta\) שהוא גם גדול מאפס וגם מקיים את אי השוויון שנדרש בהתחלה. וכעת אפשר… לא, לא, לא! לא כל כך מהר. מה פספסתי? ובכן, שכחתי את ההנחה ש-\(\delta<a\) שהוספתי לעצמי קודם. זו לא בעיה – אני אגדיר את \(\delta\) להיות המספר הקטן יותר מבין זוג המספרים \(\frac{1}{2}\cdot\frac{2-a^{2}}{3a}\) ו-\(\frac{1}{2}\cdot a\). אבל זה בור שצריך להכיר ולא ליפול לתוכו.

תמה לה ההוכחה. מצד אחד, זו הוכחה טכנית. מצד שני, היא שונה מאוד באופייה מתרגיל תיכוני רגיל. בפרט שימו לב להזנחה שביצעתי באמצע, לכך שכל התרגיל הוא עם הפרמטר \(a\) שלא נראה שמשרת מטרה כלשהי, ולכן שהפתרון הסופי נראה מכוער לאללה (\(\frac{1}{2}\cdot\frac{2-a^{2}}{3a}\)) וזה ממש לא מפריע לי ואני לא מחפש דרך "לפשט" אותו. אבל ההבדל האמיתי הוא שלתרגיל הזה הייתה מטרה – אני מנסה לשכנע אתכם שלקבוצה כלשהי אין חסם עליון.

ובכן, הראיתי שאם \(a\) הוא רציונלי בתוך \(A\) עצמה, אז קיים רציונלי אחר בתוך \(A\) שגדול ממנו; מכאן שאם יש ל-\(A\) חסם עליון, הוא לא יכול להיות איבר של \(A\) עצמה. אבל אם \(a^{2}>2\) אז בהוכחה דומה מאוד לזו שנתתי (תבחרו \(b=a-\delta\)) אפשר להראות שקיים \(b\) רציונלי כך ש-\(b^{2}>2\) ועם זאת \(b<a\). בגלל ש-\(b^{2}>2\) אז \(b\) הוא חסם מלמעלה של \(A\); ולכן הראיתי כרגע ש-\(a\) איננו חסם עליון של \(A\), כי קיים חסם מלמעלה אחר שקטן ממנו. המסקנה: \(a\) היה יכול להיות חסם עליון של \(A\) רק אם הוא היה מקיים \(a^{2}=2\), אבל אין מספר רציונלי שמקיים זאת. סוף הסיפור.

אם כן, מה החסם העליון של \(A\)? כמובן, \(\sqrt{2}\). ההוכחה שנתתי למעלה "נשברת" כשמפעילים אותה על \(a=\sqrt{2}\) פשוט כי \(2-a^{2}=0\). לכן לקבוצה \(A\) כן יש חסם עליון אם מכניסים למשחק את \(\sqrt{2}\). ועכשיו אפשר סוף סוף להגדיר את הממשיים בצורה כמעט פורמלית: הממשיים הם בדיוק המספרים שאנחנו צריכים שיהיו במשחק כדי שלכל קבוצה (לא ריקה) שחסומה מלמעלה יהיה חסם עליון. התכונה הזו, "לכל קבוצה לא ריקה חסומה מלמעלה יש חסם עליון" היא מה שנקרא "אקסיומת החסם העליון". העובדה שהרציונליים לא מקיימים את האקסיומה הזו מצביעה שבמובן מסויים, בקבוצת הרציונליים יש "חורים" והיא לא תופסת את כל הישר הממשי, בעוד שבקבוצת הממשיים שכן מקיימת אותה אין חורים כאלו – היא "רציפה".

הזכרתי כבר קודם את המושג "שדה" והערתי שהרציונליים והממשיים שניהם שדות. אם מוסיפים לתמונה את היכולת להשוות בין כל שני איברים, השדה הופך לשדה סדור. המספרים הממשיים הם השדה הסדור היחיד בו מתקיימת אקסיומת החסם העליון (כלומר, אפשר להוכיח שאם יש שני שדות סדורים שמקיימים את אקסיומת החסם העליון, הם "אותו הדבר" במובן שלא אציג כאן באופן מדויק). מנקודת מבט מתמטית, זוהי ההגדרה של המספרים הממשיים; מה שדדקינד וקנטור עשו היה להציג בניות של הממשיים באמצעות אבני בניין פשוטות יותר, שהראו שההגדרה אינה ריקה מתוכן אלא באמת קיים אובייקט העונה לתנאי ההגדרה. קנטור ודדקינד שניהם מגיעים אל אותו האובייקט, אך בדרכים שונות. קשה להסביר פורמלית בשלב זה למה הכוונה ב"מגיעים אל אותו האובייקט בדרכים שונות" (כי אם מסתכלים על התוצר הסופי ה"יבש" של מה שהם עשו, הוא לא נראה זהה) ולכן אסתפק בהצגת הבניה של דדקינד ואסיים בזאת.

דדקינד ממשיך עם הרעיון שאיתו התחלתי קודם, של הקבוצה \(A\) שלא היה לה חסם עליון. הוא מגדיר חתך בתור קבוצה \(A\) של מספרים רציונליים כך שאם \(a\in A\) ו-\(b<a\), אז גם \(b\in A\). במילים, אם \(a\) הוא איבר של \(A\) ו-\(b\) קטן מ-\(a\), אז גם \(b\) שייך ל-\(A\). למה "חתך"? שכן הקבוצה הזו "חותכת" את המספרים הרציונליים לשתי קבוצות – כל מי ששייך ל-\(A\), וכל מי שאינו שייך ל-\(A\) ולכן הוא בהכרח גדול מכל אברי \(A\) (אם \(a\) אינו שייך ל-\(A\) אבל קטן מ-\(b\) שכן שייך ל-\(A\), אז מהגדרת \(A\) גם \(a\) חייב להיות שייך אליה…). על ציר המספרים \(A\) היא קו שנמתח ממינוס אינסוף ואז נעצר איפה שהוא, ומייד אחר כך מתחילה הקבוצה של כל מי שאינו ב-\(A\). השאלה היא רק מה קורה בנקודת החיתוך עצמה.

עוד שתי דרישות שדדקינד דורש מ-\(A\) הוא ש-\(A\) תהיה חסומה, אך שלא תכיל את החסם העליון של עצמה, אפילו אם הוא קיים. כעת דדקינד מגדיר את המספרים הממשיים באמצעות החתכים הללו – כל מספר ממשי מתאים ל-\(A\) כלשהי, כאשר, כפי שניתן היה לנחש, הקבוצה \(A\) מייצגת את המספר שהוא החסם העליון של \(A\). בתמונה אנחנו רואים את החתך שמגדיר את שורש 2.

חתך דדקינד שמגדיר את שורש שתיים

כאן הכיף רק מתחיל – צריך להגדיר פעולות של חיבור, חיסור, כפל וחילוק על הקבוצות הללו באופן שעדיין יהיה הגיוני, וצריך להוכיח שאקסיומת החסם העליון מתקיימת עבור אוסף הקבוצות הזה. אלו הם פרטיים טכניים לא טריוויאליים שאיני רוצה להפיל עליכם בפוסט הזה; העיקר הוא ברעיון הבניה עצמו, שלדעתי הוא זר ומוזר לכל מה שרואים בתיכון. כמובן, ייתכן שתרגישו ש"מרמים" אתכם בבנייה הזו שלכאורה מניחה את המבוקש; אך אני מבטיח שקריאה זהירה בטקסט שמתאר את הבניה במפורש עשויה להניח את דעתכם שלא מניחים כאן מאום מראש.

אם כן, אלו הם המספרים הממשיים, ומעתה ואילך נוכל לשכוח את רוב הדיון שהתרחש כאן ולחשוב עליהם פשוט בתור "שדה סדור שמקיים את אקסיומת החסם העליון". אני מקווה שהצלחתי להמחיש כאן שיש בהם מעט יותר מאשר רק "כל המספרים שעל ציר המספרים".

אז מה זה חשבון דיפרנציאלי ואינטגרלי?

אני ממשיך את הפוסטים שלי שבהם אני מנסה להציג נושאים בסיסיים במתמטיקה ברמה שתתאים גם לתלמידי תיכון, והפעם אני רוצה לעסוק באחד מעמודי התווך המרכזיים של המתמטיקה – החשבון הדיפרנציאלי והאינטגרלי, או בקיצור החדו"א (ובשם אחר – החשבון האינפיניטסימלי, האינפי). על החדו"א נבנה הענף המתמטי הרחב שמכונה "אנליזה מתמטית", והחדו"א מופיעה בתחומים רבים נוספים במתמטיקה. זהו נושא כה חשוב ומרכזי עד כי כל מתמטיקאי לומד אותו כבר בשנתו הראשונה באקדמיה, ולרוב נדרשים לכך שניים או שלושה קורסים. חדו"א היא כלי עבודה מתמטי מרכזי עבור הפיזיקיאים. בקיצור – זה תחום חשוב. אבל במה הוא עוסק, בכלל?

תיאור פשטני אבל יחסית מדויק הוא שהחדו"א עוסקת בגדלים שהם "קטנים עד אינסוף" ו"גדולים עד אינסוף" ומנסה לתת להם משמעות מדוייקת ולעבוד איתם בצורה מסודרת. תיאור קצת יותר כללי הוא שהחדו"א עוסקת בשני מושגים מתמטיים מרכזיים – הנגזרת והאינטגרל – ששניהם קשורים לאותם רעיונות של "קטן/גדול עד אינסוף", ובין שניהם יש קשרים לא טריוויאליים. יש כמה דרכים שונות להציג את שני המושגים הללו ואני לא מתחייב לבחור את הנכונה ביותר – רק את זו שנראית לי הכי ברורה ומעניינת.

הנגזרת מנסה לתאר את קצב השינוי של דברים. נניח שאנחנו משגרים טיל לחלל. המיקום שלו משתנה ככל שהזמן עובר – הוא עף גבוה יותר ויותר. לקצב השינוי של המיקום של הטיל אנחנו קוראים מהירות. גם המהירות של הטיל משתנה, כי הדלק שנשרף בכל רגע מפעיל עליו כוח ובכך נותן לו "דחיפה" שמגדילה את המהירות – לקצב השינוי של מהירות הטיל אנחנו קוראים תאוצה. המהירות והתאוצה שתיהן דוגמאות לנגזרת: המהירות היא נגזרת המיקום, והתאוצה היא נגזרת המהירות. במובן מסויים הנגזרת מנסה להכליל את מושג הממוצע החשבוני – הנגזרת היא מה שמתקבל כשאנחנו מנסים לחשב את המהירות הממוצעת של הטיל עבור פרקי זמן קטנים מאוד – "קטנים עד אינסוף".

מרגע שידועה לנו הנגזרת של דבר מה שכזה (דבר מה שנקרא פשוט "פונקציה" – במקרה שלנו, משהו שקושר בין הזמן שחלף ובין המיקום של הטיל), ניתן להפיק עליו מידע. כך למשל מציאת הזמן המדוייק שבו מהירות הטיל היא 0 (כלומר, הנגזרת של המקום היא 0) מראה לנו את הזמן שבו גובה הטיל היה מקסימלי. זהו שימוש אלמנטרי וחשוב של הנגזרת – מציאת נקודות מקסימום ומינימום. שימוש אחר של הנגזרת הוא בבניית מודלים מתמטיים של סיטואציות מורכבות. למשל, כזו שבה המיקום של גוף נע משפיע על המהירות שלו, ולא רק ההפך (למשל, בדוגמת הטיל – ככל שהטיל גבוה יותר, כך כוח המשיכה שכדור הארץ מפעיל עליו חלש יותר, ולכן קל יותר להגדיל את מהירות הטיל – למעשה, אפשר לתאר זאת במשוואה כקשר בין המיקום ובין התאוצה). תיאורים מורכבים שכאלו מכונים משוואות דיפרנציאליות, ומודלים רבים בפיזיקה מתבססים עליהן. עוד שימוש לנגזרת הוא בבניית קירובים לפונקציות – ידע על הנגזרות של פונקציות מסויימות מאפשר לנו לחשב אותן ביעילות באמצעות מחשב (זה האופן שבו מחשבונים "יודעים" לחשב פונקציות מסובכות).

המושג השני, האינטגרל, מנסה לתאר סכום של מספר אינסופי "גדול" של דברים ("גדול", כי יש מובן גם ל"סכום של מספר אינסופי קטן של דברים" וגם בזה עוסקים במסגרת החדו"א אך אני מעדיף לא לדבר על כך כעת). הדוגמה הקלאסית היא זו של חישוב שטח של צורה – אפשר לחשוב על שטח הצורה כמורכב מסכום גדול של יחידות שטח קטנות (קחו את הצורה, חלקו אותה למשבצות, וסכמו את השטח של כל משבצת…). מכיוון שצורות יכולות להיות בעלות מבנה מאוד מסובך ומפותל, לא תמיד פשוט לחלק אותן למשבצות – הרעיון שבאינטגרל הוא לחלק את הצורה לכמות "גדולה עד אינסוף" של יחידות שטח "קטנות עד אינסוף", ואז לסכום את כולן באופן שיתן לנו את השטח המדויק של הצורה. דוגמה אחרת לשימוש באינטגרל באה מפיזיקה: נניח שרכב כלשהו נע במסלול מפותל ואנו רוצים לדעת כמה אנרגיה הוא מוציא בתנועתו. אז אנחנו מתארים (באמצעות פונקציה) את הכמות הקטנה עד אינסוף של אנרגיה שהוא מוציא בכל תנועה קטנה עד אינסוף שהוא מבצע; ואז אנחנו סוכמים את הכל ומקבלים את האנרגיה הכוללת שהוא הוציא במהלך תנועתו. זה שאפשר לעשות משהו כזה נשמע מוזר, אפילו קסום – ובמידה מסויימת זו גם התחושה שלי עד היום.

מבחינה היסטורית החדו"א התחיל להתפתח באופן רציני במאה ה-17 (אף שהדים קלושים שלו נמצאים כבר בעבודתם של היוונים הקדמונים – בפרט אצל ארכימדס). תרומה נכבדה להתפתחות החדו"א נזקפת לזכות פייר דה פרמה (שאולי שמעתם את שמו בהקשר של "המשפט האחרון של פרמה"), אך פריצת הדרך האמיתית הגיעה בעבודותיהם של אייזק ניוטון וגוטפריד לייבניץ שפיתחו (בנפרד, מאוד בנפרד) מאוד את התיאוריה ובפרט מצאו את הקשר שבין הנגזרת והאינטגרל. מכיוון שכל אחד מהם טען לזכות הראשונים על ההמצאה התפתחה מעין "מלחמה" בין שתי אסכולות מתמטיות – תומכי ניוטון ותומכי לייבניץ – שהדים לה קיימים אף כיום, בשיטות סימון שונות שבהם משתמשים כדי לתאר נגזרות.

לאחר ניוטון ולייבניץ החדו"א הפסיק להיות אוסף של כמה טכניקות מבודדות והפך להיות תורה מתמטית סדורה – וכזו שעליה הסתמך ניוטון במודל הפיזיקלי שהציע לעולם (מודל כה חשוב ומוצלח עד כי גם כיום הוא הראשון שאותו לומדים בלימודי הפיזיקה; ואכן, אף שהמציאות מורכבת יותר ממנו, הוא מהווה תיאור טוב של הפיזיקה בה אנו נתקלים בחיי היום יום). אלא שהחדו"א אז עדיין היה שונה במהותו מהחדו"א שנלמד היום, שכן חסר לו ביסוס פורמלי. את הרעיון של "קטן עד אינסוף" שהוא לב לבה של החדו"א תיארו באמצעות יצור מתמטי שכונה "אינפיניטסימל" שהיה בדיוק זה – מספר "קטן עד אינסוף", אף שלא היה ברור עד הסוף מה זה אומר. חשוב להבין שהמתמטיקה של אותן שנים הייתה שונה מאוד מהמתמטיקה של ימינו ברמת הפורמליות והדיוק שלה ציפו המתמטיקאים; הגישה הכללית הייתה שאם התוצאה יוצאת נכונה, אז סוף טוב הכל טוב. גם מתמטיקאי מאוחר יותר, אחד מגדולי המתמטיקאים בכל הזמנים – לאונרד אוילר – נקט בגישה זו. רבות מההוכחות שלו כיום לא היו עומדות במבחן הפורמליות שאנו דורשים מהוכחה מתמטית; התוצאות היו נכונות לחלוטין, וניתן לשער שאוילר היה מצליח להוכיח לפחות את חלקן גם תחת דרישות הפורמליות של ימינו, אך בזמנו (המאה ה-18) זה כלל לא נראה רלוונטי. כמובן שכבר באותם ימים נמתחה ביקורת על החדו"א במתכונתו זו, כשהביקורת המפורסמת ביותר הייתה של הבישוף ג'ורג' ברקלי, אך את המתמטיקאים זה לא עניין כל כך.

שינוי בגישה זו חל במאה ה-19, כאשר מספר מתמטיקאים החלו לשים דגש נרחב יותר על דיוק ועל ניסוח מחודש של ההגדרות באופן שיהיה פחות סתירתי. המפורסמים מבין העוסקים בכך היו אוגוסטין קושי, ברנרד רימן וקרל ויירשטראס. האחרון נודע במיוחד בהקפדה שלו על ניסוח מדוייק והחיבה שלו למציאת דוגמאות נגדיות מחוכמות שמראות כיצד ניסוחים לא מדוייקים מובילים לסתירות. ויירשטראס נודע גם כמרצה מצויין, ובין תלמידיו היו מתמטיקאים משפיעים רבים; הניסוח שלו של החדו"א (שהתבסס במידת מה על מה שעשו מתמטיקאים קודמים ובמיוחד קושי) הפך לסטנדרט שאותו לומדים גם כיום באוניברסיטאות. ההבדל המרכזי בין החדו"א החדש והחדו"א הישן הוא סילוקו של מושג האינפיניטסימל הסתירתי, ובמקומו שימוש במושג חדש, מדויק לגמרי, שכלל לא הצריך שימוש באינסוף כדי לתארו – מושג הגבול.

הגבול הוא הבסיס לחדו"א כפי שאנו מכירים אותו כיום. הוא משמש בהגדרת הנגזרת והאינטגרל, אך גם באלף ואחד שימושים אחרים. ניתן אף להגדיל ולומר שהחדו"א ניתנת לתיאור בתור הענף שעוסק בגבולות, לא בתור הענף שעוסק בנגזרות ואינטגרלים (למעשה זה יהיה שקר גס, היות ומושג הגבול מופיע בהקשרים רבים נוספים, כשהוא מוכלל באופן מתאים). בבסיסו, מושג הגבול בא לתאר באופן מדוייק את התנהגותה של סדרה או של פונקציה כאשר היא "שואפת" לאינסוף או לנקודה כלשהי. תיארתי בבלוג בעבר את ההגדרה המדוייקת של הגבול, אך אעשה זאת שוב במסגרת סדרת הפוסטים הנוכחית.

לשימוש הזה בגבולות יש מחיר כלשהו – מדובר במושג שאינו קל להבנה במבט ראשון, ועוד יותר קשה "לעבוד" איתו בצורה מסודרת עד שמתרגלים. זו ככל הנראה הסיבה שבגללה בלימודי החדו"א התיכוניים נמנעים לרוב מניסוח מדוייק של הגבול והסתפקות בתיאור אינטואיטיבי שלו ומתן מספר כללי אצבע לחישובו במקרים מסויימים. בכך לטעמי מתפספס אחד מהדברים החשובים ביותר בלימודי החדו"א – ההבנה של האופן המחוכם (ואגדיל ואומר – גאוני ממש) שבו ניתן לתאר תהליכים "קטנים עד אינסוף" ו"גדולים עד אינסוף" מבלי להזדקק לאינסוף.

עוד מושג שלא הזכרתי עד כאן באופן מפורש הוא ה"עולם" שבו עוסק החדו"א. מיהם היצורים שאותם החדו"א חוקר, וכיצד? ובכן, החדו"א עוסק בפונקציות, שאפשר לחשוב עליהן כעל התאמות בין קלטים לפלטים (למשל, "העלאה בריבוע" היא פונקציה שמקבלת כקלט מספר ומוציאה כפלט את הריבוע שלו). הפונקציות שבהן עוסקים מקבלות כקלט מספרים ממשיים ומוציאות כפלט מספרים ממשיים; בשלב מתקדם יותר עוברים לדבר על חדו"א שעוסק בפונקציות מתוחכמות יותר, אך רעיונות הבסיס המרכזיים מצויים כבר במקרה הפשוט הזה (אם כי – חשוב מאוד להדגיש זאת – לא כל רעיונות הבסיס מופיעים בו). מהם המספרים הממשיים? ובכן, אולי למרבה הפלא, זו השאלה שהכי קשה לענות עליה בשלב זה, ובלימודי המתמטיקה התיכוניים בוחרים להתעלם ממנה לחלוטין (בלימודי חדו"א באוניברסיטה, לעומת זאת, לרוב טורחים להקדיש לה שיעור).

אם כן, אלו המושגים שעליהם יש לדבר: מספרים ממשיים ופונקציות שלהם; מושג הגבול; ומושגי הנגזרת והאינטגרל. כמובן שלא אוכל להסביר את המושגים הללו ברמת הדיוק של ספר לימוד בנושא, אך אנסה שלא להסתיר את הרעיונות המרכזיים ואת ההגדרות המדוייקות. נקווה שלא אאבד יותר מדי קוראים בדרך.

אז אולי רק הראשוניים בטור ההרמוני מתכנסים ל-137?

בפרשיית הטרחן הכפייתי והטור ההרמוני שדיווחתי עליה אתמול חלו התפתחויות מרעישות – הטרחן שינה את עמדתו (דבר נדיר למדי), וטענתו החדשה היא שהטור ההרמוני אכן אינו מתכנס ל-137, כי אם מה שנותר מהטור ההרמוני כאשר משאירים בו רק את האיברים שהם הופכיים של ראשוניים. במילים אחרות, הטור \(\frac{1}{2}+\frac{1}{3}+\frac{1}{5}+\frac{1}{7}+\frac{1}{11}+\dots\) מתכנס ל-137, ובקיצור: \(\sum\frac{1}{p}=137\) (זהו סימון מקובל שכן בתורת המספרים נהוג לסמן ב-\(p\) מספרים טבעיים ראשוניים).

ובכן, כמו שכבר כתבתי בפוסט של אתמול, גם טור זה מתבדר לאינסוף, והייתי רוצה לנצל את ההזדמנות הזו כדי לתאר את ההוכחה, שהיא פשוטה למדי ומתבססת על רעיון שהוא כה יפה עד שכדאי להזכיר אותו שוב – ההצגה הכפלית של הטור ההרמוני (או יותר במדוייק, ההצגה הכפלית של פונקצית הזטה של רימן). כבר הראיתי אותה בפוסט שהציג את הוכחת אוילר לקיום אינסוף ראשוניים וגם על ההוכחה שאציג כעת אפשר לחשוב בתור הוכחה חזקה עוד יותר לקיום אינסוף ראשוניים, שכן אם היה רק מספר סופי שלהם אז הטור \(\sum\frac{1}{p}\) היה סופי ולא יכל להתבדר; למעשה, העובדה שהטור הזה מתכנס מלמדת אותנו משהו על "כמות" הראשוניים. זכרו שטורים כמו \(\sum\frac{1}{n^{2}}\) מתכנסים, כך שאנו למדים שהראשוניים נפוצים יותר מאשר מספרים שהם ריבועים. לטעמי זהו רעיון מקסים – היכולת שלנו למדוד "כמות"באמצעות התבדרות של טור.

בשורה התחתונה, זוהי תוצאה מעניינת ויפה, ומכיוון שהיא גם פשוטה להוכיח, אוכיח אותה כעת. אני מזהיר מראש שההוכחה היא טכנית ומתבססת על ידע בסיסי בחשבון אינפיניטסימלי שאניח הפעם שקיים אצל הקורא; אבל כפי שאני מבהיר לעתים קרובות בבלוג הזה, בלי "ללכלך את הידיים" לפעמים לא רק שאי אפשר להבין מתמטיקה, גם קשה להבין למה החלקים בה שנראים לנו "טכניים" הם למעשה יפים.

לב ההוכחה הוא במה שכבר כיניתי פעם "הגרסה האנליטית של המשפט היסודי של האריתמטיקה". המשפט היסודי של האריתמטיקה אומר לנו שכל מספר טבעי ניתן להצגה באופן יחיד בתור מכפלה של מספרים ראשוניים (ומן הסתם כל מכפלה של ראשוניים נותנת לנו מספר טבעי). זה מאפשר לנו להציג באופן שונה למדי את הסכום החלקי של הטור ההרמוני, \(1+\frac{1}{2}+\frac{1}{3}+\dots+\frac{1}{n}\), באמצעות מכפלה של גורמים שמערבים ראשוניים; כפי שנראה בקרוב, כל עוד אנחנו מנסים להצטמצם לטורים סופיים לא נוכל לתפוס במדוייק את \(1+\frac{1}{2}+\frac{1}{3}+\dots+\frac{1}{n}\) אלא רק משהו שתופס גם אותו וגם איברים נוספים; אבל זה לא אכפת לנו.

אם כן, יהיה \(n\) מספר טבעי כלשהו, ויהיו \(p_{1},p_{2},\dots,p_{\pi\left(n\right)}\) כל הראשוניים הקטנים מ-\(n\) (\(\pi\left(n\right)\) הוא מספרם; זהו סימון סטנדרטי). הפאנץ' המרכזי הוא שכל מספר טבעי עד וכולל \(n\) הוא מכפלה של חזקות של הראשוניים הללו בלבד; ראשוניים גדולים יותר מן הסתם אינם רלוונטיים כי לא ניתן להגיע על ידי מכפלה שלהם אלו באלו למספר שקטן יותר מהם. כאן מגיע התעלול ודומני שהכי פשוט להציג אותו. נתבונן במכפלה \(\lambda\left(n\right)=\frac{1}{1-\frac{1}{p_{1}}}\cdot\frac{1}{1-\frac{1}{p_{2}}}\cdots\frac{1}{1-\frac{1}{p_{\pi\left(n\right)}}}\). מה יש לנו כאן?

מצד אחד, זוהי מכפלה סופית של מספרים רציונליים, כך שברור שאין כאן שום בעייתיות מבחינת התכנסות וכדומה. מהצד השני אני הולך לעשות להטוט. הבה ונתבונן באיבר הכללי של המכפלה הזו: \(\frac{1}{1-\frac{1}{p_{k}}}\). חלקכם ודאי שמים לב שהיצור הזה דומה לסכום של סדרה הנדסית אינסופית: \(1+q+q^{2}+\dots=\frac{1}{1-q}\) כאשר \(\left|q\right|<1\). ובכן, כאן \(\left|\frac{1}{p_{k}}\right|<1\) בבירור, שכן \(p_{k}\ge2\); ולכן \(\frac{1}{1-\frac{1}{p_{k}}}=1+p_{k}^{-1}+p_{k}^{-2}+\dots\). במילים אחרות, את המכפלה שלעיל אפשר לכתוב גם כ:

\(\left(1+p_{1}^{-1}+p_{1}^{-2}+\dots\right)\cdots\left(1+p_{\pi\left(n\right)}^{-1}+p_{\pi\left(n\right)}^{-2}+\dots\right)\)

יש לנו כאן מכפלה סופית של טורים אינסופיים. על פניו לא ברור האם ניתן "לפתוח" אותה – ואכן, במקרים מסויימים לא ניתן לעשות זאת כי זה מוביל לתוצאות ההרסניות שעליהן מצביע משפט רימן. עם זאת, תוצאה בסיסית בתורת הטורים מראה שניתן "לפתוח"מכפלה כזו במקרה שבו כל הטורים במכפלה מתכנסים בהחלט, כלומר הטור הערכים המוחלטים שלהם מתכנס. מכיווון שכל הטורים המעורבים כאן הם חיוביים וכולם בוודאי מתכנסים, הקריטריון הזה מתקיים מאליו ולכן ניתן לפתוח את הסוגריים. מה המשמעות של פתיחת סוגריים? אנחנו מקבלים סכום שכל איבר בו הוא מכפלה שכוללת איבר אחד מכל אחד מהסוגריים. אם להיות ממש פורמליים, הסכום הוא של איברים מהצורה \(p_{1}^{-a_{1}}p_{2}^{-a_{2}}\cdots p_{\pi\left(n\right)}^{-a_{\pi\left(n\right)}}\) לכל וקטור אפשרי \(\left(a_{1},a_{2},\dots,a_{\pi\left(n\right)}\right)\) של מספרים שלמים אי שליליים.

כעת, שימו לב שאת המכפלה שלעיל אפשר גם לכתוב בתור \(\left(p_{1}^{a_{1}}p_{2}^{a_{2}}\cdots p_{\pi\left(n\right)}^{a_{\pi\left(n\right)}}\right)^{-1}\) וכעת מה שכתוב בתוך הסוגריים הוא פשוט מספר טבעי שהפירוק לגורמים שלו מכיל רק את הראשוניים \(p_{1},\dots,p_{\pi\left(n\right)}\). במילים אחרות, \(\lambda\left(n\right)\) (המכפלה שכתבנו בהתחלה) שווה ל-\(\lambda\left(n\right)=\sum\frac{1}{k}\) כאשר \(k\) רץ על כל המספרים הטבעיים שהפירוק שלהם לגורמים מכיל רק את \(p_{1},\dots,p_{\pi\left(n\right)}\) – וכאמור, זה מכיל גם את כל הטבעיים הקטנים או שווים ל-\(n\), אבל גם דברים גדולים יותר (למשל, חזקות גדולות של 2 שעוברות את \(n\)). במילים אחרות, מה שאנחנו יכולים בודאות לכתוב הוא \(1+\frac{1}{2}+\frac{1}{3}+\dots+\frac{1}{n}\le\lambda\left(n\right)\). מכיוון שהטור ההרמוני מתבדר, כפי שראינו בפוסט הקודם, נובע מכך שכאשר משאיפים את \(n\) לאינסוף, \(\lambda\left(n\right)\) שואף לאינסוף. שימו לב שכרגע הוכחנו שוב את קיומם של אינסוף ראשוניים (כי אם היה מספר סופי, אז \(\lambda\left(n\right)\) היה הופך לקבוע החל ממקום מסויים).

עד כאן הכל טוב ויפה, אבל איך \(\lambda\left(n\right)\) המדובר קשור לטור ההרמוני כאשר משאירים בו רק את הראשוניים? אמנם, הוא מיוצג בדרך אחת כמכפלה של ראשוניים, אבל זה בדיוק העניין – הם מכפלה, לא סכום. כאן נחלץ לעזרתנו כלי בסיסי נוסף במתמטיקה – הלוגריתם. לוגריתם הופך מכפלות לסכומים בצורה "יפה" שמאפשרת את המשך הטיפול בהם, ולכן העניין שלנו עובר כעת מ-\(\lambda\left(n\right)\) עצמו אל \(\ln\lambda\left(n\right)\). שימו לב שאם \(\lambda\left(n\right)\to\infty\) כך ש-\(\ln\lambda\left(n\right)\to\infty\) (כי \(\ln\left(n\right)\to\infty\)). כעת בואו וננסה להבין אך \(\ln\lambda\left(n\right)\) נראה – וכמו שכבר הבנתם שאנחנו עושים כל הזמן לא באמת נמצא את הצורה המדוייקת שלו, כי זה קשה, אלא חסם. במקרה זה, חסם עליון. ברשותכם, אעבור להשתמש בסימון מתמטי עוד יותר קומפקטי מזה שהשתמשתי בו עד כה:

\(\ln\lambda\left(n\right)=\ln\left(\prod\left(1-p_{k}^{-1}\right)^{-1}\right)=\sum\ln\left(1-p_{k}^{-1}\right)^{-1}=-\sum\ln\left(1-p_{k}^{-1}\right)\)

הלוגריתם עשה את מלאכתו והעביר לנו את המכפלה לסכום. אבל מה שכרגע יש בסכום הוא לא להיט גדול במיוחד – איך מתקדמים מכאן? הרי לוגריתם לא יודע "לטפל" בסכומים שנמצאים בתוכו.

כאן נכנס לתמונה להטוט מתמטי אחר – טור טיילור. לא אוכיח זאת כרגע, אבל באופן כללי ידוע כי \(\ln\left(1-x\right)=-\sum_{m=1}^{\infty}\frac{x^{m}}{m}\) כאשר \(\left|x\right|<1\). כאן \(x=p_{k}^{-1}\) ולכן ניתן להשתמש בתוצאה הזו. מקבלים:

\(-\sum_{k=1}^{\pi\left(n\right)}\ln\left(1-p_{k}^{-1}\right)=\sum_{k=1}^{\pi\left(n\right)}\sum_{m=1}^{\infty}\frac{p_{k}^{-m}}{m}\)

עכשיו כבר יש לנו סכום כפול מפלצתי באגף ימין  ולא ברור איך אנחנו הולכים להיחלץ מהצרה הזו, אבל עכשיו מגיע הקסם האחרון: את הסכום הזה אפשר לחלק לשני סכומים, כשאחד הוא בדיוק מה שמעניין אותנו והשני הוא חסר חשיבות. שימו לב שכאשר \(m=1\) מקבלים באגף שמאל איברים מהצורה \(p_{k}^{-1}\). אם כן, אפשר לכתוב:

\(\sum_{k=1}^{\pi\left(n\right)}\sum_{m=1}^{\infty}\frac{p_{k}^{-m}}{m}=\sum_{k=1}^{\pi\left(n\right)}\frac{1}{p_{k}}+\sum_{k=1}^{\pi\left(n\right)}\sum_{m=2}^{\infty}\frac{p_{k}^{-m}}{m}\)

הסכום השמאלי מבין השניים הוא בדיוק סכום חלקי של הטור שאנחנו רוצים לתקוף. ומה לגבי הסכום הימני? ובכן, הוא לא יכול להיות כל כך גדול, שכן:

\(\sum_{m=2}^{\infty}\frac{p_{k}^{-m}}{m}<\sum_{m=2}^{\infty}p_{k}^{-m}=p_{k}^{-2}\left(\sum_{m=0}^{\infty}p_{k}^{-m}\right)=p_{k}^{-2}\left(1-p_{k}^{-1}\right)^{-1}<2p_{k}^{-2}\)

כל המעברים הללו הם פשוטים יחסית – הקורא יכול כתרגול להבין מה הולך פה (סטודנט שמכיר קצת אינפי אמור להסתדר).

במילים אחרות, מה שהצלחנו להראות הוא את התוצאה הבאה:

\(\ln\lambda\left(n\right)<\sum_{k=1}^{\pi\left(n\right)}\frac{1}{p_{k}}+2\sum_{k=1}^{\pi\left(n\right)}\frac{1}{p_{k}^{2}}\). מה קורה כאשר משאיפים את \(n\) לאינסוף? ובכן, הטור \(\sum_{k=1}^{\infty}\frac{1}{p_{k}^{2}}\) הוא טור מתכנס (כי \(\sum\frac{1}{n^{2}}\) מתכנס). ומצד שני, כבר אמרנו כי \(\ln\lambda\left(n\right)\) שואף לאינסוף ולכן אגף ימין של אי השוויון חייב לשאוף לאינסוף בעצמו; מכאן ש-\(\sum_{k=1}^{\pi\left(n\right)}\frac{1}{p_{k}}\) חייב לשאוף לאינסוף, דהיינו \(\sum_{k=1}^{\infty}\frac{1}{p_{k}}\) מתבדר, וזה מה שהיה צריך להוכיח.

האם טרחן ישתכנע מההוכחה הזו? ספק גדול. אני מקווה שלפחות אלו מכם שעקבו עד הסוף נהנו.

האם הטור ההרמוני מתכנס ל-137?

בדיחה גסה ידועה (למתמטיקאים) מספרת על שני מתמטיקאים העומדים בקצה האחד של חדר כאשר בקצה השני נמצאת בחורה נאה, והם חפצים להגיע אליה. הראשון אומר "כדי לעבור את החדר צריך לעבור קודם את מחציתו; ואחרי שאגיע למחציתו, אצטרך עוד להגיע למחצית של המחצית הנותרת; ואחרי שאעבור אותה אצטרך להגיע למחצית של הרבע הנותר וכן הלאה – וכך עד אינסוף, ומכאן שלעולם לא אגיע אל הבחורה". המתמטיקאי השני עונה לו "כן; אבל תתקרב מספיק לכל צורך מעשי" (בגרסאות מסויימות ה"מעשי" הוא פיזיקאי, אך אני מוחה נגד כך בתוקף – ההתמודדות עם הסיטואציה שמתוארת בבדיחה היא המצאה של מתמטיקאים).

מה הלך כאן? נניח שאורך החדר הוא 1. המתמטיקאי הראשון תיאר את מעבר החדר כסדרה של "צעדים", שבה בכל צעד עוברים את חצי הדרך שעברנו בצעד הקודם. כלומר, אחרי צעד אחד עברנו \(\frac{1}{2}\), אחרי שניים עברנו \(\frac{1}{2}+\frac{1}{4}\), אחרי שלושה עברנו \(\frac{1}{2}+\frac{1}{4}+\frac{1}{8}\) וכן הלאה. הסכומים הללו הם מקרים פרטיים של טור הנדסי ולכן קיימת לנו נוסחה פשוטה שנותנת את ערכם: \(1-\frac{1}{2^{n}}\) הוא המרחק שנעבר עד וכולל הצעד ה-\(n\) (למי שאינו מאמין – שיציב \(n=1,2,3\) בנוסחה וישווה זאת לסכומים שכתבתי למעלה). לא קשה לראות שלא משנה איזה ערך של \(n\) אציב בנוסחה הזו לא אוכל לקבל 1, כך שהמתמטיקאי הראשון לא יגיע אף פעם אחרי מספר סופי של צעדים אל הקצה השני של החדר (באופן המאוד מוזר שבו אנחנו בוחרים למדוד "צעדים"). מה שהשני אומר הוא שאנחנו לא באמת חייבים להגיע ל-1 כדי לקטוף את הפירות של מעבר החדר; נניח שכל מה שאנחנו צריכים הוא שהמרחק בינינו ובין הבחורה יהיה \(0.0000001\); אז לא קשה למצוא \(n\) שהוא גדול כל כך עד שהמרחק שלנו מהבחורה קטן מה-\(0.0000001\) הזה (תרגיל למשועממים – מצאו \(n\) שכזה). על סיטואציה שכזו אומרים שהסדרה \(1-\frac{1}{2^{n}}\) שואפת ל-1; היא לא בהכרח מגיעה ל-1, אבל לכל רמת קרבה שרק נרצה שהיא תתקרב בה ל-1 מבלי שתגיע אליו ממש, מובטח לנו שמתישהו זה יקרה (התנאי המדוייק שמגדיר שאיפה למספר כלשהו הוא טיפה יותר מורכב וכבר פירטתי עליו בעבר).

הסיטואציה שמתוארת בבדיחה היא הלעגה של אחד מהפרדוקסים של זנון, ש"מוכיח" שאכילס לא מסוגל לחצות חדר. על הפרדוקסים כתבתי כבר בפוסט נפרד ולא אחזור על כך כאן – הבאתי את הבדיחה בתור חימום לנושא האמיתי של הפוסט, שהוא סכום תמים למראה באופן דומה, אך מטעה וחמקמק למדי.

נניח שכעת אנחנו מנסים למדוד את צעדינו באופן הבא: בצעד הראשון נפסע מרחק של 1. בשני מרחק של \(\frac{1}{2}\). בשלישי מרחק של \(\frac{1}{3}\); ברביעי מרחק של \(\frac{1}{4}\) ובאופן כללי, בצעד ה-\(n\) נפסע מרחק של \(\frac{1}{n}\). די ברור שאחרי צעד אחד כבר נעבור מרחק של 1; גם ברור שאחרי ארבעה צעדים נעבור מרחק של 2, אבל מכאן ואילך המאמץ שנדרש מאיתנו כדי לעבור את 3 הוא גדול למדי, והמאמץ לעבור את 4 גדול עוד יותר, וכן הלאה וכן הלאה. אם כן, מה המספר המקסימלי שעוד נצליח לעבור? איזה חדר הוא גדול מספיק כדי שלא נוכל להגיע לקצה השני שלו? זו השאלה שלפנינו. בניסוח פורמלי, מדברים על הסכום \(1+\frac{1}{2}+\frac{1}{3}+\dots+\frac{1}{n}+\dots\), שמכונה "הטור ההרמוני" ונכתב בקיצור כ-\(\sum_{n=1}^{\infty}\frac{1}{n}\) ושואלים מהו סכום הטור הזה – למה הוא שואף באותו מובן של קודם.

כאן אפשר לחלק את בני האדם לשלושה סוגים: יש את אלו שאומרים שמובן מאליו שסכום הטור יהיה אינסוף כי יש בו אינסוף איברים. אלא שכבר ראינו דוגמה לטור שבו הטענה הזו שגויה בתכלית – \(\sum_{n=1}^{\infty}\frac{1}{2^{n}}\) שעליו דיברנו קודם מתכנס ל-1 ולא לאינסוף. לכן מי שטוען שהטור אינסופי מסיבה זו פשוט אינו "משתתף במשחק" שלנו ואינו דובר את אותה שפה כמונו; כבר עסקתי פעם בבלוג באדם מסוג זה.

הסוג השני, המתמטיקאי, יגיד שסכום הטור הזה הוא אינסוף, אבל שהדבר אינו מובן מאליו כלל וכלל, ויש להוכיח זאת. והוא גם יציג הוכחה או שתיים. אני מתעתד לעשות זאת בפוסט הזה. כדי להבהיר עד כמה הטענה הזו בלתי מובנת מאליה רק אעיר שעבור הטור \(\sum_{n=1}^{\infty}\frac{1}{n^{\alpha}}\) כאשר \(\alpha\) הוא מספר ממשי כלשהו הגדול ממש מ-1 (\(\alpha>1\)), הטור כן מתכנס ("מתכנס" פירושו שסכומו קטן מאינסוף). כלומר, \(\sum_{n=1}^{\infty}\frac{1}{n}\) הוא "כמעט" מתכנס וזה לא מובן כלל מאליו שהוא מתקלקל כך.

ויש את הסוג השלישי של אנשים, שיטענו שהטור מתכנס, ואולי אף יציגו מספר שהוא סכום הטור. בפורום של הבלוג התפתח דיון שכזה עם אדם הטוען שסכום הטור ההרמוני הוא 137 – דיון שאין דרך לסווג אותו מלבד "דיון קלאסי עם טרחן מתמטי כפייתי". אנסה להציג משהו מהטיעונים שלו אחרי שיסתיים החלק המתמטי של הפוסט הזה.

הבה ונעבור להסבר מדוע הטור אינו מתכנס. ראשית, אינם חייבים לסמוך עלי – במהלך הדיון בפורום ניתן קישור למאמר שמציג 20 הוכחות שונות לתוצאה הזו. שנית, צריך להסביר מה בעצם אני מנסה להוכיח. לומר שהטור מתכנס לאינסוף פירושו (במקרה הספציפי הזה; ההגדרה הכללית היא מעט יותר מסובכת) שלכל מספר טבעי \(k\) שרק תגידו לי, אוכל לתת לכם מספר איברים כלשהו \(n\) כך שאחרי שסוכמים \(n\) איברים מקבלים סכום שגדול מ-\(k\). למשל, עבור \(k=137\), שהוא הסכום המשוער שהזכרתי קודם, אפשר לראות שאם נסכום \(2^{300}\) איברים נקבל תוצאה שגדולה מ-137. איך? למה? מאיפה המספר הזה הגיע? זה מה שנראה עכשיו. ראשית כל, הנה המחשה ציורית של ההוכחה, שמציגה בבירור את הרעיון המרכזי בה – קיבוץ איברים:

\(1+\frac{1}{2}+\frac{1}{3}+\frac{1}{4}+\frac{1}{5}+\frac{1}{6}+\frac{1}{7}+\frac{1}{8}+\dots>\)

\(1+\frac{1}{2}+\left(\frac{1}{4}+\frac{1}{4}\right)+\left(\frac{1}{8}+\frac{1}{8}+\frac{1}{8}+\frac{1}{8}\right)+\dots=\)

\(1+\frac{1}{2}+\frac{1}{2}+\frac{1}{2}+\dots\)

כעת נעבור לתיאור יותר מדויק של מה שקורה כאן. לצורך נוחות, הבה ונסמן ב-\(H_{n}\) את מה שמקבלים אחרי שסוכמים את \(n\) האיברים הראשונים של הטור. המספר הזה נקרא "המספר ההרמוני ה-\(n\)-י". לא קל לחשב במדוייק את הערכים של ה-\(H_{n}\)-ים ולכן במקום זה נותנים להם חסם תחתון – משהו שמובטח ש-\(H_{n}\) יהיה גדול ממנו. ההוכחה הפשוטה ביותר לכך שהטור ההרמוני אינו מתכנס, שנמצאה כבר במאה ה-14, מתבססת על שיטה פשוטה ויפה לתת חסם תחתון ל-\(H_{n}\)-ים: נסתכל רק על ה-\(n\)-ים שהם חזקות של 2, כלומר \(H_{2^{n}}\), לכל \(n\ge0\) . כדי לקבל תחושה, הבה ונתבונן באיברים הראשונים:

\(H_{2^{0}}=1\)

\(H_{2^{1}}=1+1\cdot\frac{1}{2}\)

\(H_{2^{2}}=1+\frac{1}{2}+\frac{1}{3}+\frac{1}{4}>1+\frac{1}{2}+\left(\frac{1}{4}+\frac{1}{4}\right)=1+2\cdot\frac{1}{2}\)

רגע, רגע, רגע – מה עשינו עבור \(H_{2^{2}}\)? ויתרנו על חישוב מדוייק שלו ובמקום זה הלכנו על חסם תחתון. אמרנו שאפשר לקחת את \(\frac{1}{3}+\frac{1}{4}\) ולהשתמש בשיקול הבא: \(\frac{1}{3}\) הוא גדול מ-\(\frac{1}{4}\) ולכן \(\frac{1}{3}+\frac{1}{4}>\frac{1}{4}+\frac{1}{4}=\frac{1}{2}\). הצמצום הזה עוזר לנו לחשב את החסם. כדי לראות זאת יותר בבירור הבה ונסתכל על המספר ההרמוני הבא בתור:

\(H_{2^{3}}=H_{2^{2}}+\frac{1}{5}+\frac{1}{6}+\frac{1}{7}+\frac{1}{8}>H_{2^{2}}+4\left(\frac{1}{8}\right)>1+2\cdot\frac{1}{2}+\frac{1}{2}=1+3\cdot\frac{1}{2}\)

מה עשינו כאן? אמרנו ש-\(H_{2^{3}}\) שווה בדיוק ל-\(H_{2^{2}}\) ובנוסף כל האיברים ה"חדשים" שלא הופיעו ב-\(H_{2^{2}}\) – שהם כל האיברים מהצורה \(\frac{1}{k}\) עבור \(2^{2}<k\le2^{3}\). זה כבר מכתיב לנו את הדרך למקרה הכללי: נניח שהוכחנו ש-\(H_{2^{k}}\ge1+\frac{k}{2}\) ואנחנו רוצים למצוא חסם על \(H_{2^{k+1}}\), מה עושים? ראשית, כותבים \(H_{2^{k+1}}=H_{2^{k}}+\frac{1}{2^{k}+1}+\frac{1}{2^{k}+2}+\dots+\frac{1}{2^{k+1}}\). כעת, הסכום \(\frac{1}{2^{k}+1}+\frac{1}{2^{k}+2}+\dots+\frac{1}{2^{k+1}}\) כולל בדיוק \(2^{k+1}-2^{k}=2^{k}\) איברים, והאיבר הקטן ביותר מביניהם הוא \(\frac{1}{2^{k+1}}\), כך שאנו מקבלים את החסם \(H_{2^{k+1}}\ge H_{2^{k}}+\frac{2^{k}}{2^{k+1}}\ge1+\frac{k}{2}+\frac{1}{2}=1+\frac{\left(k+1\right)}{2}\). בעצם הוכחנו כאן באינדוקציה שלכל \(k\) טבעי מתקיים \(H_{2^{k}}\ge1+\frac{k}{2}\), וזהו זה – עבור \(k\) גדול מספיק אפשר לעבור כל מספר טבעי שמפריע לנו.

נחזור לדוגמת ה-137: עבור \(k=300\) מקבלים \(H_{2^{300}}\ge1+\frac{300}{2}=151\). כך שלמעשה, \(2^{300}\) הוא מספר גדול מדי של איברים; אפשר היה להסתפק בהרבה פחות. כמה פחות? בדיוק פתרון המשוואה \(1+\frac{k}{2}>137\), ובמילים אחרות – \(k=273\). אם כן, הוכחנו שהטור ההרמוני עובר את 137 ב-\(H_{2^{273}}\), ובאותה דרך בדיוק נוכל לרמוס כל טענה שהטור ההרמוני מתכנס לסכום סופי אחר.

לאלו מכם שאינם מפחדים מלוגריתמים ואסימפטוטיקה, זוהי הזדמנות לראות שההוכחה הזו גם אומרת לנו משהו על קצב הגידול של \(H_{n}\): אם \(n=2^{k}\) אז \(k=\lg n\) ולכן \(H_{n}\ge1+\frac{\lg n}{2}=\lg\left(2\sqrt{n}\right)\). למעשה, זה חסם תחתון די גרוע – המספרים ההרמוניים מתנהגים בערך כמו \(\ln\left(n\right)\) (ועוד תיקון כלשהו).

ההוכחה הבאה שאציג היא לטעמי לא פחות מיפהפיה, ומספקת הדגמה נוספת לאופן שבו שימוש באקספוננט יכול לפשט בעיות חיבוריות על ידי הפיכתן לכפליות (מוטיב נפוץ למדי בתורת המספרים…). הרעיון הוא לא לחשב את \(H_{n}\) ישירות, אלא את \(e^{H_{n}}\) (כאשר \(e^{x}\) היא פונקצית האקספוננט שכתבתי עליה לא מזמן). גם כאן נצטרך לבצע קירוב כלשהו כדי לקבל נוסחה יפה, ונשתמש בכך ש-\(e^{x}>1+x\) לכל \(x>0\) (אי השוויון מובן מאליו אם זוכרים ש-\(e^{x}=1+x+\frac{x^{2}}{2!}+\frac{x^{3}}{3!}+\dots\) – פשוט לקחנו את שני האיברים הראשונים).

ובכן: \(e^{H_{n}}=e^{\sum_{k=1}^{n}\frac{1}{k}}=\prod_{k=1}^{n}e^{\frac{1}{k}}>\left(1+1\right)\left(1+\frac{1}{2}\right)\left(1+\frac{1}{3}\right)\cdots\left(1+\frac{1}{n}\right)=2\cdot\left(\frac{3}{2}\right)\cdot\left(\frac{4}{3}\right)\cdots\left(\frac{n+1}{n}\right)=n+1\).

השורה האחת הזו מסיימת את הסיפור. למי שלא הבין את המעבר שבו נעלמים הפלוסים -\(1+\frac{1}{k}=\frac{k+1}{k}\) באופן כללי, ולכן כאן מתקבל \(1+\frac{1}{2}=\frac{3}{2}\) וכן הלאה. המעבר האחרון נובע מכך שהמכפלה שקיבלנו היא "מכפלה טלסקופית" שבה כל איבר מצמצם את האיבר הבא: \(2\cdot\frac{3}{2}=3\), ו-\(3\cdot\frac{4}{3}=4\) וכן הלאה.

הוכחה אלגנטית ומקסימה נוספת מתבצעת בשלילה: מניחים שהטור ההרמוני אכן מתכנס למספר ממשי \(S\) כלשהו, ומשתמשים במניפולציות שמותר לבצע על טורים מתכנסים כדי להגיע לסתירה. הרעיון פשוט: אם \(1+\frac{1}{2}+\frac{1}{3}+\frac{1}{4}+\dots=S\) אז אפשר לכפול את שני האגפים בחצי ולקבל \(\frac{1}{2}+\frac{1}{4}+\frac{1}{6}+\frac{1}{8}+\dots=\frac{S}{2}\). שימו לב שבאגף שמאל יש לנו בדיוק את האיברים ה"זוגיים" של הטור ההרמוני והם מתכנסים בדיוק למחצית מסכום הטור ההרמוני. מסקנה? גם האיברים הנותרים, האי זוגיים, מתכנסים למחצית הטור ההרמוני, כלומר \(1+\frac{1}{3}+\frac{1}{5}+\dots=\frac{S}{2}\). אלא מה? כל איבר בטור האי זוגיים גדול ממש מהאיבר המתאים לו בטור הזוגיים: \(1>\frac{1}{2}\), \(\frac{1}{3}>\frac{1}{4}\) וכן הלאה. על כן לא ייתכן שסכום שני הטורים זהה – ההפרש חייב להיות לפחות \(\frac{1}{2}\)! (כי ההפרש בין שני האיברים הראשונים הוא \(\frac{1}{2}\) והאיברים הבאים רק מגדילים אותו).

הערה או שתיים לסיום החלק המתמטי. ראשית, חבל להזכיר את התבדרות הטור ההרמוני בלי להזכיר הקשר רחב יותר שבו הטור ההרמוני מופיע – פונקצית הזטה של רימן, שמוגדרת כ-\(\zeta\left(s\right)=\sum_{n=1}^{\infty}\frac{1}{n^{s}}\) עבור \(s>1\) (ובאופן יותר מחוכם עבור ערכים אחרים של \(s\), כולל מרוכבים). התבדרות הטור ההרמוני מראה כי \(\zeta\left(1\right)=\infty\), ואפשר לנצל את התופעה הזו, למשל, כדי להוכיח (בצורה מסובכת יחסית, אמנם) את קיומם של אינסוף ראשוניים; ווריאציה מחוכמת על ההוכחה הזו מובילה למשפט דיריכילה על ראשוניים בסדרות חשבוניות. בקיצור, מדובר בנושא מעניין.

עוד דבר הוא שיש דברים "חלשים יותר" מהטור ההרמוני שעדיין מתבדרים. הדוגמה הקלאסית היא הטור \(\sum\frac{1}{p}\) שבו משתתפים רק אותם איברים של הטור ההרמוני שמתאימים למספרים ראשוניים. במובן מסויים זה מראה כי יש כמות "אינסופית גדולה יחסית" של ראשוניים (ומצד שני, כדאי לזכור שכמות הראשוניים איננה מאותו סדר גודל של כמות הטבעיים אלא בערך לוגריתמית).

אוקיי, בואו נעבור לטרחנות. כאמור. מה אפשר לומר על מי שטוען שהטור מתכנס? ראשית, צריך לברר איתו האם הוא מדבר על אותו מושג התכנסות כמונו. יש תורה עשירה ויפה שעוסקת בטורים שמתבדרים על פי ההגדרה הקלאסית, אבל קיימות הגדרות מוכללות להתכנסות שעל פיהן הם אכן מתכנסים. כך למשל הטור \(1-1+1-1+1-\dots\) הידוע לשמצה אינו מתכנס בהגדרה הקלאסית, אך כן יש משמעות מסויימת לאמירה שסכומו הוא \(\frac{1}{2}\) (לא אכנס לכך כעת, אבל אינטואיציה כפולה: ראשית, הסכומים החלקיים של הטור הם \(1,0,1,0,\dots\) והממוצע שלהם הוא \(\frac{1}{2}\); שנית, אם מפתחים את \(\frac{1}{1-x}\) לטור פורמלי מקבלים \(1+x+x^{2}+\dots\) וכשמציבים \(x=-1\) מקבלים את הטור המדובר, וכשמציבים ב-\(\frac{1}{1-x}\) את הערך \(x=-1\) מקבלים \(\frac{1}{2}\)).

בדיון עם טרחנים לרוב כאן יקיץ הקץ על המתמטיקה – הם לא יספקו אף פעם הגדרה כלשהי ל"התכנסות", ולו בגלל שהגדרה כזו תקבע כללי משחק שעל פיהם הם מפסידים. בדרך כלל הם יעברו לשימוש בטרמינולוגיה הפרטית שלהם. הבה ונעבור לתיאור קצר של הדיון בפורום, עם אחד המכנה את עצמו א. עצבר (שם שודאי יהיה מוכר לכל מי שעוקב קצת אחרי דיוני מתמטיקה באינטרנט הישראלי), על הטור ההרמוני (דיון שהתפתח מדיון על נושאים אחרים, כמו זה שפאי אינו קבוע אלא משתנה ושאין מספרים אי רציונליים). הטיעון מתחיל ב:

ויש עוד אגדה, והיא טוענת שאין מספר גבול, לסכום מספרי תג שאין להם סוף.

"מספרי תג" בהקשר זה הם פשוט הופכיים של מספרים טבעיים. כלומר, \(n^{\prime}=\frac{1}{n}\). דומני שהסימון הזה איננו המצאה של עצבר, אך בכל מקרה הוא איננו סטנדרטי ואין שום טעם להשתמש בו בהקשר הנוכחי. זו המחשה להבדלי הטרמינולוגיות בין המתמטיקאי והטרחן – בין מי שרוצה שיבינו אותו, ובין מי שלא ברור מה הוא רוצה. כמובן שגם הדיבורים על "אגדה" אינם מבשרים טובות.

הטיעון נמשך ב:

אני מחזיק בדעה כי הטור ההרמוני מתכנס, והשערתי היא שהוא מתכנס ל 137.

זה כמובן לגיטימי לכשעצמו, רק תלוי מהם הנימוקים. אלא שהם כלל לא מגיעים בשום שלב שהוא. אם כן, מתבקש להציג את אחת מההוכחות שלעיל. אז מה שעושים הוא לנסות להציג לעצבר את הגרסה בת השורה האחת של שיטת קיבוץ האיברים (הדבר הראשון שהראיתי). התגובה לכך היא מרתקת:

ההוכחה הזו הופכת דעכן לטור מונוטני, אבל הפיכה זו אינה אפשריתזו אינה הוכחה.

א.עצבר.

שימו לב להכנסת המושג החדש "דעכן" (מושג שאינו קיים בשום מקום, למיטב ידיעתי) ולאופן שבו הפסילה נעשית – הפיכה זו אינה אפשרית, וחסל. כמו תמיד, הקו המפריד בין טרחן ומתמטיקאי אינו כה מובהק – גם מתמטיקאי יכול לפסול הוכחות שמבוססות על מניפולציות של טורים; אלא שהמתמטיקאי ככל הנראה יספק הפניה או אזכור כלשהו של הסיבה לכך שהמניפולציות אינן חוקיות, למשל משפט רימן. מניפולציית כינוס האיברים של הטור ההרמוני היא חוקית לחלוטין, וכבר הראיתי דרך פשוטה לחשוב עליה שאינה כוללת התעסקות עם טורים אינסופיים כלל, כך שהפסילה של עצבר לא קשורה למציאות – אבל היא נחרצת לחלוטין, ופשוט מתעלמת מתוכן ההוכחה.

השלב הבא בדיון עם הטרחן הוא לבקש ממנו, אם כן, להתייחס לתוכן ההוכחה. התגובה שלו פשוטה – חזרה על ההוכחה בטרמינולוגיה שלו, וסיום עם משפט המחץ:

זו בערך ההוכחה שאתה מציג, ואני משאיר לך למצוא לבד את נקודת התורפה שלה.

זו הנקודה שבה אי אפשר שלא להתחיל לתהות האם הטרחן אינו סתם טועה, אלא ממש מנסה ללעוג למתדיינים עמו (אפשרות סבירה בהחלט).

אבל אז הדיון (אחרי עוד כמה וכמה הודעות מבוזבזות) מגיע לתפנית מפתיעה – עצבר כותב פירוט של הנימוק שלו לכך שהטור מתכנס, והנימוק הזה הוא מרתק. אצטט קטע מדיאלוג ארוך שעצבר כותב כדי להמחיש את הרעיון:

לוי: הדעכן ההרמוני הזה 2' 3' 4' 5' 6' 7' 8'מתחיל עם מספרי הדעיכה הבאים 66.0 75.0 8.0 0.833 0.86 0.87

ראובן: אני רואה שמספר הדעיכה מתחיל ב 0.66 והוא נוסק לעבר 1

לוי: אם מספר הדעיכה ישאר 0.66 יש נוסחה לחישוב הסכום

ואם מספר הדעיכה יגיע ל 0.75 וישאר קבוע, יש נוסחה לחישוב הסכום

ואם מספר הדעיכה יגייע ל 0.8 וישאר קבוע, יש נוסחה לחישוב הסכום

לכן, שינוי מספר הדעיכה לא משנה את העובדה שיש לדעכן מספר סכום, אבל כאשר מספר הדעיכה משתנה, אין לנו נוסחה לחישוב הסכום.

מה שמכונה "מספרי דעיכה" הם היחסים בין איברים עוקבים בסכום. אכן, \(\frac{1}{3}/\frac{1}{2}=0.66\dots\), ו-\(\frac{1}{4}/\frac{1}{3}=0.75\dots\) וכן הלאה. עוד אומר עצבר נכון שאם "מספר הדעיכה" של טור הוא קבוע, אז הטור מתכנס – זו דרך מסובכת להציג את המושג המוכר של טור הנדסי מתכנס. למעשה, צריך להיות מדוייקים – "מספר הדעיכה" של הטור צריך להיות קבוע וקטן מ-1 (הטור \(1+2+4+8+\dots\) הוא טור הנדסי בעל "מספר דעיכה" 2 והוא אינו מתכנס). אלא שעצבר מבצע כעת קפיצה מחשבתית איומה: המחשבה שאם עבור מספר דעיכה קבוע הטור מתכנס תמיד, זה אומר שגם עבור מספר דעיכה משתנה הטור מתכנס תמיד – טענה שגויה לחלוטין. והוא עוד מגדיל לעשות ואומר:

כל דעכן דועך אל האפס,יש דעכן הדועך אל האפס במספר דעיכה קבוע

ויש דעכן הדועך אל האפס במספר דעיכה משתנה

ואיזה הבדל עקרוני יכול להיות בינהם ?

איזה הבדל? כל ההבדל שבעולם! ההבדל בין טור מתכנס וטור מתבדר! וזו מהות השגיאה של עצבר – חוסר היכולת לבצע את ההבדלה הזו. הקפיצה הגסה הזו מעל דברים "מובנים מאליהם" שבעצם אינם מובנים כלל מאליהם ודורשים הצדקה קפדנית. זה לב הבעיה – לא השימוש בטרמינולוגיה פרטית וגם לא היוהרה והדיבורים על "אגדות" וכדומה – אלא עצימת העיניים כאשר העובדות לא מסתדרות עם התיאוריה.

לסיום רק אעיר שבאופן כללי הטעות שעצבר מבצע היא טעות נפוצה למדי בקרב מי שעדיין לא פיתח אינטואיציה מתמטית סבירה. עצבר מבצע קפיצה מחשבתית מהצורה "אם משהו מתקיים לכל מספר טבעי, הוא מתקיים גם באינסוף". במקרה שלו – אם "נקפיא" את מספר הדעיכה של הטור אחרי מספר סופי של צעדים, הטור יתכנס; אז אם זה קורה כשמקפיאים בכל שלב, למה שזה לא יתכנס גם כשהולכים לאינסוף?

שגיאה דומה (אבל בלבוש ערמומי יותר) צצה במקומות רבים במתמטיקה שבהם משתמשים באינסוף. אתן דוגמה או שתיים. ראשית, נניח שיש לנו סדרה \(a_{n}\), ומתקיימת התכונה שלכל \(n\) טבעי, מתקיים \(\inf\left\{ a_{1},a_{2},\dots,a_{n}\right\} >0\), כלומר האינפימום של \(n\) האיברים הראשונים בקבוצה הוא גדול מאפס. האם ניתן להסיק מכך שהאינפימום של הקבוצה כולה גדול מאפס? בפירוש לא, והסדרה \(a_{n}=\frac{1}{n}\) מראה זאת בבירור (מה שכן ניתן לעשות הוא לומר שהאינפימום של הקבוצה כולה הוא גדו או שווה לאפס).

דוגמה מתחום שונה לגמרי – בתורת החישוביות מראים כי כל שפה שיש בה רק מספר סופי של מילים היא כריעה (שפה היא קבוצת מילים; להכריע שפה פירושו להריץ אלגוריתם שבהינתן מילה תמיד מסיים את ריצתו עליה ואומר אם היא שייכת לשפה או לא). עכשיו בואו ניקח שפה \(L\) כלשהי ונסתכל על \(L_{n}\) – כל המילים ב-\(L\) שאורכן לכל היותר \(n\). אז כל \(L_{n}\) שכזו היא כריעה, אבל זה ממש לא אומר ש-\(L_{\infty}\) (שהיא בעצם \(L\)) תהיה גם כן כריעה, כי ייתכן מאוד ש-\(L\) המקורית לא הייתה כריעה. כאן שוב הזינוק מ-\(n\) עד לאינסוף הורס לנו את הכל. האינסוף הוא יצור חמקמק.

זה כמובן לא אומר שאף פעם לא ניתן לבצע את הזינוק הזה. דוגמה ידועה היא משפט הקומפקטיות מלוגיקה – אם יש לנו אוסף אינסופי של פסוקים, וכל תת קבוצה סופית שלהם היא ספיקה, אז גם האוסף כולו ספיק. כאן אכן מספיק להבין מה קורה במקרה הסופי כדי לזנק למקרה האינסופי. קיימות עוד תכונות קומפקטיות שכאלו, אך קיומן הוא אף פעם לא מובן מאליו ותמיד צריך להיות זהירים – וזהירות היא בדיוק מה שחסר לטרחנים המתמטיים, לדעתי. זה, ואולי גם בורג.

קבוצת קנטור, ואיך לכל הרוחות המימד שלה הוא בערך 0.63?

מהו מימד? זו שאלה שכבר התייחסתי אליה בעבר, ואז אמרתי כי "יש הגדרות שונות לאותו מושג אינטואיטיבי, שמנסות להשיג מטרות שונות". אז עסקתי בהגדרה הנאיבית והפשוטה ביותר של מימד, ואילו הפעם אני רוצה לדבר על הגדרה מסובכת יותר, שנוטה לגרום לאנשים לחוש תחושת "מה לעזאזל" כשהם שומעים לראשונה על תוצאותיה – מימד פרקטלי. ומדוע "מה לעזאזל"? כי המימד הפרקטלי של קבוצות עשוי שלא להיות מספר טבעי – למעשה, ברוב המקרים הוא אינו טבעי, אלא מספר אי רציונלי כלשהו. כך למשל קבוצת קנטור, שאותה אציג בפוסט הזה, היא בעלת מימד פרקטלי של בערך \(0.63\). מה ההגיון שמאחורי דבר כזה?

נתחיל בהגדרת קבוצת קנטור. ההגדרה נראית מוזרה למדי, וקרוב לודאי שתתהו בשביל מה כל זה טוב; ובכן, לצורך כך יהיה צורך בפוסט נפרד שמתאר את האופן שבו גאורג קנטור גילה את תורת הקבוצות, על המוזרויות שבה, כחלק ממחקר "קלאסי" באנליזה מתמטית. השימוש שלו בקבוצת קנטור (שלא התגלתה על ידו) היה כדי לתת דוגמה פתולוגיות ונוגדת אינטואיציה, בשל התכונות המעניינות שלה שעל חלקן אדבר כאן.

ובכן, מהי קבוצת קנטור? הבניה שלה ניתנת לתיאור באופן אלגוריתמי למדי. מתחילים עם הקטע \(\left[0,1\right]\) בישר הממשי, שאותו נסמן \(C_{0}\). כעת מורידים ממנו את השליש האמצעי, אך מותירים את נקודות הקצה. כלומר, מורידים מ-\(C_{0}\) את \(\left(\frac{1}{3},\frac{2}{3}\right)\). התוצאה? \(C_{1}=\left[0,\frac{1}{3}\right]\cup\left[\frac{2}{3},1\right]\).

כעת קיבלנו קבוצה, \(C_{1}\), אשר מורכבת משני קטעים. הבה ונתעלל בהם באותו האופן שבו התעללנו ב-\(C_{0}\) – מכל אחד משניהם נוריד את השליש האמצעי. כלומר, מ-\(\left[0,\frac{1}{3}\right]\) אנחנו מורידים את \(\left(\frac{1}{9},\frac{2}{9}\right)\), ואילו מ-\(\left[\frac{2}{3},1\right]\) אנחנו מורידים את \(\left(\frac{7}{9},\frac{8}{9}\right)\). התוצאה? \(C_{2}=\left[0,\frac{1}{9}\right]\cup\left[\frac{2}{9},\frac{1}{3}\right]\cup\left[\frac{2}{3},\frac{7}{9}\right]\cup\left[\frac{8}{9},1\right]\). קיבלנו כעת ארבעה קטעים. שימו לב שכולם מאותו האורך, ולמעשה – שקל לתאר במפורש מהם. לצורך כך אכתוב את \(C_{2}\) שוב, בצורה אחידה יותר: \(C_{2}=\left[\frac{0}{9},\frac{1}{9}\right]\cup\left[\frac{2}{9},\frac{3}{9}\right]\cup\left[\frac{6}{9},\frac{7}{9}\right]\cup\left[\frac{8}{9},\frac{9}{9}\right]\). אפשר אם כן לחשוב על \(C_{2}\) כעל מה שמתקבל כאשר קוצצים את \(\left[0,1\right]\) לתשעה חלקים שווי אורך, מעיפים לפח את חלקם ומשאירים את היתר.

השלב הבא יניב את \(C_{3}\), שתהיה מורכבת משמונה קטעים, כל אחד מאורך \(\frac{1}{27}\) (כי ב-\(C_{2}\) היו ארבעה קטעים וכל אחד מהם חולק לשלושה חלקים שהאמצעי מביניהם נזרק). ב-\(C_{4}\) כבר יהיו 16 קטעים מאורך \(\frac{1}{81}\), ובאופן כללי: \(C_{n}\) תורכב מ-\(2^{n}\) קטעים, כל אחד מאורך \(\frac{1}{3^{n}}\). מה קיבלנו? סדרת קבוצות, \(C_{0},C_{1},C_{2},\dots\) כך שכל קבוצה מוכלת בקודמת – \(C_{0}\supset C_{1}\supset C_{2}\supset\dots\). קבוצת קנטור מתוארת בתור מה שמתקבל "בסוף" התהליך האינסופי הזה; כדי להגדיר זאת באופן מתמטי מדוייק, מגדירים אותה בתור החיתוך של כל אינסוף הקבוצות הללו, דהיינו \(C=\bigcap_{i=0}^{\infty}C_{i}\). במילים – קבוצת קנטור \(C\) תכיל את כל הנקודות שאינן מסולקות אף פעם מ-\(\left[0,1\right]\), בכל התהליך שתיארנו – אלו בדיוק הנקודות שנמצאות בכל קבוצה \(C_{n}\) שמתקבלת במהלך התהליך. השאלה היא מהן הנקודות הללו, ואם הן בכלל קיימות.

הנה ציור המדגים את שלבי הבניה הראשונים של הקבוצה:

ציור של האיטרציות הראשונות בבניית קבוצת קנטור

כמו שאפשר לראות, מהר מאוד הקבוצה הופכת להיות דלילה למדי, בלי קטעים "שמנים". דרך פורמלית לתאר זאת היא על ידי חישוב המידה הכוללת של כל הקטעים שמוצאים מתוך הקבוצה. מידה של קטע, לצורך הדיון הזה, תהיה פשוט אורכו – אין לנו צורך בהגדרה מורכבת יותר. באיטרציה הראשונה מסולק מ-\(C_{0}\) הקטע \(\left(\frac{1}{3},\frac{2}{3}\right)\) שאורכו \(\frac{1}{3}\); באיטרציה השניה מסולקים הקטעים \(\left(\frac{1}{9},\frac{2}{9}\right)\) ו-\(\left(\frac{7}{9},\frac{8}{9}\right)\) – שני קטעים שאורכם \(\frac{1}{9}\); ובאופן כללי, באיטרציה ה-\(n\) מסולקים \(2^{n-1}\) קטעים שאורכם \(\frac{1}{3^{n}}\) כל אחד, ולכן האורך הכולל שלהם הוא \(\frac{2^{n-1}}{3^{n}}\). שימו לב שכל הקטעים הללו זרים זה לזה, ולכן המידה של האיחוד של כולם שווה לסכום המידות שלהם, ולא סתם מהווה חסם עליון עבורו, ומכאן שניתן לחשב אותה במדוייק: המידה הכוללת של כל הקטעים שאותם מוציאים מקבוצת קנטור היא \(\sum_{n=1}^{\infty}\frac{2^{n-1}}{3^{n}}\), או בסימון פשוט מעט יותר, \(\sum_{n=0}^{\infty}\frac{2^{n}}{3^{n+1}}\). אלא שאת הסכום הזה ניתן לחשב במדוייק, אם שמים לב לכך שזהו פשוט טור הנדסי אינסופי מתכנס: \(\sum_{n=0}^{\infty}\frac{2^{n}}{3^{n+1}}=\frac{1}{3}\sum_{n=0}^{\infty}\left(\frac{2}{3}\right)^{n}=\frac{1}{3}\cdot\frac{1}{1-\frac{2}{3}}=\frac{1}{3}\cdot\frac{1}{\frac{1}{3}}=1\).

אם כן, מה שקיבלנו הוא שבמהלך בניית קבוצת קנטור, הוצאנו מ-\(\left[0,1\right]\) את "כל האורך". זה גורר מיידית שמידת קבוצת קנטור היא אפס, שכן \(\mu\left(C\right)+\mu\left(\overline{C}\right)=\mu\left(C\cup\overline{C}\right)=\mu\left(\left[0,1\right]\right)=1\) (למעשה, זה תלוי בהגדרה שלנו של מידה, כי ייתכן שקבוצת קנטור לא תהיה מדידה – אך עם מידות סטנדרטיות, ובפרט מידת לבג שהיא מה שאני חושב עליו כל הזמן, אין בעיה שכזו).

התוצאה הזו אינה מוזרה לכשעצמה, והיא אף מסתדרת עם האינטואיציה שלנו לגבי האופן שבו כל הקטעים ה"שמנים" סולקו מ-\(C\); אולם הזבנג הראשון מגיע כשבודקים מי הנקודות שנותרו ב-\(C\) ומגלים שנותרו המון מהן – למעשה, \(C\) מכילה מספר שאינו בן מניה של נקודות. במילים אחרות, ה"גודל" של \(C\) שווה ל"גודל"של \(\left[0,1\right]\)! אפשר לתת התאמה חד-חד ערכית ועל בין כל נקודה של \(\left[0,1\right]\) ובין כל נקודה של \(C\)! זוהי המחשה חזקה מאוד לאופן שבו מושג ה"גודל" (או יותר במדוייק – העוצמה) של קבוצה הוא מנותק ממושג המידה של קבוצה (הוא אינו בלתי תלוי לחלוטין – כבר הראיתי כאן בעבר כי קבוצה בת מניה היא בהכרח ממידה אפס; מה שמפתיע כאן הוא שגם קבוצות שאינן בנות מניה עשויות להיות ממידה אפס).

בואו נבדוק איך נקודה יכולה לשרוד את הבניה של קבוצת קנטור. למשל, הנקודה \(\frac{1}{3}\). בסיבוב הראשון היא נותרת בחיים כי היא נקודת הקצה הימנית של הקטע השמאלי מבין השניים שמתקבלים; בסיבוב השני הקטע הזה נחתך במרכזו לשתי חתיכות, ו-\(\frac{1}{3}\) תהיה בקצה החתיכה הימנית, הרחק משדה הקטל. גם בסיבוב הבא החתיכה שבה היא נותרה תיחתך לשניים, אבל \(\frac{1}{3}\) תהיה בקצה, הרחק משדה הקטל; וכן הלאה וכן הלאה. כלומר, הסכנה האמיתית ל-\(\frac{1}{3}\) נשקפה לה רק בסיבוב הראשון, שם היא הייתה על קצה שדה הקטל; אבל משם ואילך אין לה שום סכנה, והיא תמיד מרוחקת מרחק כלשהו מהקטל – מרחק של \(\frac{1}{3^{n}}\). אמנם, זה מרחק ששואף לאפס, אבל זה מבטיח ש-\(\frac{1}{3}\) תהיה בכל קבוצה \(C_{n}\), ולכן תהיה לבסוף גם ב-\(C\).

אבל \(\frac{1}{3}\) היא דוגמה משעממת, שכן היא מתקבלת מתישהו כנקודת קצה של אחד מהקטעים ב-\(C_{n}\) כלשהי (במקרה שלנו, ב-\(C_{1}\)). המשחק המחשבתי שעשינו מראה שכל נקודת קצה כזו תישאר, אבל מספר הנקודות הללו הוא זניח – בן מניה. הסיבה לכך היא שב-\(C_{n}\) יש בסה"כ \(2^{n+1}\) נקודות קצה שכאלו (ב-\(C_{n}\) יש \(2^{n}\) קטעים, כל אחד עם \(2\) נקודות קצה), ולכן מספר נקודות הקצה הכולל לכל \(C_{n}\) הוא סופי, ולכן מספר נקודות הקצה הכולל לכל ה-\(C_{n}\)-ים ביחד הוא בן מניה (איחוד בן מניה של קבוצות סופיות הוא בן מניה). בקיצור, הרוב המוחץ של הנקודות ב-\(C\), אם היא אכן לא בת מניה כפי שאני טוען, מגיע מנקודות שאינן נקודות קצה. זה כבר משוגע למדי ונוגד אינטואיציה בצורה חריפה – הרי אמרנו שמסלקים מ-\(C\) את כל ה"תוכן"- אנחנו מוציאים מתוכה קווים שאורכם הכולל הוא 1 – איך ייתכן שיוותרו ב-\(C\) נקודות שאינן נקודות קצה? אינטואיטיבית הן צריכות להיות ב"אמצע" הדרך בין שתי נקודות קצה, כלומר על קו כלשהו!

הבה ונתבונן בנקודה \(\frac{1}{4}\). מכיוון ש-\(\frac{1}{4}<\frac{1}{3}\), הרי ש-\(\frac{1}{4}\) נופלת בתוך \(\left[0,\frac{1}{3}\right]\) ושורדת את הסיבוב הראשון. מה קורה בסיבוב השני? ובכן, חייבים לעשות כאן חשבונות קטנוניים. אנחנו רוצים להשוות את \(\frac{1}{4}\) לנקודות מהצורה \(\frac{k}{9}\), והדרך לעשות זאת היא עם מכנה משותף – \(\frac{1}{4}=\frac{9}{36}\), ואילו \(\frac{k}{9}=\frac{4k}{36}\), ולכן קל לראות ש-\(\frac{2}{9}<\frac{1}{4}<\frac{3}{9}\), כלומר הוא שורד גם את הסיבוב השני – הוא נמצא בחלק הימני של \(\left[0,\frac{1}{3}\right]\). בסיבוב הבא \(\frac{1}{4}\) שורד כי הוא בקטע \(\left[\frac{6}{27},\frac{7}{27}\right]\), שהוא החלק השמאלי של \(\left[\frac{2}{9},\frac{3}{9}\right]\). אתם אולי כבר יכולים לנחש מה יקרה מכאן ואילך – \(\frac{1}{4}\) יתפספס פעם אחת כי הוא יימצא בחלק הימני ובפעם הבאה כי הוא יהיה בחלק השמאלי של הקטע שחותכים; הסיבה שהוא שורד היא שהוא אף פעם לא נמצא בקטע האמצעי. כיצד ניתן לתאר זאת בצורה מדוייקת? לצורך כך אנו מכניסים לתמונה מושג חדש – הפיתוח הטרינרי של איברי \(\left[0,1\right]\).

כזכור, פיתוח עשרוני של מספר הוא פשוט סדרת ספרות בין 0 ל-9. לצורך העניין אנחנו מדברים רק על מספרים בתחום \(\left[0,1\right]\), כך שלכולם יש פיתוח מהצורה \(0.a_{1}a_{2}a_{3},\dots\); הפיתוח הזה מסמל שהמספר הוא בדיוק \(\sum_{n=1}^{\infty}\frac{a_{n}}{10^{n}}\). באופן דומה, פיתוח טרינרי של מספר ישתמש בספרות 0,1,2 בלבד, ואז הסכום המתאים יהיה \(\sum_{n=1}^{\infty}\frac{a_{n}}{3^{n}}\).

בואו ונחזור ל-\(\frac{1}{4}\). איך מגלים מה הפיתוח שלו בבסיס טרינרי? ובכן, ספרה-ספרה. האם הספרה הראשונה היא 0, 1 או 2? אם היא הייתה \(1\), אז \(\frac{1}{4}\) היה מהצורה \(\frac{1}{3}\) ועוד משהו; ואם היא הייתה \(2\) הוא היה מהצורה \(\frac{2}{3}\) ועוד משהו. מכיוון שהוא קטן משניהם, אז הספרה הראשונה חייבת להיות \(0\). באופן כללי, אם אנחנו מחפשים את הפיתוח של \(a\), אז הספרה הראשונה נקבעת לפי השאלה האם \(a\in\left[0,\frac{1}{3}\right]\) (ואז היא 0) או ש-\(a\in\left[\frac{1}{3},\frac{2}{3}\right]\) (ואז היא 1) או ש-\(a\in\left[\frac{2}{3},1\right]\) (ואז היא 2). בוודאי שמתם לב למשהו מוזר בטיעון שלי – אם \(a=\frac{1}{3}\), אז מהי הספרה הראשונה שלו? 0 או 1? התשובה היא ששתי הספרות אפשריות, אבל המשך הפיתוח יהיה תלוי בכך – אם היא תהיה 1, אז המשך הפיתוח יהיה כולו אפסים, ולכן הפיתוח יהיה סופי. אני מעוניין לדבר כאן על פיתוחים אינסופיים בלבד, ולכן לא ארשה את הסיטואציה הזו. במילים אחרות, תמיד אקח את הספרה הקטנה יותר מבין אלו האפשריות.

נניח שהסכמנו שהספרה הראשונה היא \(a_{1}\), מה שאומר ש-\(a\in\left[\frac{a_{1}}{3},\frac{a_{1}+1}{3}\right]\). מה תהיה הספרה השניה, \(a_{2}\)? לצורך כך נחלק את הקטע \(\left[\frac{a_{1}}{3},\frac{a_{1}+1}{3}\right]\) שוב לשלושה חלקים, ו-\(a_{2}\) תיקבע לפי המיקום של \(a\) בחלוקה הזו – \(a_{2}=0\) אם הוא בחלק השמאלי, \(a_{2}=1\) אם הוא באמצעי, ו-\(a_{2}=2\) אם הוא בימני.

כל זה מבלבל למדי, ולכן מומלץ למי שלא הצליח לעקוב לחשוב על דוגמה פשוטה יותר במספרים טבעיים. נניח, המספר \(153\) בבסיס עשרוני. היכן הוא נמצא? ראשית, אם נחלק את התחום \(\left[0,1000\right]\) לעשרה חלקים שווים, נגלה שהוא נמצא בשני מביניהם – החלק \(\left[100,200\right]\); לאחר מכן נחלק תחום זה לעשרה חלקים שווים ונקבל שהמספר נמצא בחלק השישי – \(\left[150,160\right]\); ואז נחלק תחום זה לעשרה חלקים שווים ונקבל שהוא ברביעי מביניהם, \(\left[153,153\right]\). במילים אחרות, כל ספרה נוספת של המספר "משפרת את הדיוק" שלנו בנוגע לתחום שבו המספר עשוי להימצא, כשבכל פעם התחום הזה קטן פי עשרה (או במקרה של פיתוח טרינרי, פי שלושה).

כעת קל לאפיין את כל הנקודות שנמצאות בקבוצת קנטור – אלו בדיוק הנקודות שאף פעם לא נופלות באמצע קטע, בשום שלב בפיתוח שלהן. לכאורה "ליפול באמצע קטע" פירושו שמופיע 1 בפיתוח הטרינרי של הנקודה, אבל זה לא בהכרח אומר שהנקודה אכן נופלת באמצע; אם אחרי ה-1 מופיעים רק 0-ים או 2-ים, אז הנקודה לא נמצאת באמת באמצע קטע אלא "בקצה של קטע אמצעי" כלשהו (חשבו על הנקודה 2/3; אפשר לחשוב עליה כנמצאת בקצה הימני של הקטע האמצעי מבין השלושה שמתקבלים בתחילת הבניה של קבוצת קנטור; וכמובן, אפשר לחשוב עליה גם כנמצאת בקצה השמאלי של הקטע הימני מבין השלושה). אם בפיתוח של נקודה מופיע 1 אבל לאחר מכן רק סדרה אינסופית של 0 או סדרה אינסופית של 2, אז אפשר להחליף את הפיתוח הזה בפיתוח אחר שבו לא מופיע 1 (כי 1 ואז אינסוף אפסים אפשר להחליף באפס ואז אינסוף 2-ים; ו-1 ואז אינסוף 2-ים אפשר להחליף ב-2 ואז אינסוף אפסים). לכן הקריטריון לשייכות לקבוצת קנטור הוא זה: כל נקודה שיש לה פיתוח טרינרי שבו לא מופיע 1, שייכת לקבוצת קנטור.

כעת קל לראות כי קבוצת קנטור איננה בת מניה – פשוט שמים לב לכך שמספר הסדרות האינסופיות שאבריהן הן \(0,2\) איננו בן מניה, וחסל. זוהי תוצאה מפתיעה מאוד, אך בסופו של דבר אני סבור שהאינטואיציה יכולה להסתדר איתה.

כעת נעבור לדבר על המימד של קבוצת קנטור, ולצורך כך יש להסביר את ההגדרה שבה אני עומד להשתמש – מימד פרקטלי. מימד פרקטלי הוא מקרה פרטי של מושג כללי וחזק יותר, שנקרא מימד האוסדורף; מכיוון שהגדרתו מסובכת למדי לא אציג אותו כאן בשלב זה.

הגדרות למימד מנסות בדרך כלל להזדהות עם ההגדרה הנאיבית שלנו למימד של קבוצות "רגילות". במימד 1, היא קו; בשני מימדים, ריבוע הוא הקבוצה הרגילה הפשוטה ביותר שהיא ממימד 2, ובשלושה מימדים – קובייה, וכן הלאה. מה מבדיל בין היצורים הללו? הנה דרך יפה לחשוב על כך: אם ניקח קו ישר ונחתוך אותו באמצע, נקבל שני קווים ישרים שאורך כל אחד מהם הוא חצי מאורך הקו המקורי. כלומר, אפשר לחשוב על הקו כאילו הוא מורכב משני עותקים של עצמו, שגודל כל אחד מהם הוא חצי מגודל הקו המקורי. לעומת זאת, אם ניקח ריבוע ונחתוך אותו באמצע, נקבל שני מלבנים, שאינם דומים לריבוע; אבל אם נחתוך גם אותם באמצע, מה שנקבל הוא ארבעה ריבועים שנראים כמו הריבוע המקורי, פרט לכך שהם כווצו "פי 2" הן מבחינת אורכם והן מבחינת רוחבם. ואם ניקח קוביה וננסה לבנות אותה מקוביית קטנות יותר שכווצו "פי 2"נראה שאנו נזקקים לשמונה קוביות. אפשר גם לחשוב על כך בכיוון ההפוך – נניח שניקח קוביה (או ריבוע, או קו) ונכפיל את גודלו "פי 2"- כמה עותקים של היצור המקורי נקבל? לא קשה להוכיח כי נקבל \(2^{d}\) עותקים, כש-\(d\) הוא המימד של הקבוצה המדוברת (זכרו, אנחנו עדיין עוסקים בקבוצות פשוטות – קוביות \(d\) מימדיות).

המספר 2 נכנס לסיפור הזה בצורה שרירותית לגמרי. מה היה קורה אם היינו מנפחים את הריבוע פי 3 ולא פי 2? אז היינו מקבלים 9 עותקים של הריבוע המקורי, במקום 4. במילים אחרות , אם מנפחים פי 3, מקבלים \(3^{d}\) עותקים. ואם מנפחים פי \(k\) באופן כללי, מקבלים \(k^{d}\) עותקים.

מכאן הדרך להגדרה כללית אינה קשה. אם אנו לוקחים אובייקט ומנפחים אותו פי \(a\), ומקבלים \(b\) עותקים של האובייקט המקורי, איך ניתן להגדיר את המימד באמצעות \(a,b\)? ובכן, אנו מצפים שיתקיים הקשר \(b=a^{d}\), כלומר \(d=\log_{a}\left(b\right)\). מכיוון שבמתמטיקה קל לבטא לוגריתם בבסיס כלשהו באמצעות הלוגריתם הטבעי \(\ln\) (למעשה, אפשר לבטא בקלות לוגריתם בבסיס כלשהו באמצעות לוגריתם בבסיס אחר) כותבים הגדרה זו בתור \(d=\frac{\ln b}{\ln a}\). כמובן שמתעוררת השאלה האם לכל ניפוח ב-\(a\) אכן נקבל \(b\) שהוא \(a^{d}\), או שעבור ערכים שונים של \(a\) נקבל ערכים של \(b\) ש"מתנהגים מוזר" ואינם בהכרח \(a^{d}\) עבור אותו \(d\) כל הזמן; אבל לקבוצות שעליהן אדבר, התכונה הזו כן מתקיימת. למרות שדיברתי על ניפוח, אפשר לחשוב על כך גם באופן ההפוך – \(a\) מתאר פי כמה אנחנו מקטינים את הקבוצה, ו-\(b\) מתאר כמה עותקים של הקבוצה המוקטנת מרכיבים את הקבוצה המקורית.

המימד הזה נקרא "מימד פרקטלי" שכן הגדרתו מדברת על יצורים שהם פרקטלים – יצורים שאפשר לחשוב עליהם כאילו הם מורכבים מעותקים קטנים יותר של עצמם. בדרך כלל כשמדברים על פרקטלים לא חושבים על יצורים משעממים כמו קו או ריבוע, ואני מקווה לכתוב מתישהו פוסט שיציג פרקטלים יותר ברצינות.

כעת הבה ונחיל את ההגדרה הזו על קבוצת קנטור. גם על קבוצת קנטור אפשר לחשוב כאילו היא מורכבת מעותקים קטנים יותר של עצמה, כלומר שהיא פרקטל – מדוע? כי הבה ונסתכל במה שקורה לקבוצת קנטור אחרי האיטרציה הראשונה, כלומר בקבוצה \(C_{1}\); היא מורכבת משני קטעים, כל אחד מהם באורך \(\frac{1}{3}\), שמעתה והלאה מה שעומדים לעשות איתם הוא לסלק להם את האמצע, ולשאריות יסלקו את האמצע, וכו' וכו' – כלומר, יופעל עליהם אותו תהליך שהופעל על קבוצת קנטור המקורית. במילים אחרות, אפשר לחשוב על קבוצת קנטור כאילו היא מתקבלת מאיחוד של שתי קבוצות קנטור קטנות יותר. כמה קטנות יותר? פי 3, שהרי אורך הקטע שממנו הבניה מתחילה עבור הקבוצות הקטנות יותר הוא קטן פי 3 מאורך הקטע שבו התחילה הבניה המקורית. במילים אחרות, במקרה שלנו \(a\) הוא 3, ואילו \(b\) הוא 2. מכאן שהמימד הוא \(d=\frac{\ln2}{\ln3}\). אבל מספר זה לא רק שאינו שלם, הוא אף אינו רציונלי. אם ניקח את הספרות הראשונות שלו נקבל \(0.6309297\dots\), וזה המספר שהבטחתי בהתחלה.

כלומר, קבוצת קנטור היא לא אפס ממדית – היא "גדולה יותר"מיצור אפס-ממדי, כלומר מנקודה. זה משתלב טוב עם האינטואיציה שלנו שהקבוצה היא "גדולה" כי יש בה מספר לא בן מניה של נקודות. מצד שני, קבוצת קנטור היא גם לא 1-ממדית – היא "קטנה יותר" מיצור חד-ממדי, כלומר מקו. זה משתלב טוב עם האינטואיציה שלנו שהקבוצה היא "קטנה" כי המידה שלה היא 0 והוצאנו ממנה את כל ה"אורך". במילים אחרות, המימד הפרקטלי שהצגתי כאן מאפשר לנו יכולת הבחנה חדה יותר בין קבוצות "קטנות" ו"גדולות".

אני מקווה שזה משכנע אתכם שיש טעם לדבר על מימדים מסוג זה, ושיש הגיון רב בדיבור על מימדים לא שלמים. אותי, לפחות, זה משכנע.

מי הזיז את הטור שלי?

יותר מכל, המתמטיקה של זמננו זוכה לתדמית "מדוייקת", "פורמלית", אפילו צרת מוחין. טענה נפוצה בדיונים היא ש"החיים זה לא מתמטיקה" ואין טעם לבקש להכל הגדרות מדוייקות והסברים ברורים. אלא שהמתמטיקה הזו היא צעירה יחסית; אפילו המתמטיקה של המאה ה-19 לא הייתה כזו בדיוק. המתמטיקה ה"פורמלית" היא תוצר של תהליך בן אלפי שנים, שהתרחש שלא במקרה אלא מתוך הכרח.

נהוג לציין את תחילת המתמטיקה ביוונים הקדמונים. לא שחישובים לא בוצעו קודם לכן, והדוגמאות הבולטות הן המצרים והבבלים, שידעו לבצע חישובים לא טריוויאליים כלל, בהתחשב בכך שהמתמטיקה לא הייתה קיימת אז – למשל, פתרון משוואות ריבועיות. אלא שאצלם לא היה מושג כזה, "משוואה ריבועית" – היו בעיות קונקרטיות, לרוב גאומטריות במהותן, והיו אלגוריתמים שהותאמו למקרים מאוד ספציפיים ופתרו אותם. המושג של "הוכחה" לא היה קיים כלל – הנכונות של האלגוריתמים לא עניינה אף אחד (עד כמה שניתן להבין זאת מהשרידים שנותרו…), אלא רק שהם עובדים בפועל. היוונים הם אלו ששינו את התפיסה הזו והכניסו לתמונה את מושג ההוכחה – גזירה של תוצאות כלליות מתוך קבוצת אקסיומות בסיסיות שעבור היוונים, נכונותן הייתה "מובנית מאליה", וכללי גזירה פשוטים. אלא מה – האקסיומות של היוונים לא היו בדיוק מובנות מאליהן (בפרט, אקסיומה אחת – "אקסיומת המקבילים" – הייתה שנויה במחלוקת במשך אלפי שנים; כבר סיפרתי על כך בעבר כאן טיפה, ואולי ארחיב בעתיד), ובימינו הן לא היו עומדות במבחן הדקדקני של המתמטיקה בת זמננו.

לאחר תקופת היוונים עיקר העיסוק (ראשית בארצות האיסלאם בתקופת ימי הביניים, ולאחר מכן באירופה של תקופת הרנסנס) התמקד בפתרון משוואות אלגבריות, אם כי רוב המתמטיקאים עדיין השתמשו בגאומטריה עבור אינטואיציה ועבור הצדקה לנכונות הפתרונות שלהם. ואז הגיעה המאה ה-17, שבה פקדה את המתמטיקה תקופת פריחה שלא פסקה עד היום, והביאה עמה בין היתר את אחד מעמודי התווך המרכזיים של המתמטיקה: החשבון האינפיניטסימלי, שראשיתו בבעיות גאומטריות מעשיות כדוגמת חישוב המשיק לעקום, או שטח החסום על ידי עקום. החשבון האינפיניטסימלי הומצא בנפרד על ידי ניוטון ולייבניץ, ושניהם התבססו על רעיונות ותוצאות מוקדמות יותר (למעשה, אפילו מתקופת היוונים, ובפרט מהשיטות של ארכימדס). אלא שאצל שניהם הביסוס היה רעוע למדי, והמושג המרכזי – האינפיניטסימל – היה פשוט סתירתי; כשהיה נוח התייחסו אליו כאפס ולכן ניתן היה להתעלם ממנו, וכשלא היה נוח (למשל, כשחילקו בו) התייחסו אליו כאל מספר שונה מאפס. במהלך המאה ה-18 המשיכה המגמה ה"לא פורמלית" להתקיים אצל העוסקים במתמטיקה, והדוגמה הבולטת ביותר היא של אוילר, מתמטיקאי פורה באופן יוצא דופן, שעם זאת שיטותיו לא בוססו עד הסוף ובסטנדרטים המחמירים של ימינו לא היו מתקבלות על הדעת (אם כי סביר להניח שאוילר היה מושך בכתפיו, מתאמץ עוד טיפה ומציג הוכחות פורמליות שהקהילה הייתה מקבלת ללא עוררין). הצגתי דוגמה לכך בפוסט שעסק בפאי – אוילר עסק בטור חזקות אינסופי, והניח שניתן להציג אותו כמכפלה באותו האופן שניתן לעשות זאת לפולינום סופי – ללא שום הצדקה.

התפנית הגיעה במאה ה-19, כששני התורמים המרכזיים לה היו קושי ו-ויירשטראס. קושי, שפעל בתחילת המאה, ניסה לתת פורמליזציה קונקרטית יותר לחשבון האינפיניטסימלי; אצלו ניתן למצוא גרסה בסיסית של מושג הגבול, שהפך למושג המרכזי שעליו מתבסס החשבון האינפיניטסימלי (במקום האינפיניטסימל). ויירשטראס פעל יותר קרוב לסוף המאה, וגישתו למתמטיקה הייתה פורמלית עוד יותר משל קושי. הוא זה שהמציא את אופן הסימון המדוייק שבו אנו מגדירים גבולות כיום (מה שמוכר לסטודנטים בתור "אפסילון-דלתא", על שם שני הסימנים הסטנדרטיים שמופיעים בהגדרה), ולימד אותו באוניברסיטה שבה הרצה. בין תלמידיו היו מתמטיקאים משפיעים רבים, וה"אופנה" התפשטה במתמטיקה במהירות. תרמה לכך ככל הנראה העובדה שויירשטראס נהג למצוא להנאתו דוגמאות נגדיות למשפטים של עמיתיו, ששמו לצחוק את ההנחות הסמויות שהניחו בשל מחסור בפורמליזציה מלאה מספיק. על דוגמה נגדית שכזו אני רוצה לדבר בפוסט הזה, אם כי במקרה זה מדובר על משפט של רימן, לא של ויירשטראס (על הדוגמה הנגדית המפורסמת ביותר של ויירשטראס – פונקציה שרציפה בכל מקום אך אינה גזירה בשום מקום – כדאי להרחיב בפוסט נפרד) – משפט שעוסק בטורים אינסופיים, ושם לצחוק בצורה קיצונית את האינטואיציה שלנו ("שלנו", במקרה זה, מתייחס למי שאינו מפחד ממתמטיקה) לגביהם.

תזכורת קטנה לגבי מהם טורים (יש לי גם פוסט בנושא). טור סופי הוא סכום מהצורה \(a_{1}+a_{2}+\dots+a_{n}\), או בקיצור \(\sum_{i=1}^{n}a_{i}\), כאשר \(a_{i}\) הם, נניח, מספרים ממשיים. למרות שהביטוי נראה פשוט, יש תחכום כלשהו בו – פעולת ה"חיבור" אינה מוגדרת על \(n\) איברים אלא רק על שניים בכל פעם, ולכן המשמעות של \(\sum_{i=1}^{n}a_{i}\) היא כשל תוצר של תהליך: ראשית כל מבצעים את החיבור \(a_{1}+a_{2}\), מקבלים תוצאת ביניים שאכנה \(s_{2}\), ואז מחברים \(s_{2}+a_{3}\) ולתוצאה קוראים \(s_{3}\), וכן הלאה וכן הלאה. החיבור הוא פעולה אסוציאטיבית, מה שאומר שאם קודם כל מחברים את \(a_{2}\) ו-\(a_{3}\), ורק לתוצאה הזו מחברים את \(a_{1}\), נקבל עדיין את אותו הדבר: \(\left(a_{1}+a_{2}\right)+a_{3}=a_{1}+\left(a_{2}+a_{3}\right)\). בדומה, החיבור הוא גם פעולה קומוטטיבית, במובן זה ש-\(a_{1}+a_{2}=a_{2}+a_{1}\). משני אלו עולה, באמצעות אינדוקציה, שאם ניקח את \(a_{1}+a_{2}+\dots+a_{n}\) ונערבב את האיברים שלו בכל צורה שרק נרצה (למשל, את \(a_{1}+a_{2}+a_{3}+a_{4}\) נהפוך ל-\(a_{3}+a_{2}+a_{4}+a_{1}\)) עדיין נקבל את אותו הסכום – מה שהגיוני ומתאים לתפיסה שלנו לפיה \(\sum_{i=1}^{n}a_{i}\) תופס את כל האיברים "בבת אחת".

באופן דומה ניתן לגשת במתמטיקה לטיפול בסכום שיש בו אינסוף איברים (וזו אכן ההגדרה המקובלת ביותר, אם כי לא היחידה), כלומר טור מהצורה \(\sum_{n=1}^{\infty}a_{n}\), למשל \(\frac{1}{2}+\frac{1}{4}+\frac{1}{8}+\frac{1}{16}+\dots+\frac{1}{2^{n}}+\dots\), שהוא הטור המוכר מפרדוקס אכילס. הדרך הסבירה להגדיר סכום של טור שכזה היא שוב באמצעות "תוצאות ביניים": מסמנים בתור \(S_{n}=\sum_{i=1}^{n}a_{i}\), כלומר את סכום \(n\) האיברים הראשונים בטור, ואז מסתכלים על סדרת המספרים \(S_{n}\) שהתקבלה – אם היא שואפת לגבול מסויים, על פי ההגדרה הסטנדרטית של גבול (שראויה לפוסט משל עצמה – וגם קיבלה כזה – ולכן לא אחזור עליה כאן במדוייק), אז \(\sum_{n=1}^{\infty}a_{n}\) יהיה אותו הגבול. למשל, \(S_{n}\) עבור הטור של אכילס שהצגתי הוא הסכום הרגיל של סדרה הנדסית סופית, כלומר \(\frac{1}{2}\cdot\frac{\left(\frac{1}{2}\right)^{n}-1}{\frac{1}{2}-1}=1-\frac{1}{2^{n}}\), וסכום זה בבירור שואף ל-1, כך שמגדירים \(\sum_{n=1}^{\infty}a_{n}=1\). האם המספר הזה אכן ראוי לתואר הסכום של \(a_{1},a_{2},\dots\)? זוהי שאלה פילוסופית מצויינת, שדורשת קודם כל הסבר לגבי משמעות המושג "סכום". בעבר הגנתי בחירוף נפש על הזכות של הגדרה זו לתאר את הסכום; בפוסט הזה אני לא צריך להתגונן בפני אף אחד ולכן אציג דווקא ספק או שניים שעשויים להתעורר כאשר מנסים לחשוב על ההגדרה הזו כעל ההגדרה ה"נכונה".

מרגע שהגדרנו סכום, אנחנו רוצים להתחיל לחקור את התכונות שלו, והתכונה המהותית שאני רוצה לדבר עליה בפוסט הזה היא שינוי סדר האיברים בסכימה – מה שכבר ראינו שניתן לבצע ללא חשש לטורים סופיים. אינטואיטיבית לא נראה שאמורה להיות בעיה עם זה – הרי סכום תופס את כל האיברים "בבת אחת", אז מה זה משנה אם יש אינסוף איברים בטור? ואכן, כל עוד היחס לאינפי היה לא ריגורוזי, שינויים כאלו בוצעו בלי הרבה הסתבכויות. אלא שאנחנו פדנטים, וכל דבר שרוצים לעשות – צריך להוכיח במפורש.

אם ננסה לקחת את ההוכחה שלנו עבור טורים סופיים ולהחיל אותה על טורים אינסופיים, אנחנו בבעיה. מה בעצם ההוכחה שלנו הייתה? ראינו כי אפשר לקחת זוג איברים סמוכים בטור ולהחליף את מקומם מבלי לשנות את סכום הטור. בעזרת סדרת החלפות שכזו ניתן לבצע כל פרמוטציה שרק נרצה על אברי הסכום (כל פרמוטציה סופית ניתנת לכתיבה כמפלה סופית של החלפות). אלא שעבור טורים אינסופיים אנחנו בצרות – כל מה שאנחנו יכולים להראות הוא שניתן להחליף את מקומם של מספר סופי של איברים בטור ולא לשנות את סכומו. הרי זה מה שהוכחה באינדוקציה עושה: אנחנו יכולים להראות כי לכל \(k\) טבעי, אחרי שמבצעים \(k\) החלפות על הטור, סכומו אינו משתנה; אבל לא נובע מכך שעבור אינסוף החלפות סכום הטור יישאר זהה. כדי לטעון טענה בסגנון הזה – טענה שמסוגלת לקפוץ מנכונות-למספר-סופי אל נכונות-עבור-אינסוף צריך להשתמש בגרסה חזקה יותר של מושג האינדוקציה – האינדוקציה הטרנספיניטית – אלא שכדי להשתמש בה צריך להוכיח טענות יותר חזקות (בפרט, צריך יהיה להוכיח "בידיים" שאם לכל \(k\) טבעי זה עובד, אז גם עבור הסודר האינסופי הקטן ביותר – \(\omega\) – זה עובד) ולכן היא לא רלוונטית כרגע. השורה התחתונה – ההוכחה למקרה הסופי לא תופסת את המקרה האינסופי כמו שצריך. עלינו לחפש הוכחה אחרת.

במקרה אחד (מרכזי) הוכחה אחרת אכן קיימת ואינה מסובכת במיוחד – אם כל האיברים \(a_{n}\) הם אי שליליים (\(a_{n}\ge0\) לכל \(n\)). הבה ונקרא \(b_{n}\) לאיברים של \(a_{n}\) אחרי שעברו "סידור מחדש" כלשהו (גם כזה שכולל הזזה של אינסוף איברים). מה שאנחנו רוצים להראות הוא ש-\(\sum_{n=1}^{\infty}a_{n}=\sum_{n=1}^{\infty}b_{n}\). הבה ונסמן \(s_{n}=\sum_{i=1}^{n}a_{n}\) ובדומה \(t_{n}=\sum_{i=1}^{n}b_{n}\), וכמו כן נסמן \(S=\lim_{n\to\infty}s_{n}\) (כלומר, \(S=\sum_{n=1}^{\infty}a_{n}\)). אז הדרך הפורמלית לומר ש-\(S=\sum_{n=1}^{\infty}b_{n}\) היא לומר כי לכל \(\varepsilon>0\) קיים \(M\) כך שלכל \(m>M\) מתקיים \(\left|S-t_{m}\right|<\varepsilon\). בואו ונראה למה, בהינתן \(\varepsilon>0\) שכזה, אכן קיים \(M\) המבוקש.

האינטואיציה היא זו: מכיוון ש-\(a_{n}\) הם חיוביים, אז \(S\) חייב להיות מורכב מסכום של כמה איברים "גדולים" שהם אלו שתורמים את עיקר הגודל ל-\(S\), ומספרם סופי, ועוד אינסוף איברים "קטנים". אם נבחר \(M\) גדול מספיק כך שגם אחרי הסידור-מחדש של \(b_{n}\), \(t_{m}\) כבר מכיל בסכום את כל אותם איברים "גדולים", אז \(S-t_{m}\) יהיה חייב להיות קטן. זה הרעיון, וכעת אפשר לפרמל אותו.

מכיוון ש-\(s_{n}\to S\), אז על פי הגדרת הגבול קיים \(N\) כך שמתקיים \(\left|S-s_{N}\right|<\frac{\varepsilon}{2}\) (למה חצי? ראיית הנולד שתכף תתבהר). \(s_{N}\) כולל בתוכו את כל האיברים ה"גדולים", ולכן האיברים ה"קטנים" יהיו כל ה-\(a_{N+1},a_{N+2}\) וכן הלאה. כעת ניקח \(M\) כך ש-\(b_{1},b_{2},\dots,b_{M}\) מכילים בתוכם בפרט את כל האיברים \(a_{1},a_{2},\dots,a_{N}\) (במילים אחרות, \(M\) הוא המקסימום על קבוצת האינדקסים של "לאן \(a_{1}\) עובר? ולאן \(a_{2}\) עובר?" וכו'). כעת ניקח \(m>M\), ומטרתנו בחיים היא להראות ש-\(\left|S-t_{m}\right|<\varepsilon\) – אם נצליח, סיימנו. כדי לעשות זאת משתמשים בתעלול אינפי סטנדרטי: \(\left|S-t_{m}\right|=\left|S-s_{N}+s_{N}-t_{m}\right|\le\left|S-s_{N}\right|+\left|s_{N}-t_{m}\right|<\frac{\varepsilon}{2}+\left|s_{N}-t_{m}\right|\). מה שנותר, אם כן, הוא להראות ש-\(\left|s_{N}-t_{m}\right|<\frac{\varepsilon}{2}\). הרעיון מאחורי זה: \(t_{m}\) כולל כבר את כל אברי \(s_{N}\), ולכן \(\left|s_{N}-t_{m}\right|\) הוא בעצם גודלם של כל האיברים שנותרו ב-\(t_{m}\) מעבר לכך, ואמרנו שהם קטנים יחסית.

אם כן, מהו \(\left|s_{N}-t_{m}\right|\)? כאמור, \(t_{m}\) כבר כולל את כל אברי \(s_{N}\), ולכן כדי לחסום את ההפרש אפשר להשתמש בכל יתר אברי הסדרה המקורית, \(a_{n}\). במילים אחרות, \(\left|s_{N}-t_{m}\right|\le\left|a_{N+1}\right|+\left|a_{N+2}\right|+\dots\). כאן סוף סוף נשתמש בכך שהסדרה חיובית: \(\left|a_{i}\right|=a_{i}\) לכל \(a_{i}\), כך שקיבלנו כי \(\left|s_{N}-t_{m}\right|\) חסום על ידי זנב של הטור \(\sum_{n=1}^{\infty}a_{n}\). אבל הרי אמרנו כי \(\left|S-s_{N}\right|<\frac{\varepsilon}{2}\), ו-\(\left|S-s_{N}\right|=\left|a_{N+1}+a_{N+2}+\dots\right|=a_{N+1}+a_{N+2}+\dots\) הוא בדיוק גודלו של זנב הטור המבוקש, כך שסיימנו.

כמו שקורה לעתים קרובות במתמטיקה, ההוכחה שלנו כוונה למקרה פרטי מסויים – טור חיובי – אבל למעשה היא עובדת עבור מחלקה רחבה יותר של טורים: כל טור שעבורו \(\sum_{n=1}^{\infty}\left|a_{n}\right|\) מתכנס. השינוי שצריך לעשות בהוכחה כדי שתעבוד גם במקרה זה הוא עדין אך מחוכם: את \(N\) צריך לבחור כך שיתקיים בו זמנית כי \(\left|S-s_{N}\right|<\frac{\varepsilon}{2}\) (וכך אכן בחרנו את \(N\) קודם) וכמו כן יתקיים ש-\(\sum_{i=1}^{\infty}\left|a_{i}\right|-\sum_{i=1}^{N}\left|a_{i}\right|<\frac{\varepsilon}{2}\), כלומר שהזנב של טור הערכים המוחלטים יהיה קיים. קודם קיבלנו תכונה זו בחינם, מכיוון שטור הערכים המוחלטים היה שווה לטור המקורי, אבל באופן כללי זה לא כך.

טור כזה, שעבורו \(\sum_{n=1}^{\infty}\left|a_{n}\right|\) מתכנס, נקרא טור מתכנס בהחלט (Absolutely convergent), וזה שם מתאים ביותר. נסכם אם כן את מה שראינו עד כה: אם טור מתכנס בהחלט, אז אפשר לשנות ללא חשש את סדר הסכימה של איבריו ומובטח שנקבל את אותו הסכום. אבל מה קורה אם יש לנו טור שהוא מתכנס, אך לא מתכנס בהחלט – האם גם אז ניתן לשנות את סדר הסכימה? והאם קיימים בכלל טורים כאלו? התשובה לשאלה השנייה היא "כן" ותכף נראה דוגמה; והתשובה לשאלה הראשונה היא משפט רימן המדובר, והיא "לא" זועק.

הטור \(1+\frac{1}{2}+\frac{1}{3}+\frac{1}{4}+\dots\) מכונה "הטור ההרמוני" (לא חשוב כרגע למה). הוא הדוגמה הפשוטה ביותר לטור שמצד אחד, האיבר הכללי שלו (\(\frac{1}{n}\)) שואף לאפס, ועם זאת הוא אינו מתכנס אלא שואף לאינסוף – כלומר, לכל \(M\) טבעי, אם נסכום מספיק איברים של הטור, נעבור את \(M\). דרך נאה לראות זאת היא באמצעות קיבוץ איברים: \(1+\frac{1}{2}>\frac{1}{2}\), כמובן; \(\frac{1}{3}+\frac{1}{4}>2\cdot\frac{1}{4}=\frac{1}{2}\) (כי שני האיברים בסכום גדולים או שווים ל-\(\frac{1}{4}\)); \(\frac{1}{5}+\frac{1}{6}+\frac{1}{7}+\frac{1}{8}>4\cdot\frac{1}{8}=\frac{1}{2}\); וכן הלאה וכן הלאה. בכל פעם נקבץ קבוצה גדולה פי 2 של איברים, ונוסיף \(\frac{1}{2}\) לסכום שלנו, ומכאן שהסכום גדל עוד ועוד עד אינסוף, אם כי בקצב שהולך ונעשה איטי יותר ויותר עם הזמן – כמות האיברים שצריכים לקבץ בכל פעם כדי להגדיל את הסכום ב-\(\frac{1}{2}\) שווה לכמות כל האיברים שקיבצנו עד כה. למי שזה נשמע לו מוכר בצורה כלשהי, זה לא מקרי; אפשר להראות שהסכום הזה מתנהג בערך כמו \(\ln x\), שגם היא פונקציה ששואפת לאינסוף, אך לאט.

כעת אפשר להכניס לתמונה משפט של לייבניץ מתורת הטורים – אם \(a_{n}\) היא סדרת מספרים חיוביים ששואפת מונוטונית לאפס, אז הטור \(\sum_{n=1}^{\infty}\left(-1\right)^{n+1}a_{n}\), שמתקבל על ידי כך ששמים לסירוגין סימן חיובי וסימן שלילי על המספרים, מתכנס. לא אוכיח את המשפט כרגע (הוכחה טכנית ואינה קשה במיוחד), אלא אתמקד בשורה התחתונה: הטור \(1-\frac{1}{2}+\frac{1}{3}-\frac{1}{4}+\frac{1}{5}-\dots\) מתכנס, וזאת למרות שאם לוקחים את הערכים המוחלטים של אברי הטור מקבלים את הטור ההרמוני, שאינו מתכנס. דהיינו – מצאנו טור שמתכנס אך אינו מתכנס בהחלט. אגב, לא רק שהטור מתכנס, אנחנו יודעים אפילו את סכומו, בעזרת פיתוח טיילור של \(\ln\): \(\ln\left(1+x\right)=x-\frac{x^{2}}{2}+\frac{x^{3}}{3}-\frac{x^{4}}{4}+\dots\) כאשר \(-1<x\le1\), ולכן על ידי הצבת \(x=1\) בטור מקבלים שסכום הטור ההרמוני המתחלף הוא \(\ln\left(2\right)\).

וכעת הבה ונראה דבר מה מוזר. נסמן את סכום הטור ההרמוני המתחלף ב-\(A\) (כאמור, \(A=\ln2\) אבל למה להסתבך). כעת בואו ונשנה את סדר הסכימה של הטור ההרמוני המתחלף לדבר המוזר הבא: \(1-\frac{1}{2}-\frac{1}{4}+\frac{1}{3}-\frac{1}{6}-\frac{1}{8}+\frac{1}{5}-\frac{1}{10}+\dots\). במילים אחרות – ראשית כל איבר אחד חיובי מהטור, ואז שני איברים שליליים. אז האיבר החיובי הבא, ואז שני האיברים השליליים הבאים, וכן הלאה. שימו לב לכך שבסכום הזה, האיבר החיובי תמיד שווה לפי 2 האיבר השלילי שבא אחריו (נסו להוכיח זאת לעצמכם), כך שמתקבל הטור \(\frac{1}{2}-\frac{1}{4}+\frac{1}{6}-\frac{1}{8}+\frac{1}{10}-\dots\). האם הטור הזה נראה מוכר? בוודאי: הוא שווה ל-\(\frac{1}{2}\left(1-\frac{1}{2}+\frac{1}{3}-\frac{1}{4}+\dots\right)\), כלומר לחצי הטור ההרמוני המתחלף, ולכן סכומו הוא \(\frac{A}{2}\). אבל רגע אחד – איך זה ייתכן? נובע מכך ש-\(A=\frac{A}{2}\) וזה קורה רק אם \(A=0\), אבל כבר אמרנו שלא זה המצב. מכאן ששינוי סדר הסכימה של הטור שינה את סכומו של הטור. באנג! האינטואיציה שלנו הלכה לפח ברגע זה ממש.

אם כן, כשיש לנו טור שמתכנס אך לא מתכנס בהחלט, הסדר שבו סוכמים את הטור הוא קריטי למציאת סכום הטור. זה אומר שקשה, אולי בלתי אפשרי, לחשוב על סכום הטור הזה כעל מה שמקבלים כאשר מחברים את כל איבריו "בבת אחת" – חיבור בבת אחת שכזה אמור להתעלם מהסדר שבו מחברים איברים פרטניים של הטור. אם כן, במקרה זה הטור שלנו לא מצליח לייצג סכום במובן הרגיל שבו אנחנו מבינים אותו, אלא לכל היותר לתאר תהליך מסויים.

משפט רימן מראה שהאנומליה הזו היא לא מקרית, ושלא מדובר כאן על איזו התחכמות אד-הוקית. הניסוח שלו הוא פשוט: אם \(\sum_{n=1}^{\infty}a_{n}\) הוא טור שמתכנס אך לא מתכנס בהחלט, אז ניתן על ידי שינוי סדר איבריו לקבל טור \(\sum_{n=1}^{\infty}b_{n}\) שמתכנס לאן שאנחנו רוצים. דהיינו, אם \(t\) הוא מספר ממשי כלשהו, אז אפשר לשנות את סדר הסכימה ולקבל טור שמקיים \(\sum_{n=1}^{\infty}b_{n}=t\); וכמו כן אפשר על ידי שינוי סדר הסכימה לקבל \(\sum_{n=1}^{\infty}b_{n}=\infty\) או \(\sum_{n=1}^{\infty}b_{n}=-\infty\); ואפשר גם שהטור לא יתכנס כלל אלא "יזפזפ" בין כמה ערכים שונים. בקיצור, אם מרשים לשנות את סדר הסכימה של טור מתכנס שאינו מתכנס בהחלט, אפשר לקבל כל דבר שרוצים.

מי היה מאמין שמוקש כל כך מטורף מסתתר לו מאחורי פעולה תמימה יחסית כמו שינוי סדר הסכימה של טור? מי היה מאמין שהאינטואיציה שאנחנו מקבלים מהמקרה הסופי יכולה להישבר בכזו אכזריות? יש כאן לקח חשוב מאוד, לטעמי, ולא רק למתמטיקה אלא לחיים בכלל – לא לקחת דברים כמובנים מאליהם. תמיד לחקור, לשאול שאלות, לאתגר, ולהיזהר מאוד ממה שמרגיש לנו אינטואיטיבית "דומה". האינטואיציה שלנו היא חבר נאמן והיא גם הכלי הראשון שאנחנו מפעילים בהתמודדות עם כל בעיה שהיא; אבל ההסתמכות העיוורת עליה מסוכנת בצורה יוצאת דופן, ולכן היא גם צריכה להיות הדבר הראשון שבו אנו מטילים ספק תמיד. המתמטיקה זרועה במוקשים דומים, ולטעמי אחד מסימני ההיכר של המתמטיקה המודרנית היא הסירוב העקשני להיכנע לאינטואיציה, במאמץ לחשוף את המוקשים הללו, טריוויאליים ככל שייראו. זו גם הסיבה למאמץ הכביר שהשקיעו מתמטיקאים בתחילת המאה ה-20 בנסיון למצוא פורמליזציה מלאה למתמטיקה – הסרת החשש ממוקשים שכאלו. אם אכן ניתן להשתמש במתמטיקה כדי לחנך לערכים, זהו הערך שאני רוצה ללמד כאן.

אחרי כל הנאום הזה, מתבקש להוכיח במפורש את משפט רימן. לא אציג הוכחה פורמלית כי היא פשוט ניסוח טכני לא מחכים יותר מדי של הרעיון אותו אציג, שהוא פשוט אך יפה. הרעיון בבסיסו הוא לחשוב על הטור כמורכב משני טורים – טור אחד של כל האיברים החיוביים, וטור שני של כל האיברים השליליים. שני הטורים הללו הם אינסופיים ואינם מתכנסים, שכן כבר ראינו שטור שכל איבריו חיוביים ומתכנס גם מתכנס בהחלט (כי אין שום הבדל בין הטור ובין טור ערכיו המוחלטים), ובדומה גם טור שכל איבריו שליליים ומתכנס חייב גם להתכנס בהחלט (למה?). במילים אחרות, טור האיברים החיוביים שואף לאינסוף, וטור האיברים השליליים שואף לאינסוף.

בואו נניח שאנחנו רוצים להשאיף את הטור שלנו ל-\(\pi\). מה שנעשה יהיה כך: ראשית ניקח איברים מטור הערכים החיוביים עד שסכומם יעבור את \(\pi\) (מכיוון שהטור שואף לאינסוף, אחרי שניקח מספיק איברים מובטח לנו שנעבור את \(\pi\)). כעת ניקח איברים מטור האיברים השליליים עד שנרד שוב מתחת ל-\(\pi\); ועכשיו שוב ניקח איברים מטור האיברים החיוביים עד שנעלה מעל ל-\(\pi\), וכן הלאה וכן הלאה. סדרת הסכומים החלקיים של הטור שאנו בונים מבצעת ריקוד סביב \(\pi\) – עולה מעליו, ואז שוב יורדת, ואז עולה מעליו, ואז שוב יורדת. הפאנץ' הוא שגודל התנודות שהסדרה מבצעת חייב לקטון עם הזמן, מכיוון שאיברי שני הטורים החלקיים קטנים עם הזמן, וגודל התנודה חסום על ידי גודל האיברים הללו.

כל מי ששיחק גולף ודאי מבין מה הולך כאן. כדי להגיע לחור \(\pi\) אנחנו נותנים סדרת חבטות לכדור שלנו, שהולך ומתקרב אל החור, בסופו של דבר אנחנו מאוד קרובים אל החור ונותנים עוד חבטה אחת אחרונה – אבל היא חזקה קצת יותר מדי, והכדור עובר את החור ומגיע לצידו השני. עכשיו אנחנו צריכים לתת סדרת חבטות מהכיוון השני, ושוב – החבטה האחרונה מפספסת את החור וכן הלאה. מה שחשוב הוא שה"טעות" שלנו – גודל התנודה – נקבע רק על פי החבטה האחרונה, שמקפיצה אותנו לצד השני של החור – ומכיוון שהחבטות הולכות ונחלשות עם הזמן, גם גודל התנודה קטן עם הזמן. וזהו.

באופן דומה בונים סדרה ששואפת לאינסוף. הפעם אפשר לנקוט בתעלול הבא: נניח שהאיברים השליליים ממוספרים כ-\(c_{1},c_{2},c_{3},\dots\), אז ראשית כל נחבר מספיק איברים חיוביים כדי לעבור את \(1-c_{1}\) (שימו לב: \(c_{1}\) שלילי, כך ש-\(1-c_{1}\) גדול יותר מ-1) ואז נוסיף את \(c_{1}\) כך שנרד לכל היותר עד 1; ועכשיו נחבר מספיק איברים כדי לעבור את \(2-c_{2}\), וכן הלאה; באופן כללי אחרי שהוספנו את \(c_{n-1}\) נחבר מספיק איברים חיוביים כדי לעבור את \(n-c_{n}\), מה שמבטיח שהסדרה שלנו עולה עוד ועוד לאינסוף ואף פעם לא גולשת למטה "יותר מדי". לסיום, כדי לגרום לטור פשוט לא להתכנס נזפזפ בין שני ערכים – נניח, \(\pi\) ו-0.

זוהי כל ההוכחה, ואחרי שכבר מכירים אותה היא נראית טבעית ופשוטה מאוד יחסית. האינטואיציה שלי לפחות חיה איתה טוב מאוד. ועם זאת, אותה אינטואיציה סירבה בתוקף להכיר בקיום המשפט לפני שראיתי את ההוכחה. אם כן, זה המסר שאני רוצה להעביר – אינטואיציה זה חשוב, אבל רק כשמקיימים איתה דיאלוג. גם היא מסוגלת להודות בטעותה. זכרו זאת בפעם הבאה שמישהו יבקש מכם ללכת עם האינטואיציה עד הסוף ולא לחשוב בכלל.