להטיל לכסון סימולטני בתת-מרחב שמור, בערך

תת-מרחבים שמורים

כזכור, בסדרת הפוסטים על אלגברה לינארית הגענו להתעסק בשאלה הבאה: נתונה טרנספורמציה לינארית \(T:V\to V\) ואנו רוצים למצוא בסיס שבו המטריצה שמייצגת את \(T\) היא פשוטה. המקרה הטוב ביותר כבר טופל: ראינו כי \(T\) מיוצגת בידי מטריצה אלכסונית אם ורק אם יש ל-\(V\) בסיס שכולו מורכב מוקטורים עצמיים של \(T\). אני רוצה להתחיל בלהיזכר מה הלך בהוכחה הזו.

מה שעשינו היה להראות שוקטורים עצמיים השייכים לערכים עצמיים שונים הם בלתי תלויים לינארית, במובן זה שאם \(v_{1}+\dots+v_{k}=0\) כשכל \(v_{i}\) הוא וקטור המקיים \(T\left(v_{i}\right)=\lambda_{i}v_{i}\) עבור \(\lambda_{i}\)-ים שונים כולם, אז \(v_{1}=\dots=v_{k}=0\). ואז בא איזה שלב מזוויע שבו כתבתי צירוף לינארי של אוספי וקטורים שכל אחד מהם הוא בסיס לתת-מרחב עצמי אחר… אבל בעצם, עם קצת יותר סימונים והגדרות, אפשר היה לעשות את זה טיפה פחות מזוויע.

את מה שעשינו אפשר היה לנסח גם כך: לכל ערך עצמי \(\lambda_{i}\) הגדרנו תת-מרחב \(U_{i}\subseteq V\) – "המרחב העצמי של \(\lambda_{i}\)" – של כל הוקטורים המקיימים \(T\left(v\right)=\lambda_{i}v\) (כל הוקטורים העצמיים של \(\lambda_{i}\) בתוספת וקטור האפס), ואז ראינו שמתקיים \(V=U_{1}\oplus\dots\oplus U_{k}\), כאשר \(U_{1},\dots,U_{k}\) הם כל המרחבים העצמיים של הערכים העצמיים של \(T\). תזכורת: להגיד ש-\(V=U_{1}\oplus\dots\oplus U_{k}\) ("\(V\) הוא סכום ישר של \(U_{1},\dots,U{}_{k}\)") אומר שכל איבר ב-\(V\) ניתן לכתיבה כסכום \(v_{1}+\dots+v_{k}\) של איברים מ-\(U_{1},\dots,U_{k}\), ושכל המרחבים הללו זרים זה לזה, במובן זה שאם ניקח ולו אחד מהם ונוריד אותו מהסכום, אז לו וליתר הסכום לא יהיה איבר משותף השונה מ-0 (פורמלית \(U_{i}\cap\left(U_{1}+\dots+U_{i-1}+U_{i+1}+\dots+U_{k}\right)=\left\{ 0\right\} \); אולי טבעי יותר לדרוש ש-\(U_{i}\cap U_{j}=\left\{ 0\right\} \) וחסל אבל זו לא דרישה חזקה מספיק). זה תרגיל טוב להוכיח שהדרישה השניה שקולה לכך שדרך ההצגה של איבר ב-\(V\) כסכום איברים מתתי-המרחבים תהיה יחידה.

עכשיו, לכתוב את \(V\) כסכום ישר של תתי-מרחבים כלשהם זה דבר קל למדי – קחו כל בסיס שתרצו, חלקו את אברי הבסיס לכמה קבוצות שתרצו, ותת-המרחבים שנפרסים על ידי אברי הקבוצות (כל תת-מרחב נפרס על ידי אברי קבוצה אחת) יהוו סכום ישר שנותן את \(V\). יש אינספור דרכים לפרק את \(V\) כך, ורובן לא אומרות לנו משהו מועיל על הטרנספורמציה הלינארית \(T\). העסק מתחיל להיות מעניין כאשר יש לנו תת-מרחב \(W\) שמקיים את התכונה "כל מה שקורה ב-\(W\) (על ידי \(T\)) נשאר ב-\(W\)", ופורמלית \(T\left(W\right)\subseteq W\) (התמונה של כל איבר ב-\(W\) על ידי \(T\) נמצאת גם היא ב-\(W\)). תת-מרחב כזה נקרא תת-מרחב שמור (ביחס ל-\(T\)).

מכיוון שבמבט ראשון אולי לא ברור למה זו הגדרה מעניינת, בואו ונבין ראשית כל מה ינבע מכך שאני יודע לכתוב את \(V\) בתור סכום ישר \(U\oplus W\) כאשר \(U,W\) שניהם תתי-מרחבים שמורים של \(T\). ניקח בסיס ל-\(U\) ובסיס ל-\(W\) ואז איחודם הוא בסיס ל-\(V\) ואפשר להסתכל על המטריצה המיצגת של \(T\) בבסיס הזה. אז אני טוען שהמטריצה המייצגת תורכב משני בלוקים – תת-מטריצות ריבועיות מסויימות, כך שכל שאר המטריצה שווה לאפס. משהו כזה: \(\left[T\right]_{V}=\left[\begin{array}{cc}\left[T\right]_{U} & 0\\0 & \left[T\right]_{W}\end{array}\right]\) (כאן אני מתעלל בסימונים בצורה נוראית – \(\left[T\right]_{V}\) כאן פירושו "המטריצה המייצגת של \(T\) בבסיס שזה עתה דיברתי עליו של \(V\); באופן כללי אין לסימון \(\left[T\right]_{V}\) משמעות כי לכל בסיס של \(V\) שניקח נקבל מטריצה מייצגת אחרת). שימו לב ששני הבלוקים של המטריצה אינם כוללים תוכן מקרי, אלא את המטריצה המייצגת של \(T\) לפי הבסיסים של תתי-המרחבים. הסיבה שבגללה זה עובד היא שאם נפעיל את \(T\) על איבר בסיס של \(U\) נקבל איבר ב-\(U\) ולכן הוא יוצג כצירוף לינארי של אברי \(U\) בלבד; אברי \(W\) לא משתתפים בכלל במשחק. לכן על עמודה שמתאימה לאיבר בסיס של \(U\) מכילה אפסים בשורות שמתאימות לבסיס של \(W\), ואותו הדבר גם עבור העמודות שמתאימות לאברי בסיס של \(W\). אותיר לכם לכתוב את ההוכחה הפורמלית לעצמכם אם אתם עוד לא משוכנעים.

מכאן ממשיכים באינדוקציה ומקבלים את התוצאה הכללית: אם \(V=V_{1}\oplus\dots\oplus V_{k}\) כך ש-\(V_{i}\) הם תתי-מרחבים שמורים של \(T\), אז כאשר מייצגים את \(T\) בבסיס שהוא איחוד הבסיסים של אותם תת-מרחבים, \(T\) היא מטריצה בת \(k\) בלוקים. מה שמעניין אותנו עכשיו הוא אם אפשר להגיד עוד משהו על האופן שבו \(T\) מתפרקת בין כל תתי-המרחבים השמורים, וכמובן לשאול את עצמנו האם פירוק כזה קיים בכלל.

תתי-מרחבים שמורים הם הכללה ברורה של מרחבים עצמיים. אם \(U\) הוא מרחב עצמי של טרנספורמציה \(T\) הוא בוודאי יהיה תת-מרחב שמור שלה, כי כל מה שהפעלת \(T\) על איבר ב-\(U\) עושה היא לכפול אותו בסקלר, וזו פעולה שמשאירה את התוצאה בתוך התת-מרחב מעצם הההגדרה של תת-מרחב. למעשה, אם \(v\) הוא וקטור עצמי אז תת-המרחב שנפרש על ידו בלבד הוא תת-מרחב שמור. זה מבהיר לנו מייד מדוע אם יש למרחב בסיס של וקטורים עצמיים אז \(T\) לכסינה בבסיס זה – במקרה זה אפשר לפרק את \(V\) לסכום ישר של \(n\) תתי-מרחבים שכל אחד מהם ממימד 1, ולכן המטריצה שמייצגת את \(T\) היא מטריצת "בלוקים" שבה כל בלוק הוא מטריצה מסדר \(1\times1\). אין כאן שום רעיון חדש – הנימוק שכבר הבאתי לכך שטרנספורמציה היא לכסינה אם יש בסיס של וקטורים עצמיים השתמש באותם נימוקים שבהם השתמשתי כאן כדי להסביר איך מתקבלת מטריצת בלוקים – אבל זו עדיין דרך מחשבה נחמדה.

אם \(W\subset V\) הוא תת-מרחב שמור של \(T\), אז אפשר להסתכל על \(T\) כאשר היא מצומצמת רק לתת-מרחב \(W\). בואו נגדיר את זה פורמלית כדי למנוע בלבול: יש לנו טרנספורמציה \(T:V\to V\), ואפשר להגדיר טרנספורמציה חדשה \(T_{W}:W\to W\) שפשוט מוגדרת בתור \(T_{W}\left(w\right)=T\left(w\right)\) לכל \(w\in W\). הנקודה היא שבגלל ש-\(T_{W}\) מוגדרת על מרחב קטן יותר, קל יותר לחקור אותה – למשל, המטריצה המייצגת שלה תהיה קטנה יותר. עוד תכונה מעניינת שתהיה רלוונטית בהמשך היא שהפולינום האופייני של \(T_{W}\) מחלק את הפולינום האופייני של \(T\), אבל הם ממש לא חייבים להיות זהים. למה הוא מחלק? ובכן, אם \(p\left(T\right)\) היא טרנספורמציית האפס על \(V\) זה אומר שהיא מחזירה 0 לכל איבר של \(V\) ולכן בפרט לכל איבר של \(W\), ולכן \(p\) הוא פולינום שמאפס את \(T_{W}\); אבל כזכור, הפולינום המינימלי של \(T_{W}\) מחלק כל פולינום אחר שמאפס את \(T_{W}\).

לכסון סימולטני

בואו נעבור להמחשה של השימוש במושג של תת-מרחבים שמורים – לכסון סימולטני של טרנספורמציות (או מטריצות; זכרו שעבורנו זה אותו הדבר). בואו נניח ש-\(S,T\) הם שני אופרטורים לכסינים; זה אומר שקיים בסיס שבו \(T\) מיוצגת על ידי מטריצה אלכסונית, וקיים בסיס שבו \(S\) מיוצגת על ידי מטריצה אלכסונית, אבל האם קיים בסיס שבו שתיהן גם יחד מיוצגות על ידי מטריצה אלכסונית? התשובה היא שלא תמיד; קל לראות שהכרחי שהן יתחלפו, כלומר שיתקיים \(ST=TS\) (זכרו שטרנספורמציות ומטריצות לא מתחלפות תמיד בכפל – נסו למצוא דוגמאות!). הסיבה לכך היא שמטריצות אלכסוניות כן מתחלפות בכפל, ולכן אם \(S,T\) ניתנות בו זמנית להצגה בידי מטריצות אלכסוניות הן אכן יתחלפו בכפל. זו דוגמה לתנאי הכרחי, אבל מה שמפתיע כאן הוא שהוא גם מספיק: שתי טרנספורמציות לכסינות הן בעלות לכסון משותף אם ורק אם הן מתחלפות בכפל. למעשה, ההוכחה שאציג כעת עובדת גם אם יש יותר משתי טרנספורמציות – אפילו עבור מספר אינסופי שלהן, כל עוד כולן לכסינות וכל זוג טרנספורמציות מתחלפות בכפל.

תכונת ההתחלפות-בכפל תועיל לי באופן הבא: נניח של-\(T\) יש ערך עצמי \(\lambda\), אז המרחב העצמי השייך לערך העצמי הזה הוא בעצם הגרעין של הטרנספורמציה \(T-\lambda I\), ואם \(T\) מתחלף עם \(S\) כך גם הטרנספורמציה \(T-\lambda I\). כעת אני יכול לטעון טענה כללית קצת יותר: אם \(U,S\) טרנספורמציות לינאריות שמתחלפות בכפל, אז הגרעין של \(U\) הוא תת-מרחב שמור של \(S\), שהרי אם \(u\) נמצא בגרעין הזה נקבל ש-\(US\left(u\right)=SU\left(u\right)=S\left(0\right)=0\), כלומר גם \(S\left(u\right)\) בגרעין של \(U\).

מכאן נובע המשפט על לכסינות סימולטנית כמעט מאליו: אם לכל הטרנספורמציות יש רק ערך עצמי אחד אז כל בסיס שנבחר ילכסן את כולן בו זמנית (זכרו שהן לכסינות, כלומר הריבוי הגיאומטרי של הערך העצמי היחיד של כל אחת מהן הוא מימד \(V\)). בואו נניח אם כן שיש \(T\) עם יותר מערך עצמי אחד, \(\lambda_{1},\dots,\lambda_{t}\). זה מגדיר פירוק של \(V\) לתת-מרחבים עצמיים: \(V=W_{1}\oplus\dots\oplus W_{t}\) כש-\(W_{i}\) הוא המרחב העצמי של \(T\) שמתאים לערך העצמי \(i\). כעת בואו ניקח טרנספורמציה אחרת \(S\). אני בהחלט לא יכול לומר ש-\(W_{i}\) הוא מרחב עצמי שלה, אבל בגלל שהיא מתחלפת עם \(T\) אני בהחלט כן יכול לומר שהוא תת-מרחב שמור שלה, מהנימוק שהבאתי קודם (במקרה הזה, \(U=T-\lambda I\)). מה שנותר עכשיו לשים לב אליו הוא שכל \(S\) היא לכסינה גם כשהיא מצומצמת ל-\(W_{i}\) כי הפולינום המינימלי שלה ב-\(W_{i}\) מחלק את הפולינום המינימלי שלה ב-\(V\) (כאן אני מתבסס על טענה שטרם הוכחתי – שמטריצה היא לכסינה אם ורק אם לפולינום המינימלי שלה אין שורשים מרובים), ולכן אפשר באינדוקציה להניח שכל הצמצומים של הטרנספורמציות על \(W_{i}\) הן לכסינות סימולטנית ולסיים על ידי איחוד כל הבסיסים המלכסנים-סימולטנית של כל ה-\(W_{i}\).

למי שנראה לו שרימתי עם האינדוקציה בסוף, שימו לב לכך שבמרחב ממימד 1 כל בחירת בסיס "תלכסן סימולטנית" את כל הטרנספורמציות כי מטריצה \(1\times1\) היא תמיד אלכסונית; ושבגלל שבחרתי לעבוד עם \(T\) שיש לה יותר מערך עצמי אחד, יש לה יותר מ-\(W_{i}\) אחד ולכן המימד של כולם קטן יותר מהמימד של \(V\) ואפשר להשתמש באינדוקציה. ההוכחה הזו מבליטה היטב את הכוח שבדיבור על תתי-מרחבים שמורים – הם מאפשרים להוכיח דברים בשיטת הפרד ומשול.

הטלות

בואו נשכח לרגע מתתי-מרחבים שמורים ונדבר על פירוק כלשהו לסכום ישר, \(V=W_{1}\oplus\dots\oplus W_{k}\). בכל פירוק שכזה יש טרנספורמציות לינאריות שמאפיינות את הפירוק בדיוק כשם ש-\(W_{1},\dots,W_{k}\) מאפיינות אותו – ההטלות למרחבים \(W_{1},\dots,W_{k}\). פורמלית נהוג להגדיר באלגברה לינארית הטלה בתור כל טרנספורמציה לינארית \(T:V\to V\) המקיימת \(T^{2}=T\). בואו נבין למה: נסמן \(U=\mbox{Im}T\), ניקח בסיס ל-\(U\) ונשלים אותו לבסיס של \(V\) וניקח את אברי הבסיס שאינם של \(U\) ונביט במרחב \(U^{\prime}\) שהם פורשים – נקבל ש-\(V=U\oplus U^{\prime}\), ושאת \(T\) אפשר לתאר כך: אם \(v=u+u^{\prime}\) כאשר \(u\in U\) ו-\(u^{\prime}\in U^{\prime}\) (קיימת בדיוק דרך אחת להציג כך את \(v\)) אז \(T\left(v\right)=u\), כלומר \(T\) לוקחת את הרכיב של \(v\) שנמצא בתוך \(U\) ומוחקת את היתר. זה מתאים לאינטואיציה שיש לנו לגבי הטלות "קלאסיות" (הטלות כאלו הן בדרך כלל ביחס למערכת צירים שבה הצירים מאונכים זה לזה; גם לכך נגיע בסדרת הפוסטים הזו, אבל עוד חזון למועד).

את הרעיון הזה אפשר להכליל למקרה של \(V=W_{1}\oplus\dots\oplus W_{k}\). במקרה הזה, כל וקטור \(v\) ניתן להציג בצורה יחידה כ-\(v=w_{1}+\dots+w_{k}\) כאשר \(w_{i}\in W_{i}\); נגדיר טרנספורמציה לינארית \(E_{i}:V\to V\) על ידי \(E_{i}\left(v\right)=w_{i}\). קל לראות שזוהי הטלה, כלומר \(E_{i}^{2}=E_{i}\)וקל לראות ש=\(\mbox{Im}E_{i}=W_{i}\). מההגדרה נובע גם כמעט מייד ש-\(E_{i}E_{j}=0\) אם \(i\ne j\), ועם עוד טיפה עבודה אפשר לראות ש-\(I=\sum E_{i}\), כלומר הסכום של כל ההטלות הללו נותן לנו את טרנספורמציית הזהות.

מה שבאמת מעניין הוא שכל קבוצה של \(k\) הטלות \(E_{1},\dots,E_{k}\) שמקיימות את התכונה שהרכבה של שתיים מהן היא אפס וסכום כולן הוא הזהות מגדירות פירוק של \(V\) לסכום ישר של מרחבים שהם התמונות של ההטלות. גם זו טענה קלה יחסית אבל אוכיח אותה כאן כי היא לא מיידית כמו הכיוון השני. לפני כן רק אסביר לאן אני חותר עם זה – לב האתגר במשפט הפירוק הפרימרי (שהוא המטרה העיקרית של הפוסט הזה ואחד מה"גביעים הקדושים" בסדרת הפוסטים כולה באופן כללי) הוא למצוא הטלות שמקיימות תכונות מסויימות, ואז הפירוק נובע מהן בדיוק על פי המשפט שזה עתה אוכיח.

טוב, אז מה עושים? ראשית מגדירים \(W_{i}=\mbox{Im}E_{i}\). עכשיו צריך להראות גם שכל איבר ב-\(V\) ניתן לכתיבה כסכום של איברים ב-\(W_{i}\)-ים הללו, וגם שדרך ההצגה הזו היא יחידה. התכונה הראשונה נובעת מכך ש-\(I=\sum E_{i}\): פשוט נשים לב לכך ש-\(v=I\left(v\right)=\sum E_{i}\left(v\right)\) והנה קיבלנו הצגה של \(v\) כסכום של איברים ב-\(W_{i}\). כדי לראות שדרך ההצגה הזו היא יחידה, בואו קודם כל נשים לב לכך שאם \(v\in W_{i}\) אז \(E_{i}\left(v\right)=v\) ואילו \(E_{j}\left(v\right)=0\). למה? כי אם \(v\in W_{i}\) זה אומר ש-\(v\) הוא בתמונה של \(E_{i}\), כלומר \(v=E_{i}\left(u\right)\), ולכן \(E_{i}\left(v\right)=E_{i}^{2}\left(u\right)=E_{i}\left(u\right)=v\) ובדומה, \(E_{j}\left(v\right)=E_{j}E_{i}\left(u\right)=0\).

כעת, אם \(v=w_{1}+\dots+w_{k}\) אז מהתכונות לעיל נובע ש-\(E_{i}\left(v\right)=w_{i}\) – אבל הערך של \(E_{i}\left(v\right)\) ודאי אינו תלוי באופן שבו אנו בוחרים לפרק את \(v\) לסכום! במילים אחרות, גם אם היינו כותבים \(v=\alpha_{1}+\dots+\alpha_{k}\) כך ש-\(\alpha_{i}\in W_{i}\) היינו מקבלים \(E_{i}\left(v\right)=\alpha_{i}\) ולכן \(w_{i}=\alpha_{i}\) ודרך ההצגה הזו היא יחידה.

עכשיו אפשר לחזור למרחבים שמורים. מה שמעניין אותנו הוא השאלה הבאה: נתון פירוק \(V=W_{1}\oplus\dots\oplus W_{k}\) ונתונה טרנספורמציה \(T\) – מתי כל המרחבים \(W_{i}\) הם תתי-מרחבים שמורים של \(T\)? התשובה מקסימה, לטעמי, באלגנטיות שלה: אם ורק אם \(T\) מתחלפת עם ההטלות \(E_{i}\) המתאימות למרחבים.

כיוון אחד הוא קלי קלות: אם \(T\) מתחלפת עם \(E_{i}\) ו-\(w\in W_{i}\) אז \(T\left(w\right)=TE_{i}\left(w\right)=E_{i}T\left(w\right)\in W\) כשסימן השייכות בסוף נובע מכך ש-\(W_{i}\) הוא תמונת \(E_{i}\). מה שמעניין הוא הכיוון השני, להראות ש-\(T\) מתחלפת עם \(E_{i}\).

אם כן, הבה וניקח \(v\in V\) כלשהו ונפרק אותו לרכיביו, \(v=\sum w_{i}\). אז \(T\left(v\right)=\sum T\left(w_{i}\right)=\sum u_{i}\) כאשר \(u_{i}\in W_{i}\) – זה נובע מכך שמדובר על תתי-מרחבים שמורים של \(T\). כעת הבה ונפעיל על כל זה הטלה: \(E_{i}T\left(v\right)=u_{i}\) (מאותן סיבות שכבר ראינו עד כה). מצד שני, \(TE_{i}\left(v\right)=T\left(w_{i}\right)=u_{i}=E_{i}T\left(v\right)\), והנה קיבלנו ש-\(TE_{i}=ET_{i}\) (כי ההוכחה הייתה על \(v\) כלשהו).

הדבר הבא שאני רוצה להראות הוא אפיון אלטרנטיבי ללכסינות, שבכלל לא מדבר על ערכים עצמיים, בסיסים, ריבוי אלגברי וגאומטרי ושום דבר דומה לזה, אלא רק על הטלות. בואו נתחיל מכך שאם \(T\) לכסינה עם ערכים עצמיים \(\lambda_{1},\dots,\lambda_{k}\) אז כפי שכבר אמרתי מאות פעמים, אפשר לפרק את \(V\) לסכום של מרחבים עצמיים. בואו ניקח את \(E_{1},\dots,E_{k}\) להיות ההטלות על אותם מרחבים עצמיים, אז כמו תמיד הן יקיימו \(I=\sum E_{i}\) ו-\(E_{i}E_{j}=0\) לכל \(i\ne j\). יופי. רק שהן יקיימו הפעם תכונה נוספת: \(T=\sum\lambda_{i}E_{i}\). למה? ובכן, קחו \(v\in V\) כלשהו, אז כמקודם \(v=I\left(v\right)=\sum E_{i}\left(v\right)\), ומכיוון ש-\(E_{i}\left(v\right)\) נמצא במרחב העצמי \(W_{i}\) אז \(T\left(E_{i}\left(v\right)\right)=\lambda_{i}E_{i}\left(v\right)\), כלומר \(T\left(v\right)=\sum\lambda_{i}E_{i}\left(v\right)\) לכל \(v\), ולכן \(T=\sum\lambda_{i}E_{i}\).

מסתבר שהתכונה הזו היא גם מספיקה כדי ש-\(T\) תהיה לכסינה. במילים אחרות, \(T\) לכסינה אם קיימים סקלרים שונים \(\lambda_{1},\dots,\lambda_{k}\) וטרנספורמציות לינאריות \(E_{1},\dots,E_{k}\) שונות מאפס כך ש-\(T=\sum\lambda_{i}E_{i}\) ו-\(I=\sum E_{i}\) ו-\(E_{i}E_{j}=0\) (ובאופן צפוי, \(\lambda_{i}\) הם הערכים העצמיים שלה, ו-\(E_{i}^{2}=E_{i}\) כך ש-\(E_{i}\) הן הטלות). ההוכחה היא תרגיל טוב ולא שונה כל כך ממה שכבר ראינו אז אוותר עליה. במקום זה בואו נראה שימוש מיידי של התוצאה הזו: אם \(T=\sum\lambda_{i}E_{i}\), מהו \(T^{2}\)? לכאורה על פי חוקי הכפל נקבל \(T^{2}=\sum_{i,j}\lambda_{i}\lambda_{j}E_{i}E_{j}\), אבל אם נשתמש בכך ש-\(E_{i}E_{j}=0\) ובכך ש-\(E_{i}^{2}=E_{i}\) נקבל ש-\(T^{2}=\sum\lambda_{i}^{2}E_{i}\), ובאופן כללי לא קשה לראות שאם \(p\) הוא פולינום כלשהו אז \(p\left(T\right)=\sum p\left(\lambda_{i}\right)E_{i}\). לא רק שהאבחנה הזו תעזור לנו בהמשך, היא כבר כעת מוכיחה מייד שאם יש לנו טרנספורמציה \(T\), אז הערכים העצמיים של \(p\left(T\right)\) הם בדיוק הפעלת \(p\) על הערכים העצמיים של \(T\) – לא תוצאה טריוויאלית כלל ממבט ראשון.

כעת אוכיח סוף סוף את הקריטריון ללכסינות שמבוסס על הפולינום המינימלי: טרנספורמציה היא לכסינה אם ורק אם לפולינום המינימלי שלה אין שורש מרובה (כלומר, הוא מהצורה \(\left(x-\lambda_{1}\right)\cdots\left(x-\lambda_{k}\right)\) כאשר כל ה-\(\lambda_{i}\) שונים זה מזה).

נתחיל מהכיוון הקל. נניח של-\(T\) יש את הערכים העצמיים \(\lambda_{1},\dots,\lambda_{k}\), אז \(T=\sum\lambda_{i}E_{i}\). אם \(p\) פולינום שמאפס את \(T\), אז בהכרח \(\sum p\left(\lambda_{i}\right)E_{i}=0\). על ידי הפעלות של \(E_{j}\) על המשוואה הזו רואים שבהכרח נובע ממנה ש-\(p\left(\lambda_{i}\right)=0\) לכל \(\lambda_{i}\). כלומר: כל פולינום שמאפס את \(T\) חייב להתאפס על ידי כל הערכים העצמיים. כמו כן, הפולינום \(\left(x-\lambda_{1}\right)\cdots\left(x-\lambda_{k}\right)\) מאפס את כל הערכים העצמיים בו זמנית ולכן מאפס את \(T\), ולכל פולינום שמחלק אותו קיים ערך עצמי שהוא לא מחלק. מסקנה: \(\left(x-\lambda_{1}\right)\cdots\left(x-\lambda_{k}\right)\) הוא הפולינום המינימלי של \(T\).

הכיוון השני הוא העיקר – נניח ש-\(\left(x-\lambda_{1}\right)\cdots\left(x-\lambda_{k}\right)\) הוא הפולינום המינימלי של טרנספורמציה \(T\) ונוכיח שהיא לכסינה ועם הערכים העצמיים \(\lambda_{1},\dots,\lambda_{k}\). הרעיון יהיה לבנות הטלות שמקיימות את התכונות של המשפט שלעיל – סכומן הוא \(I\), סכומן המשוקלל עם \(\lambda_{1},\dots,\lambda_{k}\) הוא \(T\), וההרכבה של כל זוג מהן היא אפס. האופן שבו מוצאים את ההטלות הללו הוא מקסים למדי ונותן לי תירוץ להציג יותר בפירוט משהו שכבר דיברתי עליו – אינטרפולציית לגראנז'.

הרעיון באינטרפולציית לגראנז' הוא לבנות פולינום בעל ערכים נתונים. נותנים לי סדרת זוגות של נקודות \(\left(x_{0},y_{0}\right),\left(x_{1},y_{1}\right),\dots,\left(x_{d},y_{d}\right)\) ודורשים ממני למצוא פולינום \(g\) ממעלה \(d\) לכל היותר שמקיים \(g\left(x_{i}\right)=y_{i}\) לכל זוג מזוגות הנקודות (לא קשה להוכיח שאם קיים פולינום כזה, הוא יחיד – כל שני פולינומים ממעלה לכל היותר \(d\) שמסכימים על \(d+1\) נקודות הם זהים). הפתרון הוא להשתמש במעין בסיס (לא במובן הסטנדרטי) שמותאם לסדרת ה-\(x_{i}\)-ים הנתונה ומאפשרת, לכל סדרת \(y_{i}\)-ים, לבנות בקלות את \(g\) המתאים. לב העניין הוא בבניה של פולינומים \(p_{0},p_{1},\dots,p_{d}\) שכל אחד מהם מקיים \(p_{i}\left(x_{j}\right)=\delta_{ij}\), כלומר הוא מתאפס על כל ה-\(x\)-ים פרט לאחד, ועליו הוא מקבל 1. פולינום כזה קל לבנות במפורש: \(p_{i}\left(x\right)=\prod_{j\ne i}\frac{x-x_{j}}{x_{i}-x_{j}}\) (כאשר \(\prod\) כאן מייצג מכפלה). הציבו בפולינום הזה \(x_{i}\) ותראו מה מקבלים, ואחר כך חשבו מה קורה כשמציבים בו \(x_{j}\) אחר.

עכשיו, אם ה-\(p\)-ים הללו נתונים לנו, אז את \(g\) בונים בצורה הבאה: \(g\left(x\right)=\sum y_{i}p_{i}\left(x\right)\). כשמציבים ב-\(g\) את \(x_{i}\), מה שנשאר כשהעשן מתפזר הוא \(y_{i}\). הדבר הזה מאוד דומה להטלות, שבתורן מאוד דומות לבסיסים למרחבים וקטוריים (ובפרט לבסיס אורתונורמליים, אבל עוד חזון למועד…) ולא סתם – הנה לנו דוגמה יפה למקום שבו כל הקשרים הללו באים לידי ביטוי.

איך כל זה קשור לענייננו, תשאלו? פשוט מאוד: ניקח את סדרת ה-\(x\)-ים שלנו להיות \(\lambda_{1},\dots,\lambda_{k}\) ונבנה פולינומים \(p_{1},\dots,p_{k}\) מתאימים. כעת נבצע בעזרתם אינטרפולציה לשני פולינומים: אחד שמחזיר 1 על הכל, ושני שאם הוא מקבל \(x\) הוא מחזיר \(x\). מנוסחת האינטרפולציה שלנו נקבל:

\(1=\sum p_{i}\)

\(x=\sum\lambda_{i}p_{i}\)

(אני מניח כאן באופן סמוי ש-\(k>1\) אבל זה בסדר כי \(k=1\) אומר ש-\(T-\lambda I=0\) (פשוט הצבתי את \(T\) בפולינום המינימלי) ולכן \(T\) בבירור לכסינה).

עכשיו הטוויסט הסופי מגיע: נגדיר את \(E_{i}=p_{i}\left(T\right)\). הצבנו את \(T\) בפולינומי האינטרפולציה, וקיבלנו מייד שמתקיים:

\(I=\sum E_{i}\)

\(T=\sum\lambda_{i}E_{i}\)

טוב ויפה, אבל למה \(E_{i}E_{j}=0\)? או, טוב ששאלתם: כי \(p\) בהכרח מחלק את \(p_{i}p_{j}\), וזאת מכיוון ש-\(p_{i}p_{j}\) הוא פולינום שמתאפס על כל \(\lambda_{1},\dots,\lambda_{j}\) ולכן בהכרח מכיל בתוכו רכיב מהצורה \(\prod\left(x-\lambda_{i}\right)\) – הפולינום המינימלי בכבודו ובעצמו (כאן השתמשתי בהנחה שאין לפולינום המינימלי שורש מרובה).

הדבר האחרון שעוד צריך להשתכנע בו הוא שכל ה-\(E_{i}\)-ים שונים מאפס (זה תנאי הכרחי של המשפט שאותו לא הוכחתי). גם זה פשוט – אם \(E_{i}=0\) זה אומר ש-\(p_{i}\left(T\right)=0\) והנה מצאנו פולינום שמאפס את \(T\) אבל דרגתו היא רק \(k-1\), כלומר קטנה מדרגת הפולינום המינימלי. זה מסיים את הכל.

בפוסט הבא נגיע כבר למשפט כבד באמת – משפט הפירוק הפרימרי – אבל שימו לב שגם בפוסט הזה כבר כיסינו כברת דרך לא קטנה והצגנו רעיונות שהם חשובים למדי בהקשרים רבים, וכנראה שנפגוש עוד בהמשך הדרך בצורה רצינית כשנדבר על מרחבי מכפלה פנימית. בנוסף, גם ההוכחות כבר הפסיקו להיות טריוויאליות כמו שהיו ברוב העניינים עד כה – אבל לדעתי הן עדיין אלגנטיות ויפות ביותר, במיטב מסורת האלגברה הלינארית.