משפט הפירוק הציקלי

חלק ראשון, שבו הרבה הגדרות והסערה היא רק הבטחה באופק

בפוסט הקודם הצגתי את התכל’ס של צורת ז’ורדן, והבטחתי שאראה בהמשך גם את התיאוריה שמאחוריה. בפרט, למרות שהראיתי את השיטה למציאת צורת ז’ורדן, לא באמת הוכחתי שהיא קיימת או יחידה. בפוסט הזה נלך צעד אחד אחורה ונוכיח משפט שממנו אפשר לקבל יחסית בקלות הן את צורת ז’ורדן והן עוד צורה קנונית - הצורה הרציונלית שטרם הזכרתי. המשפט הזה נקרא משפט הפירוק הציקלי והוא החלק ה”עמוק” פה - איפה שמצויה העבודה האמיתית (ותהיה כאן לא מעט עבודה - זה הולך להיות פוסט טכני למדי). רק אעיר שההקשר של הדיון שלנו כרגע הוא מרחבים וקטוריים; יש למשפט הזה הכללה עבור מודולים, שהם בעצמם הכללה של מרחבים וקטוריים; אבל אני לא רוצה לדבר כרגע על מודולים ולכן נישאר “על הקרקע” ובעתיד אולי נחזור אל ההכללה הזו.

אפשר להגיד כמעט מייד מה המשפט אומר, אבל לשם כך אנחנו זקוקים להגדרה אחת בכל זאת - של וקטור ציקלי. העולם שלנו יהיה, כרגיל, מרחב וקטורי \( V \), ותמיד יש ברקע טרנספורמציה לינארית \( T:V\to V \), והמטרה שלנו בחיים היא למצוא פירוק של \( V \) לתת-מרחבים שהם “יפים” ביחס ל-\( T \) במובנים מסויימים.

אם כן, מהו וקטור ציקלי? קרוב לודאי ששמעתם את השם הזה בתורת החבורות, שם חבורה ציקלית היא חבורה שנוצרת על ידי איבר בודד. אבל מה המשמעות של “יוצרת” בהקשר שלנו? יש לנו כבר מושג של \( \mbox{span} \) של תת-מרחב על ידי וקטורים ולא על זה אנחנו מדברים פה, אלא על משהו כללי יותר: בהינתן וקטור \( v \) והטרנספורמציה \( T \), קחו את כל הוקטורים \( v,T\left(v\right),T^{2}\left(v\right),\dots \) ותסתכלו על תת-המרחב הוקטורי שנוצר על ידי כולם. לזה נקרא תת-המרחב הציקלי שנוצר על ידי \( v \), ונסמן \( Z\left(v;T\right)\triangleq\mbox{span}\left\{ T^{n}\left(v\right)\ |\ n\in\mathbb{N}\right\} \). כעת, מה שמשפט הפירוק הציקלי אומר הוא שאפשר לכתוב את \( V \) בתור סכום ישר של תת-מרחבים ציקליים, כלומר שקיימים \( v_{1},\dots,v_{k} \) כך ש-\( V=Z\left(v_{1};T\right)\oplus\dots\oplus Z\left(v_{k};T\right) \). אבל אפשר לעשות יותר מכך; אפשר יהיה להוכיח שהפירוק הזה לתת-מרחבים ציקליים, הוא גם יחיד לכל \( T \), בהינתן תנאים מסויימים שנדרוש בהמשך במפורש. צורת ז’ורדן הולכת להתקבל משילוב של המשפט הזה עם משפט הפירוק הפרימרי שראינו בעבר.

בואו נתחיל מלהבין קצת יותר טוב מה זה ה-\( Z\left(v;T\right) \) המוזר הזה. בואו ניקח איבר כלשהו, \( u\in Z\left(v;T\right) \). מכיוון שהוא צירוף לינארי של חזקות של \( T\left(v\right) \) אז הוא מהצורה \( u=\sum_{k=0}^{n}a_{k}T^{k}\left(v\right) \) עבור מקדמים \( a_{0},\dots,a_{n} \) כלשהם מהשדה \( \mathbb{F} \) שמעליו אנחנו עובדים. אפשר לכתוב את זה טיפה שונה: \( u=\left(\sum_{k=0}^{n}a_{k}T^{k}\right)v \). המשמעות היא שאנחנו לוקחים את הפולינום \( f\left(x\right)=\sum_{k=0}^{n}a_{k}x^{k} \), מציבים בו את \( T \) ומקבלים טרנספורמציה לינארית שאותה אנחנו מפעילים על \( v \). זה מאפשר לנו לתת תיאור שונה של \( Z\left(v;T\right) \):

\( Z\left(v;T\right)=\left\{ f\left(T\right)v\ |\ f\left(x\right)\in\mathbb{F}\left[x\right]\right\} \)

במובן מסויים אפשר לחשוב על כך כאילו הרחבנו את פעולת ה”כפל בסקלר” של המרחב הוקטורי מכפל באיבר של \( \mathbb{F} \) לכפל באיבר של \( \mathbb{F}\left[x\right] \): התכונות הבסיסיות כמו \( \left(f+g\right)v=fv+gv \) וכדומה בבירור נשמרות. פעולת הכפל המורחבת הזו הופכת את \( V \) למה שנקרא \( \mathbb{F}\left[x\right] \)-מודול, אבל אמרתי שלא אכנס למודולים בפוסט הזה אז לא אגיד יותר על נקודת המבט הזו (למרות שהיא מפשטת לא מעט מהתיאור של מה שיקרה בהמשך, אבל המחיר הוא שכבר צריך להכיר מודולים). מה שכן, אני אאמץ את הסימון. במקום לכתוב \( f\left(T\right)v \) אני פשוט אכתוב \( fv \). זה ישתלם לנו בהמשך.

מכיוון שכל מה שאנחנו עושים הוא מעל מרחב סוף-ממדי, אפשר מן הסתם לתאר את \( Z\left(v;T\right) \) באמצעות קבוצה פורשת סופית. ל-\( T \) הרי יש פולינום מינימלי, \( m_{T}\left(x\right)=x^{n}+a_{n-1}x^{n-1}+\dots+a_{1}x+a_{0} \). אם נציב את \( T \) בפולינום ונעביר אגף, נקבל

\( T^{n}=-a_{n-1}T^{n-1}-\dots-a_{1}T-a_{0} \)

כלומר, אפשר לכתוב את \( T^{n} \) בתור צירוף לינארי של \( T^{0},T^{1},\dots,T^{n-1} \), ולכן גם את החזקות הגבוהות יותר של \( T \). מכאן ש-\( Z\left(v;T\right)=\mbox{span}\left\{ T^{0}\left(v\right),\dots,T^{n-1}\left(v\right)\right\} =\left\{ fv\ |\ f\left(x\right)\in\mathbb{F}_{n}\left[x\right]\right\} \) כאשר \( \mathbb{F}_{n}\left[x\right] \) הוא אוסף הפולינומים ממעלה קטנה מ-\( n \) (אפשר ויותר נכון להשתמש פה בחוג מנה אבל נעזוב את זה).

אבל למה לעצור פה? המרחב \( Z\left(v;T\right) \) נקבע על פי הפעולה של \( T \) על וקטור בודד, \( v \). ייתכן שיש פולינום ב-\( T \) שמאפס את \( v \) והוא קטן יותר מהפולינום המינימלי (כי הפולינום המינימלי צריך לאפס את כל המרחב ולא רק וקטור בודד). כמו שקורה עם הפולינום המינימלי של \( T \), אפשר להוכיח שיש פולינום מתוקן יחיד ממעלה קטנה ביותר כך שכשמציבים בו את \( T \), מקבלים טרנספורמציה שמאפסת את \( v \), והפולינום הזה מחלק כל פולינום אחר שכשמציבים בו את \( T \) זה מאפס את \( v \). הפולינום הזה נקרא ה-\( T \)-מאפס של \( v \), ונסמן אותו \( p_{v}\left(x\right) \). מן הסתם הוא מחלק את הפולינום המינימלי של \( T \). נסמן את הדרגה שלו ב-\( d \).

כעת אפשר להגיד על \( Z\left(v;T\right) \) יותר מאשר אמרנו קודם. קודם רק אמרנו שהמרחב הזה נפרש על ידי קבוצה של איברים מהצורה \( T^{k}\left(v\right) \). עכשיו אנחנו יכולים להגיד שהקבוצה \( \left\{ T^{0}\left(v\right),T^{1}\left(v\right),\dots,T^{d-1}\left(v\right)\right\} \) היא בסיס ל-\( Z\left(v;T\right) \), כלומר ש-\( d \) הוא המימד של המרחב הזה. האינטואיציה פשוטה: אם זו קבוצה תלויה לינארית אנחנו מקבלים \( \sum a_{i}T^{i}\left(v\right)=0 \), כלומר פולינום שמאפס את \( v \) והוא ממעלה נמוכה מ-\( p_{v}\left(x\right) \), וזה כמובן בלתי אפשרי (זה מסביר למה זו קבוצה בלתי תלויה; זה שהיא פורשת נובע, כמו קודם, מכך שכל חזקה של \( T \). שהיא לפחות \( d \) ומופעלת על \( v \) ניתנת לכתיבה כצירוף לינארי של חזקות קטנות יותר שמופעלות על \( v \)).

כעת, המרחב \( Z\left(v;T\right) \) הוא מן הסתם \( T \)-אינוריאנטי. מה נקבל את נצמצם את \( T \) אליו? נקרא לטרנספורמציה הזו \( U \). מה אפשר לומר עליה? ראשית, המאפס \( p_{v}\left(x\right) \) של \( v \) הוא מן הסתם הפולינום המינימלי שלה. שנית, מכיוון שהדרגה של \( p_{v}\left(x\right) \) היא המימד של \( Z\left(v;T\right) \), אז זה גם הפולינום האופייני של \( U \) (כי המינימלי מחלק את האופייני - זה קיילי המילטון - והאופייני הוא פולינום מתוקן ממעלה ששווה למימד המרחב). זו תוצאה שמדגדג לחשוב עליה בתור “אם ורק אם” - דהיינו, אם בהינתן טרנספורמציה \( T \) ומרחב \( V \) הפולינום האופייני של \( T \) שווה לפולינום המינימלי שלה, אז \( V \) הוא מרחב \( T \)-ציקלי. אבל בואו נחכה עם זה להמשך.

שאלה אחרת היא מה המטריצה המייצגת של \( U \) בבסיס של המרחב. לצורך כך בואו ניזכר בסימונים שלנו: אני אסמן \( p_{v}\left(x\right)=x^{d}+a_{d-1}x^{d-1}+\dots+a_{1}x+a_{0} \), ואני אסדר את הבסיס שלנו “מהסוף להתחלה”, כלומר \( \left(T^{d-1}\left(v\right),T^{d-2}\left(v\right),\dots,T\left(v\right),v\right) \). בצורה הזו, כשמפעילים את \( U \) על כל איבר בסיס למעט הראשון מקבלים את איבר הבסיס שלפניו. וכשמפעילים על הראשון? מקבלים את \( -a_{0}T^{0}\left(v\right)-a_{1}T\left(v\right)-\dots-a_{d-1}T^{d-1}\left(v\right) \). המטריצה המייצגת של \( U \) היא וקטורי הקואורדינטות של הפעלות שכאלו, ולכן היא תהיה מהצורה

\( \left(\begin{array}{ccccc}-a_{0} & 1 & 0 & \cdots & 0\\-a_{1} & 0 & 1 & \cdots & 0\\\vdots & \vdots & \vdots & \ddots & \vdots\\-a_{d-2} & 0 & 0 & \cdots & 1\\-a_{d-1} & 0 & 0 & \cdots & 0\end{array}\right) \)

אני כותב את המטריצה הזו בצורה קצת לא סטנדרטית. באופן סטנדרטי, בהינתן פולינום מתוקן \( x^{d}+a_{d-1}x^{d-1}+\dots+a_{1}x+a_{0} \) נהוג להגדיר את המטריצה המלווה של הפולינום להיות המטריצה המאוד דומה הבאה:

\( \left(\begin{array}{ccccc}0 & 0 & 0 & \cdots & -a_{0}\\1 & 0 & 0 & \cdots\\0 & 1 & 0 & \cdots & -a_{1}\\\vdots & \vdots & \vdots & \ddots & \vdots\\0 & 0 & 0 & \cdots & -a_{d-1}\end{array}\right) \)

שהיא מה שמקבלים כשהבסיס הסדור שלי מסודר בסדר הפוך. הסיבה שבחרתי בכל זאת להציג את המטריצה ה”הפוכה” היא שמהמטריצה ההפוכה הזו מתקבלת צורת ז’ורדן: הרעיון הכללי הוא שלכל בלוק ז’ורדן אפשר לפרק את הטרנספורמציה שמחפשים את צורת ז’ורדן שלה לסכום של טרנספורמציה סקלרית וטרנספורמציה נילפוטנטית, כלומר כזו שמקיימת \( T^{k}=0 \) עבור \( k \) מסויים; למטריצה כזו, כל המקדמים \( a_{0},\dots,a_{k-1} \) יהיו 0, ולכן נקבל מטריצה של 1-ים שאם נחבר לה את המטריצה האלכסונית של הטרנספורמציה הסקלרית נותנת לנו בדיוק בלוק ז’ורדן.

חלק שני, שבו אנחנו מבינים את הרעיון הכללי והסערה מתקרבת

אני מקווה שעכשיו הקשר בין מה שאנחנו עושים ובין היעד של צורת ז’ורדן ברור, ואפשר לגשת לעבודה המרכזית שלנו - משפט הפירוק הציקלי. המטרה הכללית שלנו ברורה: למצוא פירוק \( V=Z\left(v_{1};T\right)\oplus\dots\oplus Z\left(v_{k};T\right) \). אפשר להתחיל בצורה הכי נאיבית שאפשר: לקחת וקטור \( v_{1} \) שונה מאפס כלשהו ולהסתכל על \( Z\left(v_{1};T\right) \). אם \( V=Z\left(v_{1};T\right) \), סיימנו; אחרת, יש \( v_{2}\notin Z\left(v_{1};T\right) \) ואז נבנה את \( Z\left(v_{2};T\right) \) וכן הלאה. באופן כללי, נגדיר \( W_{0}=\left\{ 0\right\} \) ובשלב ה-\( i \)-י נמצא וקטור \( v_{i}\notin W_{i-1} \) ונגדיר \( W_{i}=W_{i-1}+Z\left(v_{i};T\right) \). בצורה הזו אנחנו מקבלים סדרה עולה של מרחבים, \( W_{0}\subset W_{1}\subset\dots \) ומכיוון שבכל שלב המימד של המרחב שלנו עולה לפחות ב-1, בסופו של דבר נגיע אל \( V \). כלומר, נקבל \( V=W_{k}=Z\left(v_{1};T\right)+\dots+Z\left(v_{k};T\right) \). זו התחלה טובה, אבל יש בה שתי בעיות מהותיות. ראשית, זה איננו סכום ישר. זה אומר שהמרחבים \( Z\left(v_{i};T\right) \) הללו נחתכים בצורה לא טריוויאלית ויש ביניהם קשרים, וזה לא טוב; בשביל משהו כמו צורך ז’ורדן צריך להשיג הפרדה למרחבים זרים, אחרת לא ניתן לצמצם את \( T \) לכל אחד מתתי-המרחבים בנפרד ולטפל בהם בנפרד.

הבעיה השניה היא שהפירוק הזה אינו יחיד. יש הרבה דרכים שונות לקבל פירוק לסכום כזה של מרחבים שונים. היינו רוצים למצוא תנאי כלשהו שמבטיח שהמרחבים שמופיעים בפירוק נקבעים באופן יחיד. אחרת, לא תהיה לנו צורה קנונית; ל-\( T \) יהיו המון פירוקים שונים ומשונים אפשריים.

משפט הפירוק הציקלי בא לטפל בשתי הבעיות הללו, ועושה את זה בצורה לא פשוטה במיוחד אבל גם לא ממש נוראית. הרעיון הוא אכן לבנות את ה-\( W_{i} \)-ים כפי שתיארתי, אבל עם בחירה “חכמה” של היוצרים ולא סתם לקחת וקטורים באופן אקראי; ואחר כך לבצע “תיקון” חכם של היוצרים הללו כדי לקבל מרחבים זרים. בואו נתחיל עם שלב הבחירה. מכיוון ש-\( v_{i} \) הוא הסימון שאני מייעד ליוצרים ה”נכונים” שאמצא בסופו של דבר, אני אשתמש בסימון \( w_{i} \) כדי לתאר את הוקטורים שאני בוחר בשלב הזה.

הרעיון הוא לבחור את ה-\( w_{i} \) באופן שממקסם את הביס שאנחנו נותנים בחלק של \( V \) שעדיין לא תפסנו. כלומר, אם כרגע בנינו כבר את \( W_{i-1} \) ואנחנו מחפשים \( w_{i} \) כדי לבנות את \( W_{i}=W_{i-1}+Z\left(w_{i};T\right) \), בואו ניקח \( w_{i} \) שממקסם את \( \dim W_{i} \). עכשיו, כל מי שיש לו טיפת נסיון במתמטיקה יודע שהתגובה הראשונה לאמירה כמו “ניקח מישהו שממקסם” צריכה להיות “רגע, רגע, רגע, למה בכלל יש מישהו כזה?” אבל אנחנו באלגברה לינארית סוף-ממדית פה והכל נחמד. מכיוון ש-\( \dim W_{i} \) חסום על ידי \( \dim V \) ומימד הוא מספר טבעי, קבוצת כל הממדים האפשריים של \( W_{i} \) היא קבוצה סופית של טבעיים ולכן ברור שיש לה איבר מקסימלי.

תכונת המקסימליות הזו תבטיח בהמשך את יחידות הפירוק שאנחנו מוצאים. אבל איך הופכים את הסכום \( V=Z\left(w_{1};T\right)+\dots+Z\left(w_{k};T\right) \) לסכום ישר? בשביל זה נצטרך “לתקן” את ה-\( w_{i} \)-ים - להעיף מהם את החלקים ה”מתנגשים”. זה דומה מאוד באופי שלו לאלגוריתם גרם-שמידט: שם אנחנו מתחילים מבסיס “רגיל” \( \left\{ w_{1},\dots,w_{n}\right\} \), להבדיל מבסיס אורתונורמלי, ובכל שלב אם כבר בנינו את \( v_{1},\dots,v_{k} \) שהם אברי הבסיס האורתונורמלי שנגיע אליו בסופו של דבר, אנחנו מחשבים את \( w_{k+1}-\sum_{i=1}^{k}\left\langle w_{k+1},v_{i}\right\rangle v_{i} \) ומנרמלים את הוקטור הזה כדי לקבל את ה-\( v_{k+1} \) הבא בתור. כלומר, חיסרנו מ-\( w_{k+1} \) את כל האיברים הקודמים, כשהם מוכפלים במקדם “תיקון” מתאים. אצלנו הסיטואציה תהיה מאוד דומה: נגדיר \( v_{k+1}=w_{k+1}-\sum_{i=1}^{k}f_{i}w_{i} \) כאשר ה-\( f_{i} \)-ים הם פולינומים שייבחרו בצורה חכמה כלשהי (שימו לב שבסכום באגף ימין יש לנו את ה-\( w_{i} \)-ים ה”ישנים” ולא את ה-\( v_{i} \)-ים ה”חדשים”; כדי לשמור על התאמה מושלמת לגרם-שמידט הייתי יכול לעשות את זה גם עם ה-\( v_{i} \)-ים אבל הכתיבה והנימוקים היו יוצאים לי טיפה יותר מסורבלים אז ויתרתי).

בשביל שנבין איך מוצאים את הפולינומים הללו אנחנו צריכים להכניס לתמונה מושג חדש, שהוא סוג של הכללה של המאפס שראינו קודם. בואו ניזכר: המאפס של \( v \) (ביחס ל-\( T \)) היה הפולינום המתוקן \( p \) מהמעלה המינימלית האפשרית כך ש-\( p\left(T\right)v=0 \) (לדוברים אלגברית שוטפת: הוא היה יוצר של אידאל הפולינומים שמאפסים את \( v \) בחוג \( \mathbb{F}\left[x\right] \) שהוא חוג פולינומים מעל שדה ולכן תחום ראשי). מה שאני רוצה להגדיר עכשיו נקרא באנגלית conductor ובעברית אין לי מושג איך לקרוא לו - קצת מתחשק לי לקרוא לו “המבאס”, כי עבורנו הוא מודד עד כמה \( w_{i} \) “מתנגש” עם קודמיו. כזכור, אנחנו מגדירים \( W_{i}=W_{i-1}+Z\left(w_{i};T\right) \) ואנחנו יודעים ש-\( w_{i}\notin W_{i-1} \). זה אומר שיש פולינום מדרגה גדולה מ-1 שאסמן \( s\left(w_{i};W_{i-1}\right) \) כך שמתקיים \( sw_{i}\in W_{i-1} \). למה תמיד קיים \( s \) כזה? כי המאפס של \( w_{i} \) הוא בפרט בעל התכונה הזו (שהרי \( 0\in W_{i-1} \)), אבל אולי יש פולינום קטן יותר מהמאפס שכבר הוא מכניס אותנו לתוך \( W_{i-1} \). אז אנחנו לוקחים את הפולינום המתוקן הקטן ביותר שמקיים זאת - זה ה-conductor המדובר. למי שדוברים אלגברית שוטפת, ה-conductor \( s\left(v,W\right) \) של \( v \) לתוך מרחב \( T \) אינוריאנטי \( W \) הוא הפולינום המוני היחיד אשר יוצר את האידאל \( \left\{ f\in\mathbb{F}\left[x\right]\ |\ f\left(T\right)v\in W\right\} \) (זה אידאל בגלל ש-\( W \) הוא \( T \)-אינוריאנטי).

קודם אמרתי שאם יש לנו את \( W_{i-1} \) אז אנחנו בוחרים את \( w_{i} \) כך ש-\( \dim W_{i} \) ממוקסם על ידו. עכשיו יש דרך קצת יותר קונקרטית לומר את זה: לא קשה לראות שככל שהדרגה של \( s\left(w_{i},W_{i-1}\right) \) גדולה יותר, כך גם \( \dim W_{i} \) יהיה גדול יותר (כי, אינטואיטיבית, \( w_{i} \) יכול לייצר יותר איברים חדשים לפני שהחזקות שלו “נזרקות” לתוך \( W_{i-1} \)). לכן הבחירה של \( w_{i-1} \) היא כזו שממקסמת את הדרגה של \( s\left(w_{i},W_{i-1}\right) \); נשתמש בזה עוד מעט.

יש עוד טענה אחת שנזדקק לה בהמשך וכדאי לציין כבר עכשיו: נניח ש-\( v,u \) הם שני וקטורים שהם “שקולים מודולו \( W \)”, כלומר \( v-u\in W \). ינבע מכך ש-\( s\left(v,W\right)=s\left(u,W\right) \). למה? ובכן, נסמן \( p=s\left(v,W\right) \) ו-\( q=s\left(u,W\right) \). כמו כן נסמן \( w=v-u \); כאמור, \( w\in W \). כעת, \( pv\in W \), ומצד שני \( pv=p\left(w+u\right)=pw+pu \) (זה נובע מכך שה”כפל” ב-\( p \) הוא בעצם הפעלה של טרנספורמציה לינארית שמתקבלת בעזרת \( p \) על הוקטור \( w+u \), וכאן אנחנו משתמשים בתכונת הלינאריות של הטרנספורמציה הזו). מכיוון ש-\( W \) הוא \( T \)-אינוריאנטי הרי ש-\( pw\in W \) (מדגדג לי לכתוב כאן “\( W \) הוא תת-מודול” אבל הבטחתי לא להשתמש בטרמינולוגיה הזו) ולכן \( pu=pv-pw\in W \). נובע מכך ש-\( q \) מחלק את \( p \), ובדיוק באותו האופן \( p \) מחלק את \( q \) ולכן הם שווים.

חלק שלישי, שבו הסערה פורצת

כעת, זכרו ש-\( W_{i-1}=Z\left(w_{1};T\right)+\dots+Z\left(w_{i-1};T\right) \). על כן, אם \( sw_{i}\in W_{i-1} \) זה אומר שאפשר לכתוב אותו כסכום של אברי ה-\( Z \)-ים שמרכיבים את \( W_{i-1} \). כל איבר כזה הוא כפל בפולינום של היוצר המתאים. כלומר, קיימים פולינומים \( g_{1},\dots,g_{i-1} \) כך ש-\( sw_{i}=\sum_{t=1}^{i-1}g_{t}w_{t} \). עכשיו, אם אני רק אדע ש-\( s \) מחלק את כל ה-\( g_{t} \)-ים הללו אני אהיה מאוד שמח: עולה מכך שה-\( f_{t} \)-ים ש”נבחרו בצורה חכמה כלשהי” צריכים להיבחר כך: \( f_{t}=\frac{g_{t}}{s} \).

להראות את תכונת החלוקה הזו, זה החלק הקשה ביותר בהוכחה כולה. מה שאעשה יהיה לחלק עם שארית את כל ה-\( g_{t} \)-ים ב-\( s \). זה אומר שאני אקבל משוואות מהצורה \( g_{t}=q_{t}s+r_{t} \) כאשר על \( r_{t} \) - ה”שארית” - אני יודע שהיא פולינום ממעלה קטנה משל \( s \). המטרה שלי היא להראות שה-\( r_{t} \) הזה הוא פולינום האפס, לכל \( t \).

על פי האינטואיציה שנתתי קודם, אנחנו הולכים להגדיר וקטור \( v_{i}=w_{i}-\sum_{t=1}^{i-1}\frac{g_{t}}{s}w_{t} \). אם באמת אצליח להוכיח שכל השאריות הן 0, אז ההגדרה הזו תהיה זהה להגדרה הבאה: \( v_{i}=w_{i}-\sum_{t=1}^{i-1}q_{t}w_{t} \). בואו ניקח את ה-\( v_{i} \) הזה ונעבוד איתו. אנחנו רואים ש-\( v_{i}-w_{i}\in W_{i-1} \) ולכן מהטענה שהזכרתי קודם, לשניהם יש את אותו conductor לתוך \( W_{i-1} \), דהיינו \( s\left(v_{i},W_{i-1}\right)=s\left(w_{i},W_{i-1}\right)=s \). כעת, מה מקבלים כאשר לוקחים את ה-\( s \) הזה ומפעילים אותו על \( v_{i} \)? חישוב זריז יראה לנו ש-

\( sv_{i}=sw_{i}-\sum_{t=1}^{i-1}sq_{t}w_{t}=\sum_{t=1}^{i-1}r_{t}w_{t} \)

כלומר, \( sv_{i} \) מורכב מסכום של ה”שאריות”, ואם נצליח להוכיח שכל השאריות הן 0, בפרט ינבע מכך ש-\( sv_{i} \) הוא 0 ולכן \( s \) הוא לא סתם ה-conductor של \( v_{i} \) לתוך \( W_{i-1} \) אלא הוא ממש המאפס שלו; זו הסיבה שבגללה \( v_{i} \) הוא מיוחד כל כך: הרי ה-conductor של וקטור יכול להשתנות כתלות במרחב שאליו נכנסים, אבל המאפס שלו הוא יחיד. אז כאן \( v_{i} \) מיוחד מבחינת \( W_{i} \) במובן זה שהמאפס שלו - הפולינום שמותאם לו “אבסולוטית”, גם זהה לפולינום ה”ספציפי” שהמרחב \( W_{i} \) מתאים ל-\( v_{i} \).

עכשיו צריך לעבוד קצת בזהירות כדי לקבל את הסתירה. חשבתי להראות קודם מקרה פרטי וכאלו, אבל זה לא באמת מפשט את העניינים אז בואו פשוט נצלול פנימה. אמרנו ש-\( sv_{i}=\sum_{t=1}^{i-1}r_{t}w_{t} \). חלק מהפולינומים \( r_{t} \) הללו עשויים להיות 0. אם כולם 0, סיימנו. אחרת, בואו נסמן ב-\( j \) את האינדקס הגדול ביותר של פולינום ששונה מאפס. כלומר, \( sv_{i}=\sum_{t=1}^{j}r_{t}w_{t} \) ואנחנו יודעים שהמחובר האחרון שונה מאפס. מה שיביא לנו את הסתירה יהיה לבחון את ה-conductor של \( v_{i} \) לתוך \( W_{j-1} \) ולהשוות אותו אל \( s \), שהוא כזכור ה-conductor לתוך \( W_{i-1} \) (שימו לב לכך ש-\( j\le i-1 \) ולכן \( j-1<i-1 \) - אלו מרחבים שונים). נסמן אם כן \( p=s\left(v_{i},W_{j-1}\right) \). כעת, מכיוון ש-\( W_{j-1}\subset W_{i-1} \), מי שמכניס את \( v_{i} \) לתוך \( W_{j-1} \) בוודאי מכניס אותו גם לתוך \( W_{i-1} \). ה-conductor, כזכור, מחלק כל פולינום אחר שמכניס לתוך המרחב. לכן \( s \) מחלק את \( p \). נסמן את זה \( p=s\cdot g \).

עכשיו בואו נביט שוב במשוואה \( sv_{i}=\sum_{t=1}^{j}r_{t}w_{t} \). נכפול את שני האגפים שלה ב-\( g \) (פורמלית אנחנו עושים פעולה יותר מסובכת מאשר כפל - הרבה של טרנספורמציות לינאריות - אבל בפועל זה יוצא אותו דבר) ונקבל:

\( \left(sg\right)v_{i}=\sum_{t=1}^{j}gr_{t}w_{t} \)

אגף שמאל שווה ל-\( pv_{i} \). מאגף ימין אפשר לנתק את המחובר האחרון, להעביר את יתר הסכום אגף, ולקבל:

\( pv_{i}-\sum_{t=1}^{j-1}gr_{t}w_{t}=gr_{j}w_{j} \)

זה מעניין מכיוון ש-\( pv_{i}\in W_{j-1} \) (כי \( p \) הוא ה-conductor של \( v_{i} \) לתוך \( W_{j-1} \)) וכמובן ש-\( \sum_{t=1}^{j-1}r_{t}w_{t}\in W_{j-1} \) (צירוף לינארי של איברים שכולם שייכים ל-\( W_{j-1} \)). לכן \( gr_{j}w_{j}\in W_{j-1} \), כלומר \( gr_{j} \) מעביר את \( w_{j} \) לתוך \( W_{j-1} \). עכשיו ברור למה התעקשתי ש-\( r_{j}\ne0 \), כי אם הוא אפס זה לא מעניין - ברור שזה קורה.

איפה הסתירה פה?

בשביל זה צריך לחזור אחורה, לשלב שבו בחרנו את \( w_{j} \). בחרנו אותו כדי שימקסם את הדרגה של \( s\left(w_{j},W_{j-1}\right) \). אני אשתמש בזה כדי להוכיח ש-\( \deg r_{j}\ge\deg s \), מה שהוא בלתי אפשרי כי \( r_{j} \) היא השארית של חלוקה של משהו ב-\( s \). לצורך כך, מספיק לי להראות ש-\( \deg gr_{j}\ge\deg sr_{j}=\deg p \), אבל זה ברור: \( p \) מכניס את \( v_{i} \) לתוך \( W_{j-1} \), ולכן המעלה שלו קטנה או שווה למעלה של הפולינום מהמעלה המינימלית שמכניס את \( w_{j} \) לתוך \( W_{j-1} \) (אם זה לא היה כך, היינו בוחרים את \( v_{i} \) במקום את \( w_{i} \) בשלב שבו בחרנו איבר שממקסם את ה-conductor לתוך \( W_{j-1} \)). כעת, מכיוון ש-\( r_{j}s \) הוא פולינום כלשהו שמכניס את \( w_{j} \) לתוך \( W_{j-1} \), המעלה שלו יכולה להיות רק גדולה יותר. פורמלית, למי שזה עוזר לו:

\( \deg gr_{j}\ge\deg s\left(w_{j},W_{j-1}\right)\ge\deg s\left(v_{i},W_{j-1}\right)=\deg p=\deg sr_{j} \)

חלק רביעי, שבו כבר מתחילים לראות את אור היום

זהו, זה היה החלק המסובך ביותר בהוכחה. עכשיו אפשר ללכת צעד אחד אחורה ולראות מה בעצם הוכחנו: הוכחנו ש-\( sw_{i}=\sum_{t=1}^{i-1}g_{t}w_{t} \) כאשר כל ה-\( g_{t} \)-ים מתחלקים ב-\( s \) ולכן אפשר להגדיר \( v_{i}=w_{i}-\sum_{t=1}^{i-1}\frac{g_{t}}{s}w_{t} \). כבר ראינו ש-\( s\left(v_{i},W_{i-1}\right)=s\left(w_{i},W_{i-1}\right) \), וראינו יותר מכך: ש-\( s\left(v_{i},W_{i-1}\right) \) הוא המאפס של \( v_{i} \), כלומר \( sv_{i}=0 \).

כעת אני רוצה להוכיח באינדוקציה שני דברים:

\( W_{i}=Z\left(v_{1};T\right)+\dots+Z\left(v_{i};T\right) \). כלומר, זה שהחלפנו את ה-\( w_{t} \)-ים המקוריים שלנו ב-\( v_{t} \)-ים החדשים, ה"מתוקנים", לא שינה את סדרת המרחבים ההולכת ועולה שאנחנו מקבלים.
לכל זוג \( v_{i},v_{j} \) מתקיים \( Z\left(v_{i};T\right)\cap Z\left(v_{j};T\right)=\left\{ 0\right\} \). במילים אחרות, \( W_{i} \) הוא כעת סכום ישר.

בסיס האינדוקציה טריוויאלי כשיש לנו רק מרחב אחד. לכן אפשר להניח שכבר בנינו את \( W_{i-1} \) ולראות מה קורה כשמכניסים לתמונה את \( v_{i} \). אם כן, אנו מניחים ש-\( W_{i-1}=Z\left(v_{1};T\right)+\dots+Z\left(v_{i-1};T\right) \). כעת, נזכור שהגדרנו \( W_{i}\triangleq W_{i-1}+Z\left(w_{i};T\right) \), ואני רוצה להוכיח ש-\( W_{i}=W_{i-1}+Z\left(v_{i};T\right) \). מן הסתם זה לא נכון ש-\( Z\left(w_{i};T\right)=Z\left(v_{i};T\right) \), אבל כל מה שאני צריך לעשות הוא להוכיח הכלה, ובשביל זה מספיק שאראה \( w_{i}\in W_{i-1}+Z\left(v_{i};T\right) \), וזה כמובן נכון כי \( w_{i}=v_{i}+\sum_{t=1}^{i-1}\frac{g_{t}}{s}w_{t} \).

נשאר להראות ש-\( Z\left(v_{i};T\right)\cap Z\left(v_{j};T\right)=\left\{ 0\right\} \) - זו הרי הייתה המטרה של כל המהומה הזו. כאן נכנס לתמונה עניין ה”ה-conductor הוא גם המאפס”. נניח ש-\( i<j \) ובואו נסתכל על איבר ב-\( Z\left(v_{i};T\right)\cap Z\left(v_{j};T\right) \). האיבר הזה הוא איבר של \( Z\left(v_{j};T\right) \), כלומר מהצורה \( pv_{j} \). מכיוון ש-\( pv_{j}\in Z\left(v_{i};T\right) \), נובע מכך ש-\( p \) מתחלק על ידי ה-conductor של \( v_{j} \), כלומר הוא כפולה של פולינום ה-0, כלומר הוא בעצמו 0, וסיימנו. בהתחשב בזוועה הטכנית שעברנו קודם, החלק הזה היה פשוט מאוד.

נסכם: ראינו ש-\( V=Z\left(v_{1};T\right)\oplus\dots\oplus Z\left(v_{k};T\right) \). עכשיו אנחנו רוצים לדבר קצת על תכונת ה”יחידות” של הפירוק. מה הכוונה שלי ב”יחידות”? האם לא ייתכן שיהיו וקטורים ציקליים מלבד \( v_{1},\dots,v_{k} \)? ייתכן שיהיו. אבל אם אדרוש עוד תנאי מסויים, אני יכול להבטיח ששני דברים יישאר קבועים בכל פירוק ציקלי של \( V \): ראשית, שמספר תת-המרחבים הציקליים יהיה זהה; ושנית, שהמאפסים של הוקטורים הציקליים יהיו זהים. התנאי הנוסף הזה הוא: אם \( V=Z\left(v_{1};T\right)\oplus\dots\oplus Z\left(v_{k};T\right) \) ואם נסמן את המאפסים של \( v_{1},\dots,v_{k} \) ב-\( p_{1},\dots,p_{k} \) בהתאמה, אז \( p_{i}|p_{i-1} \) לכל \( 1<i\le k \). אני רוצה לטעון שבפירוק שמצאתי בהוכחה לעיל התכונה הזו אכן מתקיימת, ושאם היא מתקיימת זה מבטיח את היחידות של סדרת המאפסים.

חלק חמישי, שבו יש לנו הוכחת קיום ויחידות לכך שיהיה טוב מתישהו

נתחיל עם ההוכחה שהתכונה הזו אכן מתקיימת עבור ה-\( v_{i} \)-ים שלנו. הטיעון הוא פשוט מכיוון שהוא מסתמך בצורה מחוכמת על מה שכבר ראינו: כזכור, קודם, עם ה-\( w_{i} \)-ים, ראינו שאם \( sw_{i}=\sum_{t=1}^{i-1}g_{t}w_{t} \) אז \( s \) מחלק את כל ה-\( g_{t} \)-ים. כעת אנחנו יכולים לחזור על ההוכחה עם ה-\( v_{i} \)-ים; זה עובד מכיוון שה-conductor-ים של \( w_{i} \) ושל \( v_{i} \) זהים. במקרה של ה-\( v_{i} \)-ים הסכום פשוט במיוחד: \( p_{t}v_{t}=0 \) לכל \( 1\le t\le i \) ולכן אפשר לכתוב \( p_{i}v_{i}=\sum_{t=1}^{i-t}p_{t}v_{t} \), ונקבל ש-\( p_{i} \) מחלק את \( p_{i-1} \) כפי שרצינו.

נשארנו עם החלק של הוכחת היחידות. שגם הוא יהיה קשה, אבל אל דאגה, נחפף בו. כאמור, ראינו שמתקיים

\( V=Z\left(v_{1};T\right)\oplus\dots\oplus Z\left(v_{k};T\right) \)

עם מאפסים \( p_{1},\dots,p_{k} \) שכל אחד מהם מחלק את קודמו.

בואו נניח שבנוסף לכך מתקיים גם

\( V=Z\left(u_{1};T\right)\oplus\dots\oplus Z\left(u_{s};T\right) \)

עם מאפסים \( q_{1},\dots,q_{s} \) שכל אחד מהם מחלק את קודמו.

אנחנו רוצים להוכיח ש-\( k=s \) וש-\( p_{i}=q_{i} \) לכל \( 1\le i\le k \). איך נעשה את זה? נוכיח ש-\( p_{1}=q_{1} \), ואז נוכיח ש-\( p_{2}=q_{2} \) ומשם נמשיך באינדוקציה. לא, אני רציני, זה מה שנעשה.

הסיבה ש-\( p_{1},q_{1} \) הם קלים יחסית היא שהם לא סתם מאפסים את \( v_{1},u_{1} \) אלא הם מאפסים את כל המרחב, בגלל תכונת החלוקה. הנה הטיעון המלא: כל איבר ב-\( V \) הוא מהצורה \( v=\sum_{i=1}^{k}f_{i}v_{i} \). כעת, \( p_{1} \) מתחלק על ידי כל אחד מהפולינומים \( p_{1},\dots,p_{k} \) כך שאפשר לכתוב \( p_{1}=g_{i}p_{i} \). מסקנה: \( p_{1}v=\sum_{i=1}^{k}g_{i}p_{i}f_{i}v_{i}=\sum_{i=1}^{k}\left(g_{i}f_{i}\right)p_{i}v_{i}=0 \). מכאן שבפרט, \( p_{1} \) מאפס את \( u_{1} \) ולכן מתחלק על ידי המאפס שלו, \( q_{1} \). באותו האופן גם \( q_{1} \) מתחלק על ידי \( p_{1} \). מכיוון שמאפס הוא פולינום מתוקן נובע מכך ש-\( p_{1}=q_{1} \).

אוקיי, זה היה קל. להוכיח ש-\( p_{2}=q_{2} \) יהיה יותר טריקי.

ראשית, בכלל לא בטוח שיש \( p_{2} \). הרי ייתכן ש-\( k=1 \). אבל אפשר בלי הגבלת הכלליות להניח מראש ש-\( s\le k \) כלומר, נניח מראש ש-\( p_{2} \) קיים ונראה שבמקרה הזה, גם \( q_{2} \) קיים. הטיעון פה הוא שיקול מימד פשוט: המימד של \( Z\left(v_{1};T\right) \) שווה למעלה של \( p_{1} \), ולכן אם \( p_{1}=q_{1} \) גם \( \dim Z\left(v_{1};T\right)=\dim Z\left(u_{1};T\right) \) ולכן אם \( \dim Z\left(v_{1};T\right)<\dim V \) כך גם עבור \( u_{1} \). מן הסתם אפשר להמשיך באינדוקציה עם הטיעון הזה אחרי שמוכיחים ש-\( p_{2}=q_{2} \) וכן הלאה, כך שכבר ברור לנו איך מוכיחים ש-\( k=s \).

נשאר רק להבין איך מוכיחים ש-\( p_{2}=q_{2} \), ואז אפשר לומר שממשיכים באינדוקציה באופן דומה.

מה שעשינו קודם היה לקחת את \( p_{1} \) ולהפעיל אותו על כל המרחב. אפשר לסמן את זה כך: \( p_{1}V=\left\{ p_{1}v\ |\ v\in V\right\} \). הקבוצה שקיבלנו הייתה פשוט \( \left\{ 0\right\} \) ומכאן הכל היה קל. אבל מה אם נעשה את זה עבור \( p_{2} \)? מכיוון ש-\( p_{2} \) מתחלק בכל הבאים אחריו נחסל את כל המרחב, אבל לא את החלק של \( Z\left(v_{1};T\right) \). מה שכן, קל להראות ש-\( p_{2}Z\left(v_{1};T\right)=Z\left(p_{2}v_{1};T\right) \). כלומר, נקבל:

\( p_{2}V=Z\left(p_{2}v_{1};T\right) \)

עכשיו נפעיל את \( p_{2} \) גם על הפירוק השני של המרחב, הפעם בלי שנוכל לחסל שום תת-מרחב כי אנחנו עוד לא יודעים איך \( p_{2} \) מתנהג עם תתי-המרחבים הללו:

\( p_{2}V=Z\left(p_{2}u_{1};T\right)\oplus\dots\oplus Z\left(p_{2}u_{s};T\right) \)

(גם פה יש משהו להוכיח - שאנחנו עדיין מקבלים סכום ישר - אבל אני מחפף).

מה שאני רוצה לטעון עכשיו הוא ש-\( \dim Z\left(p_{2}v_{1};T\right)=\dim Z\left(p_{2}u_{1};T\right) \). גם זו טענה ישירה יחסית שלא אטרח להוכיח - הרעיון הוא שאם המאפס של \( v_{1} \) שווה למאפס של \( u_{1} \), כך גם המאפסים של \( pv_{1},pu_{1} \) יהיו שווים לכל פולינום \( p \). כעת, שוויון המימדים הזה גורר שבהכרח המימד של \( Z\left(p_{2}u_{2};T\right)\oplus\dots\oplus Z\left(p_{2}u_{s};T\right) \) הוא אפס, ולכן \( Z\left(p_{2}u_{i};T\right)=\left\{ 0\right\} \) לכל \( 2\le i\le s \). מסקנה: \( p_{2} \) מאפס את \( u_{2} \) ולכן מתחלק על ידי \( q_{2} \), ובאופן דומה \( q_{2} \) מאפס את \( p_{2} \) ולכן הם שווים. זה טיעון דומה לזה שבו השתמשנו עבור \( p_{1}=q_{1} \) אבל כללי קצת יותר (כי היה צריך “לקלף” את המרחב הראשון), ומכאן אני חושב שההמשך באינדוקציה ברור.

אם כן, זה סוף ההוכחה. זו לא הוכחה קשה במיוחד - הרעיונות שלה הם כולם בסיסיים ומופיעים בעוד כל מני מקומות באלגברה לינארית; אבל היא הייתה ארוכה ומלאת אינדקסים הרבה יותר מאשר רוב ההוכחות שאני מכיר באלגברה לינארית בסיסית. מכיוון שאפשר לקבל ממנה שלל דברים יפים, זה גם לא עד כדי כך מפתיע.

נהניתם? התעניינתם? אם תרצו, אתם מוזמנים לתת טיפ: