top of page
Abstract Lines

המשך קריאה

מאופטיקה לבינה מלאכותית: מדוע 3DGS ו-AI מציתים את העידן החדש של ה-3D

  • tom19533
  • Jan 4
  • 4 min read

תקציר: סיפור על פיתוח מדעי שנעלם מהעין

3DGS AI

במהלך שנתיים האחרונות, טכנולוגיית ה-3D Gaussian Splatting (3DGS) התפוצצה לרוחב התעשייה כולה. מ-AR/VR ורובוטיקה ועד דמויות דיגיטליות, יצירת סרטים, מיפוי ומנועי משחקים – כולם מדברים על 3DGS.

מעניין לציין ש-NeRF – גם היא שיטה לשחזור תלת-ממדי – הייתה פופולרית באותה מידה במחקר האקדמי, אך האימוץ התעשייתי שלה לא התקרב למה שאנו רואים כיום.

רבים מניחים שהסיבה היא שהבינה המלאכותית הפכה לעוצמתית יותר, או שמודלים גדולים מספקים כעת "ידע מוקדם" (priors) חזק לתלת-ממד, או שההסקה (inference) הפכה למהירה בהרבה. ההסברים הללו אינם שגויים, אך אף אחד מהם לא נוגע בסיבה היסודית.

הלוגיקה המדעית האמיתית היא זו: 3DGS לא הגיח משום ש-AI הפכה פתאום למסוגלת. במקום זאת, ה-AI רתמה רינדור מבוסס גאוסיאנים (Gaussian-based rendering) כדי לאחד חישוב אופטי דיפרנציאבילי (גזיר) עם צינורות רינדור מסורתיים וניתנים לפירוש. זה יצר תהליך רינדור ברור יותר וניתן לשליטה חישובית.

ה AI + מדע התחום (Domain Science) הוא השורש האמיתי של הפריצה.

מתוך ההתפתחות ההיסטורית של אופטיקה חישובית ורינדור דיפרנציאבילי, אני רוצה להסביר מדוע 3DGS הפך לנקודת המוקד של הרינדור התלת-ממדי המודרני.

01 | הכל מתחיל באופטיקה: האם ניתן להפוך את העולם ל"מתמטי"?

נקודת המוצא של שחזור תלת-ממד אינה מדעי המחשב – אלא אופטיקה. מגיאומטריה פרוייקטיבית של המאה ה-19 ועד לפוטוגרמטריה של המאה ה-20, מדענים חיפשו זמן רב תשובה לשאלה בסיסית:

כיצד נוצרת תמונה דו-ממדית כ"הטלה" (Projection) של העולם התלת-ממדי? זה הוליד את מדע הרינדור (Rendering) – מעבר מ-3D ל-2D – הכולל:

  • מודלים של דימות (Imaging models)

  • העברת אור (Light transport)

  • משוואות אופטיקה גיאומטרית.

הכל מתחיל באופטיקה: האם ניתן להפוך את העולם ל"מתמטי"?

תיאוריות אלו היוו את השרטוט המוקדם ביותר של "מודל עולם בר-חישוב". במילים אחרות: האם ניתן לתאר את העולם התלת-ממדי באופן מתמטי?

התשובה המוקדמת הייתה כן. ניתן למדל את תהליך היווצרות האור, ועם הזמן פותחו שיטות רינדור רבות. הטלת עולם תלת-ממדי על מסך דו-ממדי היא תהליך הרינדור.

אך המהות של שחזור תלת-ממד היא הבעיה ההפוכה: כיצד אנו משחזרים מודל תלת-ממדי מתמונות דו-ממדיות? ותהליך הפוך זה דורש הבנה של טבע הרינדור עצמו.

02 | רינדור דיפרנציאבילי: כשהעולם התלת-ממדי הפך לראשונה לפונקציה של "אופטימיזציה" (2000–2019)

בתחילת המאה ה-21, חוקרים החלו להפוך את תהליך הדימות לדיפרנציאבילי (גזיר). משמעות הדבר הייתה שרינדור כבר לא היה רק תהליך קדימה (Forward) מ-3D ל-2D. באמצעות רינדור דיפרנציאבילי, ניתן היה כעת לבצע אופטימיזציה למבנה התלת-ממדי "אחורה" (Backward) מתוך תצפיות דו-ממדיות.

זה הוביל להתפתחויות כגון:

  • רינדור דיפרנציאבילי (Differentiable rendering)

  • שדות משתמעים (Implicit fields כגון SDFs, מודלים ניורוניים משתמעים)

  • משוואות דימות נפחיות (הקדמה לשדות קרינה - Radiance Fields)

רינדור דיפרנציאבילי:

לראשונה, העולם התלת-ממדי נתפס כפונקציה רציפה וניתנת לפתרון. אך זה גם הציב אתגרים משמעותיים: המערכות היו איטיות, האופטימיזציה לא הייתה יציבה, ופריסה בקנה מידה רחב הייתה קשה.

03 | ה-NeRF: שדה רציף מאוחד – אך כבד חישובית (2020)

בשנת 2020, ה-NeRF (Neural Radiance Fields) הדהים את העולם. הוא ייצג סצנה תלת-ממדית כפונקציה רציפה שעברה אופטימיזציה דרך רינדור דיפרנציאבילי. NeRF תיאר את העולם כשדה קרינה רציף – מאוחד מבנית, עקבי פיזיקלית ובעל יכולת ביטוי גבוהה.

זה הרגיש כאילו ניתן "לקפל" סצנות אמיתיות מורכבות לתוך מרחב פונקציה יחיד. עם זאת, המגבלות שלו היו חמורות:

  • הסקה (Inference) איטית במיוחד

  • עלות אימון גבוהה

  • שימושיות תעשייתית מוגבלת

  • ייצוג שהיה "פיזיקלי מדי" וחסר גמישות הנדסית

NERF

הניסוח של NeRF היה אלגנטי, אך לא מספק מבחינת יעילות חישובית ופרקטיקה הנדסית. לכן, למרות התלהבות מחקרית עצומה, האימוץ בתעשייה נותר זהיר.

04 | 3DGS: הפעם הראשונה שאופטיקה תלת-ממדית הפכה ל"מהירה וברת-חישוב" (2023)

התרומה של 3DGS אינה בכך שהיא "NeRF מהיר יותר". היא שכתבה באופן יסודי את הצורה המתמטית של בעיית הרינדור.

באמצעות דיסקרטיזציה (הפיכה לבדיד) של משוואת הרינדור הנפחי המורכבת לקונבולוציות של גרעיני גאוסיאנים (Gaussian kernel convolutions), ה-3DGS הפך את הרינדור לפתיר אנליטית, ידידותי גיאומטרית ויציב חישובית.

בפשטות:

  • ה-NeRF: אלגנטי לתיאור, קשה לפתרון.

  • ה-3DGS: מיוצג באלגנטיות ופתיר ביעילות.

NERF VS 3DGS

השינוי הזה אומר ש:

  1. הרינדור משתמש בקונבולוציה במקום באינטגרציה (מה שהופך אותו למהיר פי מאות מונים).

  2. העולם אינו עוד שדה רציף אלא אוסף של "צבירי גאוסיאנים" (יותר בר-שליטה).

  3. האופטימיזציה הופכת לפשוטה יותר, עם איחוד טוב יותר בין גיאומטריה לאופטיקה.

במילים אחרות, 3DGS השיג את מה ש-NeRF לא הצליח: הפיכת רינדור תלת-ממדי לצורה חישובית שניתן להנדס ולפרוס בשטח.

05 | ה-AI כפותר: כשהבעיה מוגדרת היטב, האינטליגנציה במיטבה (2024–2025)

ברגע ש-3DGS הגדיר את בעיות האופטיקה והרינדור בצורה ברורה – דיפרנציאבילית, ניתנת לדיסקרטיזציה, ניתנת לחישוב גרדיאנטים, מהירה לרינדור וברת-פריסה – תפקיד ה-AI השתנה מיסודו.

ה-AI כבר לא הייתה זו שמציבה בעיות חדשות. היא הפכה לפותר (Solver) החזק ביותר של בעיות מוגדרות היטב. פתאום, מודלים גדולים יכלו לתרום משמעותית ל:

  • אופטימיזציה של גאוסיאנים

  • שחזור טופולוגיה

  • השלמת טקסטורות

  • תיקון גיאומטרי

  • הבנת תלת-ממד בקנה מידה רחב

  • בניית מודלי עולם (World Models)

ה-AI מצאה סוף סוף נקודת כניסה מעשית למרחב התלת-ממדי. בעוד ש-NeRF, כאידיאל מדעי, היה קשה לפריסה תעשייתית, ה-3DGS פתח את הדלת בהיותו ידידותי לגיאומטריה ומוכן להנדסה.

06 | הסיבה האמיתית מאחורי עליית ה-3DGS מסתכמת בדבר אחד

זה לא בגלל שבינה מלאכותית הפכה לחזקה יותר, אלא בגלל שהניסוח המתמטי של רינדור אופטי הפך סוף סוף לבר-חישוב, בר-אופטימיזציה ובר-הנדסה.

זה לא בגלל שיש לנו יותר נתונים, אלא בגלל שהבעיה עצמה מוגדרת כעת בבירור. זה לא בגלל שהופיעו מודלים גדולים, אלא בגלל ש-3DGS יצר מרחב מובנה שבו המודלים הללו יכולים לפעול במלואם.

בקיצור: 3DGS הוא פריצת דרך באופטיקה חישובית. AI היא פריצת דרך בפתרון בעיות. ההתכנסות שלהם היא אבן דרך בלתי נמנעת בהתקדמות המדעית. אולי אפילו נכון לקרוא ל-3DGS בשם "AI for Science".

07 | מבט לעתיד: מודלי עולם בתלת-ממד יהיו ה"מערכת ההפעלה" החדשה

ככל שפרדיגמת ה-3DGS + AI תמשיך להבשיל, צפויים להופיע שלושה שינויים מרכזיים:

  1. מודלי עולם יהיו שכבת ה-OS עבור רובוטיקה, AR ומערכות אוטונומיות. הבנה ← חיזוי ← רינדור של העולם יתבצעו בלולאה סגורה בתוך מבנה מאוחד.

  2. כל המכשירים יהיו מסוגלים למיפוי תלת-ממדי בזמן אמת. טלפונים, משקפיים, רובוטים ומכוניות יבצעו ללא הרף שחזור 3DGS וחיזוי שדות דינמיים.

  3. מרחב תלת-ממדי יהיה ממשק ברירת המחדל של האינטרנט מהדור הבא. המחשוב המרחבי (Spatial Computing) יקבל צורה מלאה.

ומאחורי כל זה עומד עיקרון פשוט אחד: כאשר בעיה מוגדרת מספיק בבירור, האינטליגנציה יכולה לפתור אותה עד לקצה.

זהו הערך האמיתי של 3DGS – מתן ייצוג לעולם הפיזי שהוא בר-אופטימיזציה, בר-חישוב ובר-אבולוציה. אולי אלו שבסופו של דבר יבנו את מודל העולם יהיו ה"פיזיקאים" של ה-AI למדע.

Comments

Rated 0 out of 5 stars.
No ratings yet

Add a rating
חזור >
bottom of page