הכלי שיעצב את העתיד: ג׳מיני 2024 Gemini

שי דוד
13 בדצמ׳ 2023
זמן קריאה 4 דקות

בשנה האחרונה, תחום הבינה המלאכותית עבר מהפכה משמעותית עם התחרות החריפה בין חברות גדולות כמו OpenAI, מיקרוסופט וגוגל. כל אחת מהן שוקדת להוביל את המירוץ על ידי פיתוח והשקת דורות חדשים של מודלים חזקים ומתקדמים יותר של בינה מלאכותית. למרות שגוגל לא נכנסה ראשונה לעולם ה-AI, היא כעת מכוונת לקחת את ההובלה באמצעות המודל החדש שלה, ג'מיני, שנחשב לאחד המודלים החזקים ביותר שנוצרו אי פעם. השקת ג'מיני ביום רביעי, ה-6 בדצמבר 2023, ללא ספק מציינת נקודת מפנה חשוב לכל הקשור בעולם הבינה המלאכותית.

הנה מה שאנו יודעים על ג'מיני כיום: כיצד הוא פועל, מהן יכולותיו, ואילו משימות הוא יכול לבצע.

גוגל ג'מיני: קפיצת מדרגה בפיתוח הבינה המלאכותית

כאשר גוגל חשפה לראשונה את ג'מיני בכנס מפתחי Google I/O ב-10 במאי, זה סימן קפיצת מדרגה משמעותית בפיתוח הבינה המלאכותית. הפרויקט, שהוצג על ידי המנכ"ל סונדר פיצ'אי, הוצג כפרויקט AI מהפכני. בראש הפרויקט עמדו צוות Brain Team של גוגל ו-DeepMind, והוא מהווה התקדמות מעבודתם הקודמת על PaLM 2. PaLM 2, הידוע גם בשם Pathways Language Model 2, היא טכנולוגיה מרכזית שגוגל משתמשת בה במגוון מוצרים שלה, כולל Google Cloud, Gmail, Google Workspace, וכן בחומרה כמו הסמארטפון Pixel והתרמוסטט Nest. בנוסף, היא מפעילה את הצ'אטבוט ה-AI המפורסם של גוגל, Bard.

ג'מיני - AI אנושי

בדרך כזו או אחרת, כבר נתקלנו ב-AI רב-מודלי. חברות כמו OpenAI - האחראית ל-ChatGPT - או מיקרוסופט מציעות טכנולוגיות AI שונות שיכולות לעבוד עם תמונות, טקסט, נתונים ואפילו קוד. אך כל מערכות ה-AI המוקדמות הללו רק משקפות את הפוטנציאל המלא של הטכנולוגיה הרב-מודלית, שכן האינטגרציה של תוכן ופורמטים שונים של נתונים אינה יעילה.

הסיבה שבגללה ה-AI היצירתי הוא כל כך מצליח היא משום שלראשונה, מכונה יכולה לחקות את מה שאנשים עושים. אך מה בדיוק אנשים יכולים לעשות? אנו יכולים לא רק לשוחח, לתכנת, לכתוב דוחות וליצור תמונות, אלא לעשות את כל אלה במקביל.

המוח האנושי הוא מורכב להפליא, הוא יכול לפרש ולהבין בו זמנית פורמטים שונים של נתונים, כולל טקסט, מילים, צלילים ואלמנטים חזותיים. זה מאפשר לנו להבין את העולם שסביבנו, להגיב לגירויים ולפתור בעיות בדרכים יצירתיות וחדשניות. וזה בדיוק מה שג'מיני של גוגל מנסה להשיג. AI חדש שמתקרב יותר למה שאנשים באמת עושים: AI רב-מודלי שיכול לבצע מספר משימות במקביל.

ג'מיני הוא אינו מודל אחד, אלא שילוב של מספר AI-ים

ליצירת AI רב-מודלי אלגנטי ויעיל יש צורך בשילוב של מספר מודלים של AI לתוך יחידה אחת. מודלים של למידת מכונה ו-AI, כמו עיבוד גרפים, חזות מחשב, עיבוד שמע, מודלים של שפה, תכנות ופיתוח תוכנה, ומודלים תלת-מימדיים, צריכים להיות משולבים ומופעלים בצורה מתואמת כדי להשיג סינרגיה בפיתוח AI רב-מודלי. זוהי משימה אדירה ומאתגרת, וגוגל רוצה להביא את הרעיון הזה לרמה חדשה וחסרת תקדים.

שימוש ב AI לבניית AI

לא מוקדם מדי להבין כיצד מפתחים ישתמשו בג'מיני ליצירת אפליקציות AI חדשות ו-APIs. באמצע ספטמבר, התפרסם שגוגל התחילה לתת גישה למשתמשים לגרסה מוקדמת של ג'מיני. כמו שציפו, הדליפות הראשונות של ג'מיני הגיעו.

ב-15 באוקטובר, מהנדס הג'אווה סקריפט, בדרוס פמבוקיאן, הדהים את העולם עם הצילומים הראשונים שנראו כאילו ג'מיני משולב ב-Makersuite. MakerSuite היא בעצם AI ליצירת AI. יש לה ממשק משתמש פשוט שבו מפתחים יכולים ליצור כלים ליצירת קוד, אפליקציות לעיבוד שפה טבעית (NLP) ועוד.

פמבוקיאן, הראשון להדליף את השילוב של ג'מיני ב-MarketSuite - חשף את קצה הקרחון של היכולות הרב-מודליות של ג'מיני. הדליפה מראה שג'מיני בעל יכולות זיהוי טקסט ואובייקטים, והוא יכול לתייג ולהבין הוראות שמשלבות טקסט חופשי עם תמונות.

האם ג'מיני חזק יותר מ-ChatGPT?

בהשוואה בין Gemini ל-ChatGPT, רבים מהמומחים מדברים על פרמטרים. פרמטרים במערכת AI הם המשתנים שערכיהם מותאמים או מוכוונים במהלך שלב האימון, וה-AI משתמש בהם להפוך נתוני קלט לפלט. במילים פשוטות, ככל של-AI יש יותר פרמטרים, כך הוא מתוחכם יותר.

ChatGPT 4.0, ה-AI המתקדם ביותר שפועל כיום, מכיל 1.75 טריליון פרמטרים. לעומת זאת, דווח שג'מיני עולה על מספר זה – קיימים דיווחים הטוענים שיהיו לו 30 טריליון או אפילו 65 טריליון פרמטרים.

אולם, העוצמה של מערכת AI אינה נמדדת רק במספרים גדולים של פרמטרים. מחקר של SemiAnalysis צופה שעד סוף 2023, ג'מיני עשוי לעלות על ChatGPT 4.0 בפקטור של חמישה, כלומר עשוי להיות עד 20 פעמים חזק יותר.

היכולות של ג׳מיני

כפי שצוין, יכולת ה-AI הרב-מודלי של ChatGPT עדיין מוגבלת - הוא יכול לעבוד עם שפה וקוד אך לא עם תמונות - בעוד שג'מיני ישלב הכל.

"גוגל ג'מיני הוא רב-מודלי, כלומר הוא יכול לעבד ולייצר טקסט, תמונות וסוגי נתונים אחרים. זה הופך אותו ליותר גמיש מ-ChatGPT, שיכול רק לעבד טקסט," כך נכתב בדוח של SemiAnalysis.

SemiAnalysis הוסיפו שגוגל "השקיעה כוח חישוב בלתי נראה". לאימון ג'מיני, גוגל משתמשת בשבבי אימון מתקדמים הידועים כ-TPUv5. דווח ששבבים אלו הם הטכנולוגיה היחידה בעולם המסוגלת לארגן עבודה של 16,384 שבבים יחד. שבבים אלו הם הסוד שמאפשר לגוגל לאמן מודל כה מסיבי.

SemiAnalysis אומרת: "כיום, אין גורמים אחרים בתחום שיש להם את היכולת לבצע מאמצי אימון כאלה."

אך אימון מודל AI אינו רק עניין של שבבים, אלא גם של נתונים. וכאשר מדובר בנתונים, גוגל היא אחת המלכות השולטות. "לגוגל יש אוסף עצום של נתונים, המוערך בסביבות של 40 טריליון טוקנים". למען הסר ספק, 40 טריליון טוקנים שווים למאות פטה-בייטים או לתוכן של מיליוני ספרים.

לפי SemiAnalysis, מאגר הנתונים של גוגל לבדו גדול פי ארבעה מכלל הנתונים ששימשו לאימון ChatGPT 4.0.

לסיכום

כמו ש-PaLM 2 של גוגל הוא המנוע לכל הטכנולוגיה של גוגל, כך נצפה ג'מיני לעשות את אותו הדבר בתחום ה-AI. גוגל מטפחת את ג'מיני ומצפה שהוא יגדל להיות חוט השדרה של כל הבינה המלאכותית המשולבת והמוטמעת בכל מוצר ושירות של גוגל.

אילו מוצרים ושירותים נראה מופעלים בעתיד על ידי ג'מיני?

אם יחליף את PaLM 2, ג'מיני יפעיל הכל, החל ממפות ועד מסמכים ותרגום, כל סביבת העבודה של גוגל ושירותי הענן, כמו גם חומרה ותוכנה, ומוצרים חדשים.

גוגל מחויבת לבניית AI חזק יותר, גמיש יותר ומודע יותר, המסוגל להבין ולתקשר עם העולם בדרכים חדשות וחסרות תקדים. מתכנתים ישתמשו בג'מיני לקידוד, אוטומציה ושיפור הפעולות בענן, לניהול מכירות, ולשילוב בצ'אטבוטים ובעוזרים וירטואליים בתוך מכשירים ניידים של גוגל, אפליקציות, APIs ועוד הרבה יותר. אם 2023 תיראה בסופו של דבר כשנה שבה ה-AI הגיע למודעות ושימוש ראשיים, יתכן ש-2024 באמת תהיה שנת הג'מיני.