איך AI לומד? Zero-shot & Few-shot Learning

מה זה Zero-Shot ו-Few-Shot Learning? ⛹

דמיינו עולם שבו מודלי בינה מלאכותית יכולים לבצע משימות מורכבות בלי שנצטרך להאכיל אותם באלפי דוגמאות. עולם שבו מערכת AI יכולה לזהות מחלה נדירה מבלי שראתה אותה קודם או לתרגם לשפה שמעולם לא למדה בתהליך האימון. זוהי בדיוק Zero & Few Shot Learning.

למה Zero & Few Shot Learning כל כך חשובות?

בואו נתחיל בבעיה הבסיסית, מודלי למידה עמוקה צריכים הרבה נתונים. הם דורשים אלפי ולפעמים מיליוני דוגמאות מתויגות (Label Data) כדי להגיע לביצועים טובים. אבל מה קורה כשאין לנו מספיק דוגמאות? או במקרים שבהם איסוף וסימון נתונים הוא יקר, מסובך או פשוט בלתי אפשרי? זוהי בדיוק הנקודה שבה נכנסות לתמונה Zero-Shot Learning ו- Few-Shot Learning.

0️⃣ Zero-Shot Learning ללמוד בלי דאטה בכלל

דמיינו שאתם פוגשים חיה שמעולם לא ראיתם. נגיד, איזה זן נדיר של תוכי בשם “צופית קריבית”. אף פעם לא נתקלתם בו, אבל אומרים לכם שהוא נראה כמו שילוב של יונה עם זנב בצבעים של טווס.

בום 💥 – עכשיו אתם יודעים איך הוא נראה, בלי לראות תמונה אחת שלו.

A realistic picture of a parrot that looks like a combination of a dove with a peacock-colored tail.

זה בדיוק מה ש-Zero-Shot Learning עושה. המודל לא ראה שום דוגמה, אבל בזכות תיאורים בשפה טבעית או רשימת תכונות, הוא מצליח לנחש נכון.

Zero-Shot Learning היא טכניקה המאפשרת למודלי בינה מלאכותית לסווג ולבצע משימות על קטגוריות שמעולם לא ראו במהלך האימון. במקום להסתמך על דוגמאות מתויגות, ZSL עושה שימוש בתיאורים סמנטיים כמו רשימות תכונות או תיאורים בשפה טבעית, כדי לגשר על הפער בין מה שהמודל למד לבין המחלקות החדשות.

איך זה קורה?

שימוש במשמעויות סמנטיות – המודל לומד מתוך הקשרים קיימים בשפה. הוא מחבר בין משמעות מילולית של מילים לבין דברים שהוא כבר מכיר. לדוגמא, אם מישהו מספר לכם על “חד-קרן מתכתי”, אתם יכולים לנחש שהוא דומה לחד-קרן רגיל 🦄, אבל עשוי ממתכת. גם אם לא ראיתם אחד כזה, המוח משתמש בהקשרים קיימים כדי לדמיין אותו.
למידה גנרטיבית – המודל יוצר מידע חדש שדומה למה שהוא כבר מכיר. הוא יכול לייצר דוגמאות מדומות (סינתטיות) שמאפשרות לו ללמוד גם כשאין לו דאטה אמיתי. נניח שאתם מנסים לדמיין מאכל חדש שלא קיים – למשל, “פיצה מתוקה”🍕. למרות שלא ראיתם אחת כזו, אתם יכולים לדמיין פיצה עם בסיס פריך, רוטב שוקולד, ותוספות של פירות.
העברת ידע (Knowledge Transfer) – שימוש בידע קיים כדי להבין תחום חדש.במקום שהמודל יתחיל מאפס, הוא משתמש בידע על דברים שהוא כבר מכיר כדי להבין תחום חדש.נניח שאתם יודעים לרכב על אופניים 🚴‍♂️. עכשיו אתם מנסים ללמוד סקייטבורד 🛹. למרות שזה לא בדיוק אותו הדבר, יש לכם ידע קודם על שיווי משקל ותנועה, וזה עוזר לכם ללמוד יותר מהר.

לדוגמה מערכות לזיהוי תמונות כמו CLIP של OpenAI יודעות לקשר בין תמונות למילים, גם אם הן לא אומנו ספציפית על האובייקט שבתמונה. כלומר, אפשר להראות למודל תמונה של לווייתן כחול, והוא יצליח לזהות שזה “לווייתן”, למרות שלא אומן על תמונות כאלה.

5️⃣ Few-Shot Learning ללמוד ממספר דוגמאות

אם Zero-Shot זה רמה הכי גבוהה של ניחושים חכמים, Few-Shot Learning זה כמו ללמוד סולו גיטרה 🎸 בצפייה בכמה סרטוני יוטיוב.

Few-Shot Learning היא היכולת של מודל ללמוד ממספר קטן מאוד של דוגמאות מתויגות, בדרך כלל בין 1 ל-5 דוגמאות לכל קטגוריה. הטכניקה הזו מתוכננת לאפשר למודלים להסתגל במהירות למשימות או קטגוריות חדשות עם כמות מינימלית של נתוני אימון.

חברות כמו Google ו-OpenAI משתמשות בטכניקות של Few-Shot כדי ללמד מודלים כמו GPT-4 איך להבין תחום מסוים בכמה דוגמאות בלבד, במקום להזין אלפי דוגמאות.

הבדלים בין Zero ל- Few Shot Learning

שיטה	מספר דוגמאות	🟢 יתרונות	🔴 חסרונות
Zero Shot	0	חיסכון בעלויות, מאפשרת להתמודד עם מקרים חדשים וטובה במקרים בהם לא ניתן לאסוף דוגמאות.	תלויה בתיאורים סמנטיים איכותיים
One Shot	1	מאוזנת בין גמישות לדיוק	עדיין דורשת דוגמה אחת לכל קטגוריה
Few Shot	1-5	יותר מדויקת מהאחרות	דורשת יותר דוגמאות מתויגות

תרגיל קטן Zero Vs. Few Shot Prompting

אם אתם עובדים עם מודלים כמו GPT, Gemini, Claude, בטח נתקלתם במונחים Zero-Shot ו-Few-Shot Prompting. בואו נראה השיטה הזו באה לידי ביטוי בהנחיה למודל. כנסו ל- GPT וכתב את ההנחיה הבאה ובדקו איזה תוצאה קיבלתם:

סווג את המשפט הבא כחיובי, שלילי או ניטרלי:
“השירות במסעדה היה איטי, אבל האוכל היה טעים מאוד.”

עכשיו תזינו את הפומרפט הזה 👇ותראו מה ההבדל

סווג את המשפטים הבאים כחיוביים, שליליים או ניטרליים:

משפט: “אהבתי את הסרט מאוד.”
סיווג: חיובי

משפט: “המלון היה מלוכלך ורועש.”
סיווג: שלילי

משפט: “הזמנתי חולצה אונליין.”
סיווג: ניטרלי

משפט: “השירות במסעדה היה איטי, אבל האוכל היה טעים מאוד.”
סיווג:

כמו שבטח ראיתם, שימוש ב- Few Shot בדרך כלל מייצר תוצאות מדויקות ועקביות יותר, במיוחד עבור משימות מורכבות או ספציפיות.

✨ לסיכום בינה מלאכותית יותר חכמה בפחות דאטה

Zero & Few Shot Learning מייצגות שינוי גישה באופן שבו מאמנים מודלים של בינה המלאכותית. השימוש בשיטות האלה מאפשרים מעבר ממודלים רעבים לנתונים למערכות שיכולות ללמוד בצורה יעילה ממעט מידע או אפילו מתיאורים בלבד. בעתיד, הטכניקות האלו יאפשר:

מערכות AI נגישות יותר גם בתחומים עם מיעוט נתונים
פיתוח מהיר יותר של יישומים חדשים
מערכות חסכוניות יותר מבחינת משאבים ואנרגיה
יכולת טובה יותר להתמודד עם בעיות “העולם האמיתי” הלא מושלם

בעידן שבו מידע הוא כוח, טכנולוגיות שמאפשרות למודלים ללמוד עם מעט או ללא דאטה פותחות אינסוף אפשרויות.

אגב אם באלכם להתנסות באימון מודל בעצמכם אתם יכולים להיכנס ל- Teachable Machine ולהתנסות באימון מודל של למידת מכונה.