צוות המחקר של אפל גילה גילוי משמעותי הנוגע ליכולות ההיסק של מודלים גדולים לשפה (LLMs) המשמשים חברות כמו מטא ואופןAI. המסמך האחרון שלהם מציין שהמערכות המתקדמות הללו עדיין מתקשות בביצוע משימות היסק בסיסיות. כדי לטפל בפער הזה, אפל הציגה כלי ההערכה חדש בשם GSM-Symbolic שנועד להעריך באופן אובייקטיבי ולמדוד את רמת ההיסק של LLMs שונים.
ממצאים ראשוניים מהמחקר שלהם מגלים ששינויים עדינים בניסוח השאלות יכולים להוביל לתגובות שונות באופן דרמטי, מה שמצביע על חוסר עקביות מדאיג. חקירה זו התמחתה במיוחד בפוטנציאל לטעויות בהיסק מתמטי כאשר אלמנטים הקשריים שצריכים להיות נייטרליים כלולים, מה שמדגיש את השבריריות של המודלים.
הדוח מצטט שאפילו שינויים מינוריים בערכים מספריים יכולים לפגוע באופן דרמטי בביצועי המודלים, מה שמדגיש חוסר אמינות קריטי. לדוגמה, הוספת מידע רלוונטי לכאורה לשאלה מתמטית הראתה ירידה בדיוק של עד 65%. זה מצביע על בעיה טבועה כיצד המודלים הללו מעבדים מידע, מה שמעיד על כך שההיסק שלהם רגיש מאוד לשינויים קטנים.
דוגמה שנעשה בה שימוש במחקר מדגימה את הפגם הזה באמצעות בעיה אריתמטית פשוטה לגבי איסוף קיוויים. נוכחות של פרט לא רלוונטי לגבי גודלו של כמה קיוויים הובילה למסקנות שגויות לגבי כמות הקיוויים שנאספה. בסך הכל, מחקר זה מגלה שרבים מהמודלים הלשוניים פועלים כיום בעיקר דרך התאמת דפוסים מתקדמת, ולא באמצעות כל סוג של היסק לוגי.
הביקורת של אפל על יכולות ההיסק של אינטליגנציה מלאכותית נוגעת לנושאים רחבים יותר במחקר ופיתוח AI. השקת GSM-Symbolic מהווה צעד חשוב לקראת בדיקות קפדניות יותר של LLMs, תוך דגש על עקביות ואמינות במשימות היסק. גילויים אלו לא רק משפיעים על אפל אלא יש להם השלכות משמעותיות על כל תעשיית ה-AI, מה שמעורר דיונים לגבי המגבלות הגלומות בטכנולוגיות AI הנוכחיות.
שאלות ותשובות מרכזיות:
1. מה זה GSM-Symbolic?
GSM-Symbolic הוא כלי הערכה חדש שהוצג על ידי אפל שמטרתו למדוד אובייקטיבית את יכולות ההיסק של מודלים גדולים לשפה שונים. הוא מתמקד בזיהוי חוסר עקביות וטעויות במשימות היסק.
2. למה יכולות ההיסק חשובות ב-AI?
יכולות ההיסק חיוניות ליישומי AI בתחומים כמו פיננסים, בריאות ומערכות אוטונומיות, שבהם היסק מדויק וקבלת החלטות יכולים להשפיע באופן משמעותי על תוצאות.
3. כיצד פעלו המודלים במחקר של אפל?
המחקר גילה שהמודלים הציגו התנהגות לא צפויה, עם ירידה משמעותית בביצועים בשל שינויים מינוריים בניסוח השאלות או בערכים המספריים.
אתגרים מרכזיים ומחלוקות:
– אמינות של מערכות AI: הממצאים מדגישים אתגר מרכזי הנוגע לאמינות המודלים של AI בקבלת מסקנות מדויקות, דבר שעלול להוביל להשלכות חמורות, במיוחד במגזרי קריטיים.
– תלות יתר בהתאמת דפוסים: הנטייה של המודלים להסתמך בעיקר על התאמת דפוסים ולא על היסק לוגי אמיתי מעוררת דאגות לגבי היכולות הנוכחיות של טכנולוגיות AI.
– השלכות אתיות: מגבלות אלו מעוררות דיונים על השימוש האתי ב-AI, במיוחד כאשר מודלים מוחלים במצבים רגישים.
יתרונות:
– שיפור סטנדרטי ההערכה: עם GSM-Symbolic, יש פוטנציאל לשיפור סטנדרטי ההערכה בהיסק AI, מה שמעודד התקדמות תעשייתית רחבה.
– מוקד על יישומים מעשיים: הביקורת מעודדת את הפיתוח של LLMs עם אמינות משופרת בעולם האמיתי, דבר שהוא הכרחי עבור יישומים מעשיים בתחומים שונים.
חסרונות:
– דחיפות בשיפור: הגילויים על מגבלות ה-AI מעמידים לחצים על חברות לשפר במהירות את המודלים שלהן, דבר שעשוי להוביל לפיתוחים חפוזים.
– בעיות תדמית: ביקורות כאלה יכולות להשפיע לרעה על התדמית הציבורית של טכנולוגיות AI, ובכך להאט את שיעורי האימוץ במגוון מגזרי.
עבור המתעניינים בחקירת התקדמות ואתגרים בתחום ה-AI, שקלו לבקר במשאבים הללו:
– OpenAI
– Meta