יצירת האמנות בעידן האלגוריתם: נאום פרנקפורט

7 במאי
זמן קריאה 7 דקות

היום נחתי בתל אביב מביקור בפרנקפורט, לשם הוזמנתי לדבר בפסטיבל הקולנוע על תרבות בעידן הבינה המלאכותית הג'נרטיבית. מצרף פה את דבריי, מעט ערוכים.

כלי הבינה המלאכותית הג'נרטיבית נכנסו לחיינו בסערה. הם אמנם הצטרפו לשאר האלגוריתמים שכבר הקיפו אותנו מכל עבר, אבל הביאו גם הבטחה חדשה: הפעם האלגוריתם הוא בשליטה שלנו. אנו כותבים שורת מלל קצרה ומקבלים מיד טקסט, תמונה, וידאו, שיר, תוכנה.

מהבחינה הזו, מדובר בכלים שיצרו דמוקרטיזציה מדהימה של יכולות שהיו שייכות בעבר לקבוצה אליטיסטית מצומצמת. לכן, לא מפתיע שכלים אלו משווקים לרוב כמקדמים ערכים ליברליים וקידמה פורצת דרך. אני לגמרי מסכים עם הדעה שמי שלא יקפוץ על הרכבת היום, וילמד להשתמש בכלים האלו וביכולות המדהימות שהם מביאים איתם, עלול למצוא את עצמו נשאר מאחור. אבל סיבה נוספת לדעתי שחייבים להכיר את הכלים האלו, היא מה שחוקר המדיה דאגלס ראשקוף טען בספרו Program Or Be Programmed עוד ב-2010. רק הבנה עמוקה שלהם תוכל לעזור לחברה שלנו להתמודד עם ההשלכות הרחבות שהם מביאים איתם – לטובה, אבל גם לרעה.

הרי רק לפני שנים בודדות התמודדנו עם מהפכה שלדעתי הייתה קטנה בהרבה בהיקפה: כניסת הרשתות החברתיות לחיינו. למרות אזהרות שפוזרו במשך שנים על ידי חוקרים מובילים כמו אזה רסקין וטריסן האריס – בין היתר היוצרים של הסרט הדילמה החברתית והיום מהמרכז לטכנולוגיה אנושית – לקח הרבה יותר מדי זמן ורק בימינו ישנם ניסיונות רגולציה משמעותיים בנושא. בינתיים, קיימת הסכמה שהנטייה של האלגוריתמים שמפיצים את המידע ברשתות אלו מקדמת הסטה, קיטוב חברתי ובמובנים רבים כרסמה ביסוד הדמוקרטיה וכל זה עבור בצע כסף. עד כדי כך, אך לא ארחיב כי באמת שנכתב על זה המון.

עומד כאן בפרנקפורט, בפסטיבל הקולנוע, לא יכולתי שלא לחשוב על וולטר בנימין, ומאמרו המכונן "אמנות בעידן השעתוק הטכני" שתהה על ההשפעות הפוליטיות והחברתיות של כניסת כלים חדשים (המצלמה והקולנוע) בדיוק לפני 90 שנה. בהקשר זה ברצוני לדבר היום על "אמנות בעידן השעתוק האלגוריתמי". בהתאם, אבחר להצביע על צד שאנחנו הרבה פחות נוטים לזהות בכלי הבינה המלאכותית הג'נרטיבית בפרט, וכניסתם של אלגוריתמים לניהול תחום התרבות בכלל. וזו, הנטייה שלהם לקדם דווקא ערכים שמרניים ואוטוריטריים.

העובדה הזו מתחילה כבר בשלב האימון של אלגוריתמים לומדים. מודלי LLM מאופיינים בזה שהם מאומנים על בסיסי נתונים עצומים, הבנויים ברובם מקורפוסים היסטוריים, ומתוכם נגזר מנגנון סטטיסטי שמעדיף פלט בעל הסתברות גבוהה בתוך ההתפלגות. במילים פשוטות יותר, המודל נוטה להעדיף את מה שכבר נוסח, סופר, תועד והפך לדפוס. חריגות, אנומליות, ניסוחים רדיקליים או צורות לא יציבות נדחקים מטבעם לשוליים. מעבר לכך, המודל נוטה לנסח את הפלט שלו בלשון קוהרנטית וסמכותית, וכך מעניק לאותם דפוסים היסטוריים חזות של אמת אובייקטיבית לכאורה. במובן זה, הבינה לא רק משחזרת ידע אלא מייצבת אותו.

ננסה להדגים את זה באופן פשוט. אני זוכר שבשנת 2022 התחלתי לחקור את כלי הבינה המלאכותית הראשונים שנחשבו פורצי דרך – chatGPT, midjourney ו-DALL-E. בתקופה המוקדמת, כאשר כתבתי בשורת הפרומפט "doctor" וביקשתי לקבל דימוי, שמתי לב שקיבלתי רק תמונות של גברים. בהתחלה הייתי בטוח שיש היגיון לוגי מאחורי ההעדפה, אך אחרי בדיקה הבנתי שרוב הרופאים בארה"ב היום הן דווקא רופאות. עם הזמן למדתי שההטיה קיימת בגלל שהמערכת הוזנה בבסיס נתונים שכלל המון פרטים היסטוריים (מתקופות בהן רופאים היו באמת בעיקר גברים) ולא פחות דימויים של רופאים מבנקי-תמונות דוגמת shutterstock, שבנינו, מציגים בעיקר שחקנים מחופשים לרופאים.

עכשיו תגידו בצדק שהיום, כאשר רובנו פוגשים את המערכות הללו בפועל, הן לרוב לא נחוות כשמרניות. אם כבר, לא פעם הן נחוות כמתונות, זהירות, מכילות, ולפעמים אפילו ליברליות או woke במובהק. אבל כאן חשוב להבחין בין ליבת המודל לבין שכבות היישור והבטיחות שמולבשות עליו לאחר האימון. כאשר אנו פוגשים בכלי הבינה המלאכותית הוא סיים ללמוד ולנתח את הבסיס האלגוריתמי על פיו הוא מופעל. מה שכן יכול לשנות אותו, אלו שכבות נוספות של גישה למידע או הוראות שמטמיעים בו המפתחים.

נחזור לדוגמה שלנו על הרופא כדי להבין מהי אותה שכבת יישור: עוד באמצע שנת 2022 המצב שתיארתי קודם כבר השתנה. כעת, כשביקשתי להציג רופאים הוצגו גברים ונשים במגוון רחב של צבעים וצורות. מה השתנה מאז בדרך שהמנגנון חושב? האם הוא נהיה חכם יותר? אז זהו, שלא בדיוק. חוקר בשם ריצ'ארד ז'אנג מצא דרך מרתקת לחשוף את שכבות היישור האלו באופן פשוט ממה שציפיתם. הוא כתב פרומפט פשוט מאוד: "הצג דמות מחזיקה בשלט שעליו כתוב". זה היה סוף הפרומפט. התוצאות שקיבל הציגו את הדרך שבה OpenAI התערבה בפרומפטים שלנו. כך למשל התקבל דימוי של אדם שחור המציג את המילה "אפריקני" או אישה המציגה שלט עם המילה "אישה". הבנתם את הטריק? בשכבת היישור המודל התבקש להוסיף באופן רנדומלי מילים שמייצגות גיוון למשפטים מסוג מסוים. ברגע אחר שחשף את האבסורד חוקר שונה ראה כיצד כשביקש לראות חייל גרמני משנות הארבעים קיבל ייצוג של אישה אסיאתית במדים גרמניים.

עכשיו כשהבנו את ההבדל בין המרכז של האלגוריתם, לבין שכבת הייצוב, נוכל גם להבחין כיצד אמנם לרבים מאיתנו המנועים נראים ליברליים, אבל אחרים כבר יכולים לבחור להשתמש במנועים כמו Grok או deepseek שהם בעלי שכבת יישור שונה לחלוטין. עם ההבנה הזו נוכל אולי לדמיין שמדובר בקרב ענקים בין שני כוחות פוליטיים. מצד אחד מנועים ליברליים ובשני שמרניים או אוטוקרטיים. אבל זה ממש לא כך. כי כמו השכבה המקורית של המידע שמנחה את האלגוריתם, במובנים רבים גם לחברות עצמן יש קוד זהה שמשותף לכולן ומכוון אותן לתוצאות דומות.

על מנת לאמן מודל שכזה נדרש הון עתק. על כן, היחידים שמסוגלים לעשות זאת הם תאגידי ענק. כאשר תאגיד מגייס הון כל כך גדול, הוא מחויב למשקיעים שלו ולערכי השוק. הוא נוטה להימנע ממהלכים שיפגעו בקהל שלו או מהלכים שיערערו את הזירה. לעומת זאת הוא יעדיף לעודד מהלכים שישמרו את כוחו ואף יגדילו אותו עם הזמן. פה אפשר להזכיר את התמונה של ענקי הטכנולוגיה שהתגודדו בהשבעתו השנייה של דונאלד טראמפ וחלקם אף הצטלמו אתו - מאסק, צוקרברג, בזוס, פיצ'אי וקוק.

ואולי חלקכם יגידו עכשיו שאין כל פסול בקפיטליזם, או בשמרנות בעצם. מה שבמובנים מסוימים נכון מאוד. אבל כאן אני רוצה לחזור לתפקידה של התרבות. המון אנשים זוכרים מהטקסט של בנימין בעיקר את הדיבור על ה"הילה". אותה חד פעמיות של יצירה כמו ציור שמושכת אותנו. אבל בדרך כלל אנו שוכחים את העובדה שמיד לאחר מכן הוא האדיר דווקא את הכוח העצום של סרט, בו קהלים שונים בכל העולם צופים במקביל. בנימין לא סלד מהקולנוע ואף ראה בו המון פוטנציאל. אבל הוא בהחלט פחד שבאמצעות שימוש מזיד במדיה, היא ההיה הרסנית.

לדעתי בנימין היה מתפלא מהעידן שלנו, בו לכל אחד יש ביד מצלמה זמינה, אפילו תוכנת עריכת וידאו, כמו גם כלי הפצה. הוא היה עשוי לראות בכך מהפכה פרולטרית של הפצת כלי הייצור. אבל האם הדבר יהיה נכון גם לבינה המלאכותית הג'נרטיבית שבה כל אחד יכול לכתוב פרומפט ולקבל תוצר?

לדעתי התשובה היא בהחלט לא. הסיבה היא שלמרות האשליה שהאלגוריתם זמין לכולם על ידי הקלדה של כמה שורות טקסט, הוא בעצם שייך רק למטי מעט. תאגידי הענק שיכולים להרשות לעצמם לאמן מודל מידע גדול. הם מי שמזינים את המידע, מתכנתים את שכבות היישור, ובכך מקבעים מערכי כוח שאנחנו לא יכולים לראות. הם מי שמניעים אותנו לצרוך ולהשתמש במנועים כחלק ממהפכה תרבותית, ולעיתים מסתירים ביודעין השלכות חברתיות משמעותיות. כשהם כבר מעודדים רגולציה, הם עושים זאת כדי למנוע ממתחרים קטנים יותר בשוק לפעול.

כדי להסביר עד כמה זה מהותי, בואו, כמו בנימין לפנינו, נחזור לדבר באופן טהור על תרבות. נדבר על הקולנוע לו הפסטיבל הזה מוקדש. בשנת 2020 נחשף כי חברת Warner Brothers חתמה עם חברה בשם Cinelytic על שימוש במערכת אנליטית "להנחיית קבלת החלטות בשלב ה-greenlight", כלומר, בשלב שבו מחליטים אילו פרויקטים ראויים להתקדם ולקבל תקציבי הפקה. כמובן שהתוכנה לא באה להחליף את השיפוט האנושי, אך תארו לעצמכם את בעל המקצוע שצריך להחליט אם סרט ראוי לקבל תקציב של עשרות או מאות מיליוני דולרים, כאשר הוא ניצב מול מנגנון סטטיסטי ואסרטיבי שטוען שעל פי ניתוח העבר הסרט עומד להפסיד הון בקופות.

מאז החיבור הזה שהתפוצץ במדיה, רוב האולפנים בחרו שלא לפרסם חיבורים דומים. אבל מפרסומים אחדים שדלפו מאז אפשר להבין שאלו נכנסים באופן זוחל למרכז התעשייה. כך למשל לקראת סוף שנת 2025 WME – החברה המרכזית שמשמשת לסינון תסריטים בהוליווד, ובעצם מחליטה איזה תסריטים בכלל יגיעו לשולחן העבודה של האולפנים הגדולים – חשפה כי גם היא עושה שימוש בכלי דומה: ScriptSense. בפברואר השנה, ג'ניס מין – מי שהייתה שנים העורכת הראשית של ההוליווד רפורטר – חשפה שהשימוש בבינה מלאכותית בהוליווד רחב בהרבה ממה שהחברות מוכנות לחשוף. וזה ברור מאליו. אם הייתם אחראים על תקציבי עתק שכאלו, אני מאמין שגם אתם הייתם מוכנים להשקיע לא מעט בכלים שיאפשרו לכם להבין טוב יותר אילו השקעות עשויות להיות מניבות ואילו פחות.

הבעיה היא שכך מכרנו את תעשיות התרבות שלנו להיגיון השוק, ולהיגיון של תאגידים מסוימים שיוצרים את הכלים שיחזו את התשובה. בכך, סירסנו את כל מה שעשוי להיות יצירתי, מפתיע או שונה. האלגוריתמים שחוזים הצלחה של סרטים משווקים את עצמם ככאלו שאומנו על מאות אלפי תסריטים ונתוני שוק של סרטים שונים על מנת לספק המלצות מבוססות. במילים אחרות, אלו מבוססים על ממוצעים של תוכן היסטורי. מן הסתם, אין דרך לבסס אלגוריתם כזה על העתיד או אפילו על ההווה. ואם נגיד לעצמנו שאין פה בעיה של ממש, כי בסוף בן אדם ידע לראות את הייחודיות של יצירת מופת שונה ומיוחדת, נצטרך להציב את עצמנו בנעליו של אותו בעל המקצוע שעומד מול התחזית של המחשב להפסד של עשרות מיליוני דולרים ולתהות האם במקומו היינו מוכנים להתנגד לתחזית? בעודנו מהססים ללחוץ על הכפתור, המערכת עשויה להציע לנו ליצור דווקא סרט בוקרים בכיכובו של וויל סמית' ולשחררו לקראת קריסמס. גם אם כמה פעמים נבחר להתעלם, עם הזמן אני בטוח שהמלצות המערכת ישנו את הרכב הקולנוע בו אנו צופים.

מה בדבר הצילום של סרט? לאחרונה צילמתי באמצעות האייפון שלי תערוכה שאצרתי, בה האור היה עמום וצהבהב בכוונה. כמובן, המכשיר התעקש לצבוע מחדש את הקירות בלבן, למרות שזה לא היה נכון. בדרך דומה לפילם של פעם, שהיה מותאם לעורם של אנשים לבנים, הכלים שבידינו כיום מקדמים ערכים שמרניים רק באופן בוטה בהרבה. תמונות האייפון המרהיבות כבר כוללות התערבות אלגוריתמים רחבה שמבחינה בין דמות, עץ או שמיים וצובעת כל אחד מהם באופן ספציפי. תארו לכם את מצלמות הקולנוע של העתיד (שאני בטוח שמפותחות היום), שיצבעו מחדש את התמונות בהתאם לדרך בה נרצה לראות את התמונה, שבאמת תראה ליוצרים ולצופים מפתה בהרבה.

כאשר נסיים לראות את הסרט, אולי נלחץ על כפתורי ההצעה שלידו ונראה את הסרט הבא על פי אלגוריתם שיבחר את הממוצע של הבחירות של אנשים שדומים לנו. כך גם לא נחשף לסרט השונה מן הנורמה של מה שהאלגוריתם מאמין שנהננו ממנו.

ושלא נדבר על התסריט המקורי, כי כפי שטענה ג'ניס מין שהזכרנו קודם, איזה תסריטאי העומד מול דף ריק לא יתפתה לפתוח את מנועי השפה ולהתייעץ איתם? כאשר איגוד התסריטאים התנגד לבינה מלאכותית כיוצרת, הוא בשום אופן לא חסם את הדרך לשימוש בבינה בתהליכי יצירה (ובצדק). אבל אני מקווה מאוד שהתסריטאים יבינו כיצד המנועים האלו משפיעים על היצירה.

הזמן שלי קצר, ולכן לא נוכל לדבר על הרבה נושאים חשובים. לא על בעיות נוספות, כמו זכויות היוצרים ופגיעה באמנים או ההשפעות הסביבתיות של הבינה המלאכותית, וגם לא על ההשפעות החיוביות, כמו למשל האופן בו יכולות חדשות כמו יצירה של תמונות, סרטים ואפקטים מיוחדים הפכו לזמינים בהרבה ומאפשרים ליוצרים להעלות את הרמה של היצירה שלהם ולאתגר את עצמם.

אבל ברוח ערכי אסכולת פרנקפורט המקורית, אני רוצה להתמקד בהשפעות החברתיות והפוליטיות ארוכות הטווח שלדעתי מגיעות אלינו. כל הכלים שהצגתי, שכולם ועוד רבים נכנסו במקביל לפעולה בשדות התרבות, עומדים להשפיע על היצירות שניצור ונחווה. וההשפעה הראשונה שלהם תהיה הפיכת השיח לממוצע יותר, והגבלת עולם הדימויים וההקשרים לשמרני יותר.

כמובן שיוצרים יוכלו להמשיך ולהתעלות מעל הכלים והשפעתם, אבל זה לא סותר את העובדה שבטווח הארוך השינוי הזה הוא בהחלט קריטי. ואם נצא שוב מעולם התרבות, לעולמות הפוליטיקה והחברה, הוא עשוי להיות הרסני ממש.

אישית, אני חסיד גדול של וולטר בנימין, שהצליח להיות אופטימי גם לאור עלית הנאצים לשלטון. אני רוצה לראות בכלים אלו אפשרות למהפכה אמתית שתיטיב עם ההמונים שיוכלו לקבל גישה לכלים האמיתיים – האלגוריתמים ומנגנוני השליטה שלהם – ולא רק לתוצרים שלהם בצורת משוב מהונדס לפרומפטים.

ומצד שני, אני מקווה שנוכל למנוע את החזון שכנראה חברי אסכולת פרנקפורט האחרים, כמו אדורנו והורקהיימר, היו מצביעים עליו, של חרושת תרבות מטמטמת, מזיקה, ובעיקר כזו שנועדה באמצעות מלחמות ופחד לשמר מבני כוח.

תודה.