מגזין

דוקטור גוגל - OUT, צ'אטבוט - IN

בעידן של מחסור ברופאים ועומס על מערכות הבריאות, הבינה המלאכותית היא כבר עובדה | במאמר שפורסם השבוע ב-NEJM בדקו החוקרים מהם היתרונות והחסרונות ומהם גבולות האינטליגנציה המלאכותית בתחום הרפואה ואף העמידו אותה למבחן

אם עד עכשיו היו פניות לרופאים שנפתחו ב"קראתי בגוגל", נראה שלאחרונה AI משאירה את גוגל הרחק מאחור ברמת הדיוק של התשובות. אילוסטרציה

מפתחי בינה מלאכותית נקראו בשבוע שעבר להשהות את המחקר לפיתוח בינה מלאכותית מתקדמת יותר מ-GPT-4 של OpenAI לתקופה של שישה חודשים לפחות. כזכור, GPT-4 שוחררה לציבור לפני כחודש. במכתב, שעליו חתומים יותר מאלף מומחים מתחומי ה-AI ומדעי המחשב ואיתם גם מנכ"ל טוויטר, אילון מאסק, קוראים המומחים להאיץ את הרגולציה שתבטיח פיקוח ובקרה, מימון למחקר בתחום בטיחות בינה מלאכותית ועוד.

מאסק, כזכור, היה ממייסדי OpenAI, שעומדת מאחורי הפיתוח של ChatGPT. "המירוץ הפרוע לפתח בינה מלאכותית לא מאפשר לצפות את התנהגותה או לשלוט בה באופן אמין", הם כותבים וקוראים לפתח ולהטמיע פרוטוקולים משותפים לעיצוב ופיתוח בינה מלאכותית בכפוף לביקורת חיצונית מחמירה.

יוזמי המכתב קוראים לחוקרי הבינה המלאכותית להבטיח שהיא תהיה מדויקת, בטוחה, שקופה, יציבה, אמינה ונאמנה. "מערכות AI עם בינה אנושית תחרותית יכולות להוות סיכון מהותי לחברה ולאנושות", הם מתריעים. וברקע, חברת מטא (פייסבוק) הודיעה בחודש שעבר על השקת מודל בינה מלאכותית משלה שנקרא LLaMA.

כדי להשתמש בצ'אטבוט, מזינים שאילתה - המכונה בדרך כלל "הנחיה", כמו בכל דו שיח. בתוך שנייה הצ'אטבוט משיב והפינג-פונג של שאלה ותשובה נמשך בשפה פשוטה כמו בכל דיאלוג בין בני אדם. היכולת של המערכת לעקוב אחרי ההקשר של שיחה מתמשכת, גורמת לצד השני לחוש כמו בשיחה רגילה מול אדם.

איך עובד GPT-4?

מאמר בנושא יתרונות, מגבלות וסיכונים של צ'אטבוט GPT-4 לרפואה, שהתפרסם בשבוע שעבר (ה', 30.3) ב-New England Journal of Medicine, דן בשימוש בבינה מלאכותית (AI) ברפואה, תוך התמקדות ספציפית בצ'אטבוט של AI רפואי. המאמר מסביר כיצד פועל צ'אטבוט וכיצד הוא יכול להיות שימושי בתחום הרפואי. המאמר דן גם בפיתוח של GPT-4, מערכת צ'אטבוט שפותחה על ידי OpenAI, והיישומים הפוטנציאליים שלה בתחום הבריאות, תיעוד רפואי, אבחון, מחקר וחינוך. המאמר מזכיר גם צ'אטבוטים אחרים של AI כמו LaMDA (של גוגל) ו- GPT-3.5 ליישומים רפואיים ומדגיש את החשיבות של הנדסה מהירה והצורך לאמת את הפלט של מערכות AI כמו צ'אטבוטים כדי למנוע שגיאות ולהבטיח דיוק.

קורסים לבינה מלאכותית ורפואה צצים בבתי ספר לרפואה ברחבי העולם וחוקרים ואנשי מקצוע רפואיים סבורים שלא ירחק היום שבו צ'אטבוטים של אינטליגנציה מלאכותית יוכלו לענות על פניות בתחום הבריאות

גם Scientific American עוסק ביתרונות ובסכנות שבשימוש ב-LLMs (מודל שפה גדול) של אינטליגנציה מלאכותית במערכת הבריאות ובפרט בשימוש בצ'אטבוטים של בינה מלאכותית (AI) לאבחון עצמי, לחיפוש תופעות לוואי של תרופות ובכלל. המאמר שהתפרסם ביום ו' (31.3), במגזין עוסק במודלי השפה הגדולים, דוגמת ChatGPT של OpenAI;י Bing AI של מיקרוסופט (שמבוסס על התוכנה של OpenAI) ו-Med-PaLM של גוגל, שאומנו לחזות את הסבירות לרצף נתון של מילים, בהתבסס על ההקשר של המילים שבאות לפניו.

"דוקטור, אבל שוחחתי עם בוט"

קורסים לבינה מלאכותית ורפואה צצים בבתי ספר לרפואה ברחבי העולם וחוקרים ואנשי מקצוע רפואיים סבורים שלא ירחק היום שבו צ'אטבוטים של אינטליגנציה מלאכותית יוכלו לענות על פניות בתחום הבריאות. חלק מהחוקרים צופים כי במהלך השנה, מרכז רפואי גדול יכריז על שיתוף פעולה באמצעות צ'אטבוט לאינטראקציה עם חולים ולאבחון מחלות.

אם עד עכשיו היו פניות לרופאים שנפתחו ב"קראתי בגוגל", נראה שלאחרונה AI משאירה את גוגל הרחק מאחור ברמת הדיוק של התשובות. עם זאת, לצד ספקות רבים ביחס לדיוק המידע שניתן על ידי צ'אטבוטים, ישנם גם סיכונים מתחום הגנה על פרטיות והטיות גזעיות ומגדריות המושרשות בטקסטים שהאלגוריתמים שואבים מהם את המידע.

אם גוגל נחשב למקור לא אמין, מאז השקת ה-ChatGPT בנובמבר האחרון, מטופלים רבים יותר מגיעים לרופא לאחר שחיפשו מידע רפואי בצ'אטבוטים של בינה מלאכותית. החיפוש שלהם עוסק בינתיים בעיקר באבחון תסמינים או חיפוש תופעות לוואי של תרופות.

הבוטים הללו עוברים על טקסטים מרחבי האינטרנט ועונים על שאלות בסגנון אנושי, ידידותי. מול מחסור קריטי בעובדי שירותי בריאות, חוקרים ואנשי מקצוע רפואיים מקווים שבוטים יוכלו לעזור במענה על שאלות של הציבור. בדיקות ראשוניות של חוקרים מצביעות על כך שתכניות הבינה המלאכותית הללו מדויקות הרבה יותר מחיפוש בגוגל.

חלק מהחוקרים צופים כי במהלך השנה, מרכז רפואי גדול יכריז על שיתוף פעולה באמצעות צ'אטבוטים של LLM לאינטראקציה עם חולים ולאבחון מחלות.

אולם, לצד ההתלהבות מהיכולות ישנן גם חששות רבים מהשימוש ב-AI ברפואה, כפי שרואים לדוגמה מהדאגות שהביעו מנסחי המכתב הקורא לעצירת הפיתוח לחצי שנה. מעל לכל, החשש הראשון הוא מידת הדיוק של המידע שמתקבל, וזאת למרות שמחקרים מראים שמידת הדיוק של ה-AI גבוהה עשרות מונים מזו של גוגל.

חששות נוספים הם מהאופן שבו המידע מפורש על ידי מי שמקבל אותו, פרטיות המידע שהפונים מוסרים לבוט והטיה גזעית ומגדרית המושרשת בטקסט שממנו שואבים האלגוריתמים - סיכונים שלא היו קיימים עם חיפושים פשוטים בגוגל או בבדיקת סימפטומים מקוונים.

אין גבול לשימושים

הנחיה לבצע משימה ספציפית, כגון "נא לקרוא ולסכם את מאמר המחקר הרפואי הזה", היא דרך נוספת שבה AI יכולה לסייע לאנשי מקצוע מתחום הרפואה, וההנחיות אינן מוגבלות לאנגלית בלבד, הן יכולות להיכתב בשפות רבות ויתרה מכך, הן יכולות להכיל קלט נתונים כגון גליונות אלקטרוניים, מפרטים טכניים, מאמרי מחקר ומשוואות מתמטיות.

מעבדות Microsoft Research ו-OpenAI בחנו את השימושים האפשריים של GPT-4 בשירותי בריאות וליישומים רפואיים בששת החודשים האחרונים. בין שאר השימושים נכללו גם תיעוד רפואי ובריאות, העברת נתונים, מחקר, חינוך וכמובן אבחון.

ChatGPT מאומן רק על מידע זמין לפני ספטמבר 2021. אחד הסיכונים הוא שמידע רפואי כוזב עלול להציף את האינטרנט בתוכן שנועד להיקלט על ידי המודלים בעתיד. אילוץ צ'אטבוטים לקשר למקורות שמהם הם שואבים את המידע, כפי שעושה מנוע Bing של מיקרוסופט, יכול לספק פתרון לבעיה

צ'אטבוטים שלא הוכשרו במיוחד לטיפול רפואי או ליישומים רפואיים יכולים גם הם להוות כלי רפואי כיוון שהם שואבים מידע ממקורות פתוחים באינטרנט, כמו טקסטים רפואיים גלויים וזמינים, מאמרי מחקר, אתרי אינטרנט של מערכת הבריאות ופודקאסטים וסרטוני מידע בנושא בריאות. כלומר, כל מידע שמוגבל בהגדרת פרטיות, כמו נתונים שנמצאים במערכת רישום רפואי בארגון בריאות או ברשתות פרטיות של בתי ספר לרפואה.

כותבי המאמר ב-NEJM מדגימים בשלוש דוגמאות מבוססות תרחישים של שימוש רפואי פוטנציאלי ב-GPT-4. הדוגמה הראשונה כללה משימה רפואית של רישום הערות; השנייה מציגה את הביצועים של GPT-4 בבעיה טיפוסית מבדיקת הרישוי הרפואי האמריקאי (USMLE) והשלישית מציגה שאלה טיפוסית שרופא עשוי לשאול עמית בעת בקשת ייעוץ.

בדוגמה הראשונה הם מראים את היכולת של GPT-4 לכתוב הערה רפואית על בסיס תמליל של מפגש עם רופא-מטופל. הם מציינים כי מעבר להערה, ניתן לבקש מ-GPT-4 לענות על שאלות על המפגש, לחלץ מידע על הרשאה מוקדמת, ליצור הזמנות מעבדה ומרשם, לכתוב סיכומים לאחר הביקור ולספק משוב קריטי, לרופא ולמטופל. הם מסכמים כי "למרות שזה שימושי מאוד, דבר לא היה מושלם. זו מערכת חכמה שבדומה לתבונה האנושית, היא עלולה לטעות".

עם זאת מצוין במאמר כי GPT-4 הוא כלי שימושי פוטנציאלי בכל הקשור לידע ברפואה, לא רק במסגרות קליניות אלא גם במחקר. המערכת יכולה לקרוא חומר מחקרי רפואי ולעסוק בדיון מושכל לגביו, לערוך סיכום קצר של התוכן, מתן ניתוח טכני, זיהוי עבודה קודמת רלוונטית, הערכת המסקנות ושאילת שאלות מחקר אפשריות.

אבחון עצמי ב-AI

עשינו מבחן ושאלנו את ChatGPT על מה יכול להעיד כאב במפרק היד, וזו התשובה שהתקבלה בשבריר שנייה:

"שלום! לכאב בשורש כף היד יכולות להיות מספר סיבות. זה יכול להיות בגלל פציעה, כגון נקע או מתיחה, שעלולים לגרום לכאב, נפיחות ונוקשות. זה יכול להיות גם בגלל תנועות חוזרות ונשנות, כמו הקלדה על מקלדת למשך תקופות ממושכות, שעלולות לגרום לדלקת של הגידים בפרק כף היד, מה שמוביל למצב הנקרא תסמונת התעלה הקרפלית.

"גורמים פוטנציאליים נוספים לכאב בשורש כף היד כוללים דלקת פרקים שעלולה לגרום לדלקת וכאבים במפרקים, ובעיות עצביות, כגון עצב צבוט, שעלול לגרום לכאב, חוסר תחושה ותחושות עקצוץ בפרק כף היד וביד. חשוב להתייעץ עם איש מקצוע רפואי אם אתה חווה כאב בשורש כף היד כדי לקבוע את הסיבה הבסיסית ולקבל טיפול מתאים".

במבחן-מחקר אחר שנערך לגירסת GPT-3 (של Open AI) ופורסם ב-medRxiv בפברואר האחרון, החוקרים כתבו 48 הנחיות, המנוסחות כתיאורים של תסמיני החולים והזינו אותם לבינה המלאכותית. הבוט הניב את האבחנה הנכונה ב-88% מהמקרים. לשם ההשוואה, רופאים אבחנו נכון על פי התסמינים ב-96% מהמקרים אך אנשים ללא הכשרה רפואית יכלו לעשות זאת רק ב-54% מהמקרים. תיאורי הסימפטומים במחקר נכתבו בקפידה לאבחנה נכונה אחת, אך, וזהו הסיכון הגדול, הדיוק יכול להיות נמוך יותר אם תיאורי המטופל ינוסחו בצורה לא מדוית או יחסירו מידע קריטי.

צ'אטבוטים גם קלים יותר לשימוש מבודקי סימפטומים מקוונים, כיוון שאנשים יכולים פשוט לתאר את החוויה שלהם במקום להכניס אותה לתכניות שמחשבות את הסבירות הסטטיסטית למחלה. בנוסף, הבוט יכול לשאול שאלות המשך למטופל, בדומה לרופא.

הסיכונים

המהירות שבה צ'אטבוטים של מודל שפה גדול יכולים להיכנס לרפואה מדאיגה את החוקרים, אפילו את אלה שמתלהבים מהפוטנציאל של הטכנולוגיה החדשה. האם אנשים יידעו לפרש נכון את המידע שהם מקבלים מהצ'אטבוט? האם הצ'אטבוטים ייתנו משקל רב יותר למקורות אמינים לעומת מקורות אקראיים אחרים, כשהם מנבאים את המילה הבאה ברצף בהתבסס על הסבירות שלה בטקסט מקוון? האם המענים שיתקבלו יעדיפו מידע מהמרכזים האמריקאיים לבקרת מחלות ומניעתן (CDC) לדוגמה, על פני זה שימצאו בטקסט אקראי בפייסבוק? שאלה זו מטרידה אף היא את החוקרים.

המענה הכמו-אנושי של ה-AI יגרום לאנשים לבטוח בה ולהפקיד מידע אישי מזהה שעלול לסכנם. על פי כתבי ויתור באתר של OpenAI, החברה אוספת מידע ממשתמשים, כגון מיקומם וכתובת ה-IP שלהם. הוספת הצהרות תמימות לכאורה על בני משפחה או תחביבים עלולה להוות סיכון לפרטיות של הפונה

OpenAI טוענים שהחברה "מאמנת" את המודל שלה על מערכי נתונים טובים כדי להבטיח שהוא עונה על הסוגים הנכונים של שאלות. בגלל הסיכון הזה, החברה מוסיפה כתב ויתור על פיו אין להשתמש ב-ChatGPT כדי לאבחן מצבים חמורים, לספק הנחיות כיצד לרפא מצב רפואי או לפעול בבעיות מסכנות חיים.

למרות ש-ChatGPT מאומן רק על מידע זמין לפני ספטמבר 2021, אחד הסיכונים הוא שמידע רפואי כוזב - על חיסונים למשל - עלול להציף את האינטרנט בתוכן שנועד להיקלט על ידי המודלים בעתיד. אילוץ צ'אטבוטים לקשר למקורות שמהם הם שואבים את המידע, כפי שעושה מנוע Bing של מיקרוסופט, יכול לספק פתרון לבעיה.

עם זאת, מחקרים רבים וחוויות משתמש הראו ש-LLMs יכולים להמציא מקורות שאינם קיימים ולעצב אותם כך שייראו כמו ציטוטים מהימנים. בדיקת מהימנות המקורות תטיל עומס גדול על המשתמש וחיפוש פתרונות אחרים, כולל שליטה של המפתחים במקורות, שנמצאת עדיין בפיתוח.

הצ'אטבוט של גוגל, Med-PaLM, שואב ממערך נתונים עצום של שאלות ותשובות אמיתיות של מטופלים וספקי שירותי בריאות, כמו גם בדיקות רישוי רפואי, המאוחסנות במאגרי מידע שונים. במחקר שמצוטט בסיינטיפיק אמריקן, בדקו חוקרים בגוגל את הביצועים של Med-PaLM על "צירים" שונים, כולל התאמה לקונצנזוס רפואי, שלמות וסיכון לנזק. הציונים של Med-PaLM תאמו את הקונצנזוס הרפואי והמדעי ב-92.6% מהמקרים, בהשוואה לתשובות רופאים אנושיים שהשיגו ציון כולל של 92.9%. החוקרים מציינים כי לתשובות צ'אטבוט היה סיכוי גבוה יותר לחוסר בתוכן יחסית לתשובות אנושיות, אך הסבירות שהתשובות של הצ'אטבוט יפגעו בבריאות הפיזית או הנפשית של הפונים היתה נמוכה.

היכולת של הצ'אטבוטים לענות על שאלות רפואיות לא הפתיעה את החוקרים. כפי שפורסם בדוקטורס אונלי, MedPaLM ו-ChatGPT עברו שניהם את בחינת הרישוי הרפואי בארה"ב. עם זאת, למדענים ברור שלמידה כיצד נראות שאלות ותשובות של רופא ומטופל מאפשרת ל-AI להסתכל על התמונה הרחבה של בריאותו של אדם, אולם ההקשר החברתי נעדר מלמידה כזו.

הנצחת הטיות מגדריות וגזעניות

אם הצ'אטבוט שואב מידע מכל מה שהתפרסם לפני נובמבר 2021, הוא עשוי לשאוב מידע שמנציח דעות קדומות והטיות מגדריות וגזעיות בתחום הרפואה. מרזייה גאסמי, מדענית מחשבים במכון הטכנולוגי של מסצ'וסטס, המצוטטת ב"סינטיפיק אמריקן", אומרת שישנן הטיות בחינוך הרפואי וסטריאוטיפים רפואיים במקורות שמהם ה-AI מפיקים מידע. למשל, לנשים יש סיכוי נמוך יותר מגברים שיירשמו להן תרופות נגד כאבים, ולשחורים יש סיכוי גבוה יותר מאשר ללבנים להיות מאובחנים עם סכיזופרניה ופחות סיכויים להיות מאובחנים עם דיכאון.

אחד הפתרונות המוצעים הוא להמשיך בגיוון במערך המפתחים, אנשי ההכשרה ומרכזי הבקרה של ה-AI של גוגל, כך שיוכלו לסייע לחברה לצמצם את ההטיות הללו בצ'אטבוט שלה.

לבטוח בבוט

האם מטופלים יבטחו בבוטים יותר מאשר ברופאים שלהם ועד כמה התארכות ההמתנה לתור תדחוף אנשים להשתמש במידע שהם מקבלים מה-AI? לשאלה זו התייחסנו בכתבה קודמת בדוקטורס אונלי.

אחד האתגרים העומד בפני הצ'אטבוטים למיניהם הוא תחושת האמון והביטחון של הפונים. כמה מהחוקרים מנבאים שהמענה הידידותי, הכמו-אנושי של ה-AI יגרום לאנשים לבטוח בהם ואפילו להפקיד בידיהם מידע אישי מזהה שעלול לסכן אותם. על פי כתבי ויתור באתר של OpenAI, החברה אוספת מידע ממשתמשים, כגון מיקומם וכתובת ה-IP שלהם. הוספת הצהרות תמימות לכאורה על בני משפחה או תחביבים עלולה להוות סיכון לפרטיות של הפונה.

במחקר שנערך לאחרונה ביקשו החוקרים לבדוק את היכולת להבחין בין ChatGPT לבין רופא. רק ב-65% מהזמן זיהו המתנדבים נכון הן את הרופא והן את הבוט

השאלה אם אנשים יסכימו לקבל מידע רפואי מצ'אטבוט במקום מרופא תלויה במידת הזמינות של מענה רפואי. אפליקציית בריאות הנפש Koko, המאפשרת למתנדבים לספק ייעוץ חינם וסודי, התנסתה בינואר האחרון בשימוש ב-GPT-3 כדי לכתוב הודעות מעודדות לכ-4,000 משתמשים. על פי ה"סיינטיפיק אמריקן", המייסד המשותף של קוקו, רוב מוריס, אמר כי הבוט עזר למתנדבים לכתוב את ההודעות הרבה יותר מהר מאשר אילו היו צריכים לחבר אותן בעצמם. אולם, ההודעות היו פחות יעילות ברגע שאנשים ידעו שהם מדברים עם בוט, והחברה סגרה את הניסוי במהירות. "אמפתיה מדומה מרגישה מוזר, ריק", אמר מוריס בציוץ.

סקר שנערך לאחרונה על ידי מרכז המחקר Pew מצא שכ-60% מהאמריקאים "ירגישו לא בנוח אם ספק שירותי הבריאות שלהם יסתמך על בינה מלאכותית כדי לאבחן מחלות ולהמליץ על טיפולים". עם זאת, האבחנה בין מענה של בוט לזו של אדם לא לחלוטין ברורה וסביר להניח שהעמימות הזו רק תגדל ככל שהטכנולוגיה תתקדם.

במחקר שנערך לאחרונה ביקשו החוקרים לבדוק אם 430 מתנדבים יכולים להבחין בין ChatGPT לבין רופא. החוקרים לא הורו ל-ChatGPT להיות אמפתי במיוחד או לדבר כמו רופא. הם פשוט ביקשו ממנו לענות על עשר שאלות שנקבעו מראש ממטופלים במספר מסוים של מילים. רק ב-65% מהזמן זיהו המתנדבים נכון הן את הרופא והן את הבוט. החוקרים משערים שאחד הפרמטרים שסייעו למשתתפים להבחין בין תשובת רופא לזו של ה-AI הוא התמציתיות של תשובת הרופא יחסית לתשובת הבוט, שכללה פרטים רבים. זו התוצאה כשזמנו של הרופא מוגבל ואילו לרשות הבוט עומדים כל הזמן והסבלנות הנדרשים.

החוקרים גילו בנוסף, שמשתמשים סומכים על הצ'אטבוט שיענה על שאלות פשוטות, אבל ככל שהשאלה מורכבת יותר וככל שהסיכון או המורכבות היו גבוהים יותר, כך הם היו פחות מוכנים לסמוך על אבחנת הצ'אטבוט.

"אנו צופים שצ'אטבוטים ישמשו אנשי מקצוע רפואיים, כמו גם חולים, בתדירות הולכת וגוברת", מסכמים כותבי המאמר ב-NEJM. "אולי הנקודה החשובה ביותר היא ש-GPT-4 אינו מטרה בפני עצמה. זוהי פתיחה של דלת לאפשרויות חדשות וגם לסיכונים חדשים. אנו משערים ש-GPT-4 יגרור בקרוב מערכות בינה מלאכותיות חזקות ובעלות יכולות גדולות יותר. מכונות אלו הן כלי עבודה, וכמו כל כלי עבודה, ניתן להשתמש בהן אך יש בהן פוטנציאל לגרום נזק. אם משתמשים בזהירות ובמידה מתאימה של זהירות, לכלים המתפתחים הללו יש פוטנציאל לעזור לספקי שירותי בריאות לתת את הטיפול הטוב ביותר האפשרי".

נושאים קשורים:  מגזין,  ChatGPT,  בינה מלאכותית,  מידע רפואי,  אבחון,  שירותי בריאות,  חדשות
תגובות
אנונימי/ת
05.04.2023, 14:05

מאמר מיותר. צריך לחכות עוד שנה ונהיה כבר במקום אחר לחלוטין

11.04.2023, 01:00

מאמר מצוין וחשוב, וכדאי שנחשוב כבר עכשיו איך נערכים לשנה הבאה ולגירסא הבאה של CHATGPT. כדאי גם לחשוב על מה אנחנו מציעים שהמחשב לא מציע - חום אנושי, אמפטיה כנה, דאגה, היכרות עם המטופל. בינתיים אין לזה תחליף נראה לעין