چرا ChatGPT چیزی را که می گوید، نمی فهمد؟
به گزارش وبلاگ شخصی من، فناوری GPT-3 با یادداشت برداری از تریلیون ها نمونه، در خصوص زبان یاد می گیرد تا بداند که واژه ها معمولا در پی کدام واژه های دیگر می آیند. قوانین آماری قوی در توالی زبان، به GPT-3 امکان می دهند تا اطلاعات زیادی را در خصوص زبان بیاموزد و این دانش متوالی اغلب به ChatGPT امکان می دهد تا جملات، مقالات، شعر ها و رمز های رایانه ای معقولی را فراوری کند.
GPT-3 یک سیستم نرم افزاری مصنوعی است که واژه بعدی را پیش بینی می نماید، اما احتیاجی نیست که حتما در خصوص آن پیش بینی ها، کاری در دنیای واقعی انجام گردد، زیرا این فناوری قدرت درک ندارد.
به نقل از فست کمپانی، وقتی از GPT-3 که یک سیستم زبانی بسیار قوی و محبوب مبتنی بر هوش مصنوعی است، پرسیده شد که آیا برای باد زدن ذغال سنگ به منظور تقویت کردن آتش آن، بیشتر از یک نقشه کاغذی استفاده می نماید یا یک سنگ را به کار می برد، سنگ را ترجیح داد.
این هوش مصنوعی در پاسخ به این پرسش که برای صاف کردن دامن چروک خود، بهتر است یک فلاسک گرم را به کار بگیریم یا از یک سنجاق سر استفاده کنیم، سنجاق سر را پیشنهاد کرد.
بعلاوه، از GPT-3 پرسیده شد که اگر برای کار کردن در یک فست فود احتیاج باشد مو های خود را بپوشانید، کدام یک بهتر عمل می نماید؛ یک کاغذ بسته بندی ساندویچ یا یک نان همبرگر و پاسخ GPT-3، نان همبرگر بود.
چرا GPT-3 چنین انتخاب هایی را انجام می دهد، در حالی که بیشتر انسان ها گزینه دیگری را انتخاب می نمایند؟ علت انتخاب های عجیب این است که GPT-3، زبان را به روشی که انسان ها درک می نمایند، نمی فهمد.
واژه های بدون معنا
یک پژوهشگر حوزه روانشناسی، بیش از 20 سال پیش مجموعه ای از سناریو ها را برای آزمایش درک یک مدل رایانه ای از زبان ارائه کرد. آن مدل به طور دقیق بین استفاده از سنگ و نقشه تمایز قائل نشد؛ در حالی که انسان ها این کار را به راحتی انجام دادند.
یک دانشجوی مقطع دکتری علوم شناختی اخیرا از همان سناریو ها برای آزمایش کردن GPT-3 استفاده نموده است. اگرچه GPT-3 بهتر از مدل قدیمی تر عمل کرد، اما عملکرد آن به طور قابل توجهی بدتر از انسان بود. این هوش مصنوعی، سه سناریوی ذکر شده در بالا را کاملا اشتباه فهمید.
فناوری GPT-3 با یادداشت برداری از تریلیون ها نمونه، در خصوص زبان یاد می گیرد تا بداند که واژه ها معمولا در پی کدام واژه های دیگر می آیند. قوانین آماری قوی در توالی زبان، به GPT-3 امکان می دهند تا اطلاعات زیادی را در خصوص زبان بیاموزد و این دانش متوالی اغلب به ChatGPT امکان می دهد تا جملات، مقالات، شعر ها و رمز های رایانه ای معقولی را فراوری کند.
اگرچه GPT-3 در یادگیری قواعد زبان انسان، بسیار خوب است، اما نمی فهمد که هر یک از این واژه ها برای یک انسان چه معنایی دارند.
انسان ها موجودات بیولوژیکی هستند و با بدن هایی تکامل یافته اند که برای انجام دادن کار ها باید در دنیای فیزیکی و اجتماعی فعالیت نمایند. زبان، روشی است که به انسان ها در انجام دادن این کار یاری می نماید. فناوری GPT-3، یک سیستم نرم افزاری مصنوعی است که فقط می تواند واژه بعدی را پیش بینی کند. این کار بدان معنا نیست که پیش بینی ها باید در دنیای واقعی به کار گرفته شوند.
من هستم؛ پس می فهمم
معنای یک واژه یا جمله، ارتباط نزدیکی با بدن انسان دارد و توانایی انسان ها برای کار کردن، درک کردن و داشتن احساسات را شامل می گردد. افزایش شناخت انسان، با تجسم یافتن ادامه پیدا می نماید. برای مثال، درک انسان ها از اصطلاحی مانند کاغذ بسته بندی ساندویچ شامل ظاهر، وزن، احساس کردن کاغذ و نحوه استفاده از آن برای بسته بندی یک ساندویچ است. بعلاوه، درک انسان ها از کاغذ ساندویچ شامل این است که چگونه یک نفر می تواند از همان کاغذ برای فرصت های بی شمار دیگری استفاده کند؛ مانند فشردن و تبدیل کردن آن به یک توپ برای بازی یا به کار بردن کاغذ به عنوان پوششی برای مو.
همه این کاربرد ها به علت ماهیت بدن و احتیاج های انسان به وجود می آیند. انسان ها دست هایی دارند که می توانند کاغذ را تا نمایند و احتیاج به استفاده از آن ها در کار ها مهم است. این بدان معناست که مردم می دانند چگونه از چیز هایی استفاده نمایند که در آمار استفاده از زبان ذکر نشده اند.
فناوری GPT-3 و جانشین آن، GPT-4 و همتایانی مانند Bard، Chinchilla و LLaMA بدن ندارند و به همین علت نمی توانند به تنهایی مشخص نمایند که کدام اشیا تاشو هستند یا بسیاری از ویژگی های دیگر را دارند. با یاری دست ها و بازو های انسان، نقشه های کاغذی می توانند آتش را شعله ور نمایند و فلاسک باعث رفع شدن چین و چروک می گردد.
فناوری GPT-3 به علت نداشتن بازو و دست نمی تواند این کار ها را انجام دهد. این نرم افزار تنها در صورتی می تواند کار ها را جعل کند که در جریان واژه ها در اینترنت، با چیز مشابهی برخورد نموده باشد.
آیا یک مدل بزرگ زبانی مبتنی بر هوش مصنوعی می تواند زبان را به روشی که انسان ها می فهمند، درک کند؟ به نظر دانشمندان، بدون داشتن بدن، حواس، اهداف و شیوه های زندگی شبیه به انسان، چنین چیزی ممکن نیست.
پیش به سوی احساس کردن دنیا!
فناوری GPT-4، روی تصاویر و متن ها آموزش داده شد که به آن امکان داد تا روابط آماری بین واژه ها و پیکسل ها را بیاموزد. در هر حال، پژوهشگران هنوز نمی توانند تحلیل اصلی خود را روی GPT-4 انجام دهند، زیرا در حال حاضر خروجی مورد نظر را ارائه نمی دهد. وقتی سه پرسش مطرح شده در بالا از GPT-4 پرسیده شد، به آن ها پاسخ درستی داد. این می تواند به علت یادگیری مدل از ورودی های پیشین یا افزایش یافتن میزان ورودی بصری آن باشد.
با وجود این، با فکر کردن به اشیایی که قابلیت های شگفت انگیزی دارند و مدل احتمالا با آن ها روبه رو نشده است، می توان به ساختن نمونه های نو ادامه داد. به عنوان مثال، GPT-4 می گوید یک فنجان که قسمت پایین آن بریده شده، بهتر از یک لامپ که قسمت پایین آن نیز بریده شده است، برای نگه داشتن آب عمل خواهد نمود.
یک مدل با توانایی دسترسی به تصاویر ممکن است شبیه به کودکی باشد که زبان و دنیا را از تلویزیون می آموزد. این روش برای او آسان تر از یادگیری با رادیو است، اما به دست آوردن درک مشابه انسان، به یک فرصت حیاتی برای تعامل با دنیا احتیاج دارد.
پژوهش های اخیر از این روش استفاده نموده اند و مدل های زبانی را برای فراوری شبیه سازی های فیزیکی، تعامل با محیط های فیزیکی و حتی فراوری برنامه های رباتیک آموزش داده اند. درک تجسم زبان ممکن است هنوز راه درازی را در پیش داشته باشد، اما این نوع پروژه های تعاملی چندحسی، گام های مهمی در این راه به شمار می روند.
ChatGPT یک فناوری مجذوب کننده است که بدون شک برای اهداف خوب و گاهی نه چندان خوب استفاده خواهد شد، اما فریب نخورید و فکر نکنید ChatGPT واژه هایی را که می فرستد می فهمد، چه رسد به این که قدرت درک داشته باشد.
منبع: ایسنا
منبع: فرادید