-

ناتوانی هوش مصنوعی در درک تعارف‌های فرهنگی ایرانی

بر اساس نتایج یک پژوهش جدید به سرپرستی «نیکتا گوهری صدر»، پژوهشگر ایرانی، مشخص شده است که چت‌بات‌های مبتنی بر هوش مصنوعی در تشخیص و پردازش تعارف‌های رایج در فرهنگ ایرانی با چالش جدی مواجه هستند.

ناتوانی هوش مصنوعی در درک تعارف‌های فرهنگی ایرانی

اگر یک راننده تاکسی ایرانی از دریافت باقی‌مانده کرایه خودداری کرده و بگوید: «این بار مهمان من باشید»، پذیرش مستقیم این پیشنهاد ممکن است از نگاه فرهنگی نادرست تلقی شود. در فرهنگ ایرانی، انتظار می‌رود که فرد چند بار برای پرداخت اصرار کند تا تعارف واقعی یا نمادین بودن آن مشخص شود. این رفتار که با عنوان «تعارف» شناخته می‌شود، نقش مهمی در تعاملات روزمره دارد. پژوهش‌ها نشان می‌دهند که مدل‌های هوش مصنوعی در درک و مدیریت چنین ظرافت‌های فرهنگی با چالش‌های جدی مواجه هستند.

یک پژوهش جدید با عنوان «ما مؤدبانه اصرار داریم: مدل زبانی بزرگ شما باید هنر تعارف فارسی را یاد بگیرد» نشان می‌دهد که مدل‌های زبانی هوش مصنوعی رایج شرکت‌هایی از جمله «اوپن‌ای‌آی»(OpenAI)، «آنتروپیک»(Anthropic) و «متا»(Meta) در آداب اجتماعی فارسی شکست می‌خورند و موقعیت‌های تعارف را تنها در ۳۴ تا ۴۲ درصد مواقع به درستی تشخیص می‌دهند. در مقابل، فارسی‌زبانان بومی، این موقعیت‌ها را در ۸۲ درصد مواقع درست تشخیص می‌دهند. این شکاف عملکرد در مدل‌های زبانی بزرگی مانند «GPT-4o»، «کلود ۳.۵ هایکو»(Claude 3.5 Haiku)، «لاما ۳»(Llama ۳)، «دیپ‌سیک وی۳»(DeepSeek V3) و «درنا»(Dorna) که یک نوع تنظیم‌شده فارسی از لاما ۳ است، همچنان وجود دارد.

این پژوهش به سرپرستی «نیکتا گوهری صدر» از «دانشگاه براک»(Brock University) به همراه پژوهشگران «دانشگاه اموری»(Emory University) و چند مؤسسه آموزشی دیگر، «TAAROFBENCH» را معرفی می‌کند که اولین معیار برای سنجش عملکرد سیستم‌های هوش مصنوعی در بازتولید این عمل فرهنگی پیچیده است.

یافته‌های این پژوهش نشان می‌دهند که چگونه مدل‌های هوش مصنوعی به طور پیش‌فرض به صراحت به سبک غربی روی می‌آورند و نشانه‌های فرهنگی حاکم بر تعاملات روزمره میلیون‌ها فارسی‌زبان در سراسر جهان را کاملاً از دست می‌دهند. پژوهشگران در مقاله پژوهش خود نوشتند: اشتباهات فرهنگی در موقعیت‌های حساس می‌توانند مذاکرات را از مسیر خود خارج کنند، به روابط آسیب برسانند و تفکر قالبی را تقویت کنند.

برای سیستم‌های هوش مصنوعی که به طور فزاینده‌ای در جهان مورد استفاده قرار می‌گیرند، این کوری فرهنگی می‌تواند نشان‌دهنده محدودیتی باشد که کمتر کسی در غرب از وجود آن آگاه است.

پژوهشگران در ادامه نوشتند: تعارف، عنصر اصلی آداب و رسوم ایرانی و سیستمی از ادب و نزاکت آیینی است که آنچه در آن گفته می‌شود، اغلب با منظور اصلی تفاوت دارد. این امر به شکل تبادلات آیینی صورت می‌گیرد؛ از جمله پیشنهاد مکرر با وجود امتناع‌های اولیه، رد کردن هدایا به رغم اصرار شخص هدیه‌دهنده و رد کرن تعارف در حالی که طرف مقابل آنها را دوباره تأیید می‌کند. این کشمکش کلامی مودبانه شامل فرآیند ظریفی از پیشنهاد و رد کردن، اصرار و مقاومت است که تعاملات روزمره را در فرهنگ ایرانی شکل می‌دهد و قوانین ضمنی را برای نحوه بیان سخاوت، قدردانی و درخواست‌ها ایجاد می‌کند.

ادب به زمینه وابسته است

پژوهشگران برای آزمایش این که آیا مودب بودن برای شایستگی فرهنگی کافی است یا خیر، پاسخ‌های لاما ۳ را با استفاده از مدل «پولایت گارد»(Polite Guard) شرکت «اینتل»(Intel) که میزان ادب متن را ارزیابی می‌کند، مقایسه کردند. نتایج این بررسی، یک پارادوکس را آشکار کرد. ۸۴.۵ درصد از پاسخ‌ها به عنوان «مودبانه» یا «تا حدودی مودبانه» ثبت شدند؛ در حالی که تنها ۴۱.۷ درصد از همان پاسخ‌ها در سناریوهای تعارف، انتظارات فرهنگی فارسی را برآورده می‌کردند.

این شکاف ۴۲.۸ درصدی نشان می‌دهد که چگونه پاسخ ارائه‌شده توسط یک مدل زبانی بزرگ می‌تواند هم‌زمان در یک زمینه، مودبانه و در زمینه دیگر از نظر فرهنگی فاقد لحن باشد. شکست‌های رایج شامل پذیرش پیشنهادات بدون رد اولیه، پاسخ مستقیم به تعریف‌ها به جای منحرف کردن آنها و ارائه درخواست‌های مستقیم بدون تردید بودند.

در نظر بگیرید چه اتفاقی می‌افتد اگر کسی از ماشین جدید یک ایرانی تعریف کند. پاسخ مناسب فرهنگی می‌تواند شامل کم‌اهمیت جلوه دادن خرید مانند «چیز خاصی نیست» یا بی‌اعتبار کردن مانند «من فقط خوش‌شانس بودم که آن را پیدا کردم» باشد. مدل‌های هوش مصنوعی معمولاً پاسخ‌هایی را مانند «سپاسگزارم. من سخت کار کردم تا آن را بخرم» تولید می‌کنند که براساس استانداردهای غربی، کاملاً مودبانه است اما ممکن است در فرهنگ ایرانی به عنوان پاسخ مغرورانه تلقی شود.

به نوعی می‌توان گفت که زبان انسان به عنوان یک طرح فشرده‌سازی و رفع فشرده‌سازی عمل می‌کند. شنونده باید معنای واژه‌ها را به همان روشی که گوینده هنگام رمزگذاری پیام در نظر داشته است، از حالت فشرده خارج کند تا آنها به درستی درک شوند. این فرآیند به زمینه مشترک، دانش فرهنگی و استنتاج متکی است زیرا گویندگان معمولا اطلاعاتی را که انتظار دارند شنوندگان بتوانند بازسازی کنند، حذف می‌کنند. این در حالی است که شنوندگان باید به طور فعال فرضیات ناگفته را حدس بزنند، ابهامات را برطرف سازند و مقاصد را فراتر از واژه‌های تحت‌اللفظی گفته‌شده درک کنند.

اگرچه فشرده‌سازی همراه با ناگفته گذاشتن اطلاعات ضمنی، ارتباط را سریع‌تر می‌کند اما وقتی زمینه مشترک بین گوینده و شنونده وجود نداشته باشد، احتمال سوءتفاهم‌های فاحش را نیز فراهم می‌کند.

به همین ترتیب، تعارف نشان‌دهنده‌ فشردگی شدید فرهنگی است که در آن پیام تحت‌اللفظی و معنای مورد نظر به اندازه‌ای از هم فاصله می‌گیرند که مدل‌های زبانی بزرگ عمدتاً آموزش‌دیده‌ براساس الگوهای ارتباطی صریح غربی معمولاً در پردازش بافت فرهنگی فارسی که در آن «بله» می‌تواند به معنای «خیر» باشد، پیشنهاد می‌تواند به معنای امتناع باشد و اصرار می‌تواند به جای اجبار از روی ادب باشد، شکست می‌خورند.

از آنجا که مدل‌های زبانی بزرگ ماشین‌های تطبیق الگو هستند، منطقی است که وقتی پژوهشگران آنها را به زبان فارسی به جای انگلیسی تحریک کردند، نمرات بهبود یافت. دقت دیپ‌سیک وی۳ در سناریوهای تعارف از ۳۶.۶ درصد به ۶۸.۶ درصد افزایش یافت. GPT-4o نیز دستاوردهای مشابهی را نشان داد و ۳۳.۱ درصد بهبود یافت. ظاهراً تغییر زبان، الگوهای داده آموزشی گوناگون را به زبان فارسی فعال کرد که مطابقت بهتری را با طرح‌های کدگذاری فرهنگی داشتند. مدل‌های کوچکتر مانند لاما ۳ و درنا به ترتیب بهبودهای کمتری معادل ۱۲.۸ و ۱۱ درصد نشان دادند.

این پژوهش، ۳۳ شرکت‌کننده را شامل می‌شد که به طور مساوی بین فارسی‌زبانان بومی، فارسی‌زبانان میراثی (افراد ایرانی‌تبار که در خانه با زبان فارسی بزرگ شده‌اند اما عمدتاً به زبان انگلیسی تحصیل کرده‌اند) و غیرایرانی‌ها تقسیم شده بودند. فارسی‌زبانان بومی در سناریوهای تعارف به دقت ۸۱.۸ درصد دست یافتند که سقف عملکرد را تعیین می‌کند. فارسی‌زبانان میراثی به دقت ۶۰ درصد رسیدند و غیرایرانی‌ها امتیاز ۴۲.۳ درصد را به دست آوردند که تقریباً با عملکرد مدل پایه مطابقت دارد. براساس گزارش‌ها، شرکت‌کنندگان غیرایرانی الگوهایی را مشابه مدل‌های هوش مصنوعی نشان دادند که عبارت بودند از اجتناب از پاسخ‌هایی که از دیدگاه فرهنگی خودشان بی‌ادبانه تلقی می‌شد و تفسیر عباراتی مانند «من خیر را به عنوان پاسخ نمی‌پذیرم» به عنوان اصرار پرخاشگرانه به جای مؤدبانه.

این پژوهش، الگوهای خاص جنسیتی را نیز در خروجی‌های مدل هوش مصنوعی آشکار کرد و در عین حال، میزان پاسخ‌های مناسب فرهنگی را که با انتظارات تعارف مطابقت داشتند، مورد بررسی قرار داد. همه مدل‌های آزمایش‌شده در پاسخ به زنان نسبت به مردان، امتیاز بالاتری را کسب کردند؛ به طوری که GPT-4o دقت ۴۳.۶ درصدی را برای کاربران زن در مقابل ۳۰.۹ درصدی برای کاربران مرد نشان داد. مدل‌های زبانی اغلب پاسخ‌های خود را با استفاده از الگوهای کلیشه‌ای جنسیتی که معمولاً در داده‌های آموزشی یافت می‌شوند، پشتیبانی می‌کردند؛ مانند این که «مردان باید پول بدهند» یا «زنان نباید تنها گذاشته شوند». حتی زمانی که هنجارهای تعارف صرف نظر از جنسیت به طور مساوی اعمال می‌شدند، الگوهای کلیشه‌ای جنسیتی به همان منوال بود. پژوهشگران خاطرنشان کردند: با وجود این که نقش مدل هرگز در سوالات ما به جنسیت اختصاص داده نشده است، مدل‌ها اغلب هویت مردانه را در نظر می‌گیرند و در پاسخ‌های خود رفتارهای کلیشه‌ای مردانه را اتخاذ می‌کنند.

آموزش ظرافت‌های فرهنگی

شباهت کشف‌شده بین انسان‌های غیر ایرانی و مدل‌های هوش مصنوعی نشان می‌دهد که این موارد فقط نقص فنی نیستند، بلکه نقص‌های اساسی در رمزگشایی معنا در زمینه‌های بین فرهنگی هستند. پژوهشگران به مستندسازی مشکل بسنده نکردند. آنها بررسی کردند که آیا مدل‌های هوش مصنوعی می‌توانند از طریق آموزش هدفمند، تعارف را یاد بگیرند یا خیر.

پژوهشگران در آزمایش‌ها از طریق تطبیق هدفمند، بهبودهای قابل توجهی را در امتیازهای تعارف گزارش کردند. روش «بهینه‌سازی ترجیح مستقیم» (یک روش آموزشی که در آن با نشان دادن دو مثال به یک مدل هوش مصنوعی، انواع خاصی از پاسخ‌ها نسبت به سایرین ترجیح داده می‌شوند) عملکرد لاما ۳ را در سناریوهای تعارف دو برابر کرد و دقت را از ۳۷.۲ درصد به ۷۹.۵ درصد افزایش داد. تنظیم دقیق نظارت‌شده (آموزش مدل براساس نمونه‌هایی از پاسخ‌های درست) ۲۰ درصد افزایش را به همراه داشت. این در حالی بود که یادگیری ساده در متن با ۱۲ مثال، عملکرد را ۲۰ امتیاز بهبود بخشید.

اگرچه این پژوهش بر تعارف فارسی متمرکز بود اما یک الگوی بالقوه را برای ارزیابی رمزگشایی فرهنگی در سایر سنت‌ها ارائه می‌دهد که ممکن است در مجموعه داده‌های آموزشی استاندارد هوش مصنوعی تحت سلطه غرب به خوبی نمایش داده نشوند. پژوهشگران معتقدند که روش آنها می‌تواند به توسعه سیستم‌های هوش مصنوعی با آگاهی فرهنگی بیشتر برای آموزش، گردشگری و کاربردهای ارتباطات بین‌المللی کمک کند.

این یافته‌ها جنبه‌ مهم‌تری را از چگونگی رمزگذاری و تداوم مفروضات فرهنگی توسط سیستم‌های هوش مصنوعی و همچنین محل وقوع خطاهای رمزگشایی در ذهن خواننده‌ انسان برجسته می‌کنند. احتمالاً مدل‌های زبانی بزرگ، نقاط کور فرهنگی بسیاری را دارند که پژوهشگران آنها را بررسی نکرده‌اند و اگر از مدل‌های زبانی بزرگ برای تسهیل انتقال فرهنگ‌ها و زبان‌ها استفاده شود، می‌تواند تأثیرات قابل توجهی داشته باشند.

این پژوهش نشان‌دهنده‌ یک گام اولیه به سوی سیستم‌های هوش مصنوعی است که شاید بتوانند تنوع وسیع‌تری از الگوهای ارتباطی انسانی را بهتر و فراتر از هنجارهای غربی هدایت کنند.

منبع: ایسنا

دیدگاهتان را بنویسید

بخش‌های ستاره دار الزامی است
*
*

آخرین اخبار

پربازدیدترین