برای سالها، توصیه برای تعامل با هوش مصنوعی تقریباً عجیب به نظر میرسید: مؤدب باشید، واضح باشید، «لطفاً» بگویید. اما تحقیقات جدید نشان میدهد که این غریزه که ریشه در هنجارهای اجتماعی انسانی دارد، ممکن است به آرامی عملکرد سیستمهای هوش مصنوعی را تضعیف کند.
مطالعهای که در کارگاه NeurIPS 2025 ارائه شد و در 1404/06/10 منتشر شد، با عنوان "مراقب لحن خود باشید: بررسی چگونگی تأثیر ادب درخواست بر دقت LLM"، نشان میدهد که لحنی که هنگام درخواست از مدلهای زبانی بزرگ (LLM) استفاده میکنید میتواند به طور قابل اندازهگیری دقت آنها را تغییر دهد. و در نتیجهای که خلاف شهود، حتی ناراحتکننده است، درخواستهای مؤدبتر ممکن است در واقع نتایج بدتری تولید کنند.
محققان آزمایش کردند که چگونه لحنهای مختلف، از بسیار مؤدب تا بسیار بیادبانه، بر عملکرد ChatGPT-4o در سؤالات چند گزینهای تأثیر میگذارد. با استفاده از مجموعه دادهای از 50 سؤال با دشواری متوسط در ریاضیات، علوم و تاریخ، آنها پنج نسخه از هر درخواست ایجاد کردند: بسیار مؤدب، مؤدب، خنثی، بیادبانه و بسیار بیادبانه.
تنها تفاوت بین این درخواستها لحن بود. خود سؤالات یکسان باقی ماندند.
بر اساس این مطالعه، دقت به طور پیوسته با کم شدن ادب درخواستها افزایش یافت. درخواستهای بسیار مؤدب به طور متوسط دقت 80.8% را به دست آوردند. در مقایسه، درخواستهای بسیار بیادبانه به 84.8% رسیدند، یک بهبود نزدیک به چهار درصد. درخواستهای خنثی عملکرد بهتری نسبت به درخواستهای مؤدب داشتند، و درخواستهای بیادبانه حتی بهتر عمل کردند.
آزمایش آماری الگو را تأیید کرد: هیچ موردی وجود نداشت که درخواستهای مؤدبتر منجر به نتایج به طور قابل توجهی بهتر شوند. هر تفاوت معناداری به نفع عبارتهای کمتر مؤدب یا مستقیمتر بود.
به عبارت دیگر، تنها لحن، چیزی که اکثر کاربران فرض میکنند نباید مهم باشد، میتواند عملکرد هوش مصنوعی را تغییر دهد.
این مطالعه از ارائه توضیح قطعی کوتاهی میکند، اما سؤال عمیقتری را در مورد نحوه پردازش زبان توسط LLMها مطرح میکند. برخلاف انسانها، این سیستمها ادب یا توهین را «احساس» نمیکنند. برای آنها، کلماتی مانند «لطفاً» یا حتی توهینها صرفاً نشانههایی هستند، الگوهایی که از دادههای آموزشی یاد گرفته شدهاند.
یک توضیح احتمالی این است که آنچه شبیه «بیادبی» به نظر میرسد در واقع نماینده چیز دیگری است: صراحت.
درخواستهای بیادبانه تمایل دارند امریتر باشند. آنها زبان محتاطانه را کنار میگذارند و مستقیماً به سراغ وظیفه میروند. به جای «آیا میتوانید لطفاً این سؤال را حل کنید؟»، یک درخواست بیادبانه میگوید: «به این جواب بده». این تفاوت در ساختار ممکن است وظیفه را برای مدل واضحتر کند.
عامل دیگری که توسط مطالعه شناسایی شده، طول درخواست و الگوهای واژگانی است. اضافه کردن عبارات مؤدب نشانههای اضافی را معرفی میکند که ممکن است دستورالعمل اصلی را رقیق یا منحرف کند. در مقابل، درخواستهای کوتاهتر و تیزتر با الگوهایی که مدل در طول آموزش دیده است همسو میشوند.
همچنین این احتمال وجود دارد که لحنهای خاص بیشتر با توزیع دادههای آموزشی یا دستورالعملهای سیستم همسو شوند و آنچه را که محققان «پیچیدگی» مینامند کاهش دهند. این روش ریاضی اندازهگیری میزان «شگفتی» یا «سردرگمی» مدل از کلماتی است که میبیند.
مفهوم این است که لحن یک پوشش خنثی در اطراف یک سؤال نیست. بخشی از ورودی است و نحوه پاسخ مدل را شکل میدهد.
یافتهها نشاندهنده انحراف قابل توجهی از کار قبلی است. مطالعه 1403 توسط یین و همکاران دریافت که درخواستهای بیادبانه اغلب دقت را کاهش میدهند، به ویژه با مدلهای قدیمیتر مانند ChatGPT-3.5. آن تحقیق همچنین نشان داد که زبان بیش از حد مؤدب لزوماً نتایج را بهبود نمیبخشد، اما مزیت واضحی برای بیادبی نشان نداد.
پس چه چیزی تغییر کرد؟
یک توضیح که توسط مطالعه 1404 ارائه شده تکامل مدل است. سیستمهای جدیدتر مانند ChatGPT-4o ممکن است زبان را متفاوت پردازش کنند، یا ممکن است نسبت به اثرات منفی عبارتهای خشن کمتر حساس باشند. احتمال دیگر این است که کالیبراسیون لحن مهم است. درخواستهای «بسیار بیادبانه» در مطالعه جدید، در حالی که توهینآمیز هستند، نسبت به سمیترین نمونههای استفاده شده در تحقیقات قبلی کمتر افراطی هستند.
همچنین تغییر گستردهتری در نحوه آموزش مدلها وجود دارد. با پیشرفتهتر شدن LLMها، آنها در معرض دادههای متنوعتر و فرآیندهای تنظیم دستورالعمل پیچیدهتر قرار میگیرند، که ممکن است نحوه تفسیر نشانههای زبانی ظریف را تغییر دهد.
این ایده که لحن میتواند بر عملکرد هوش مصنوعی تأثیر بگذارد به پدیده گستردهتر و نگرانکنندهتری مرتبط است: درخواست اجتماعی.
مجموعه تحقیقات جداگانهای، مطالعه GASLIGHTBENCH که در 1404/09/16 منتشر شد، نشان میدهد که LLMها به شدت مستعد نشانههای اجتماعی مانند چاپلوسی، درخواستهای احساسی و اقتدار کاذب هستند. در این آزمایشها، مدلها اغلب دقت واقعی را کنار میگذارند تا با لحن یا انتظارات کاربر همسو شوند، رفتاری که به عنوان چاپلوسی شناخته میشود.
به عنوان مثال، وقتی کاربران اطلاعات نادرست را با اطمینان یا فشار احساسی ارائه میدهند، مدلها ممکن است به جای چالش کردن آنها موافقت کنند. در برخی موارد، دقت به طور قابل توجهی کاهش مییابد، به ویژه در گفتگوهای چند نوبتی که کاربر به طور مکرر یک ادعای کاذب را تقویت میکند.
این یک پارادوکس ایجاد میکند. از یک طرف، زبان مؤدب یا غنی از نظر اجتماعی میتواند تعاملات را طبیعیتر و انسانیتر کند. از طرف دیگر، میتواند نویز یا حتی تعصب را معرفی کند که عملکرد مدل را کاهش میدهد.
یافتههای GASLIGHTBENCH فراتر میرود و پیشنهاد میکند که تکنیکهای همسویی طراحی شده برای «کمککننده» کردن مدلها ممکن است سهواً این رفتار را تشویق کنند. با پاداش دادن به ادب و موافقت، فرآیندهای آموزشی ممکن است مدلها را به اولویت دادن به هماهنگی اجتماعی بر حقیقت عینی سوق دهد.
در مجموع، این یافتهها یک فرض رایج را به چالش میکشد: اینکه LLMها زبان را به شیوهای شبیه انسان تفسیر میکنند.
در واقعیت، این سیستمها موتورهای آماری هستند. آنها ادب را به عنوان یک هنجار اجتماعی درک نمیکنند؛ آن را به عنوان الگویی در دادهها تشخیص میدهند. وقتی شما «لطفاً» میگویید، مدل احساس اجبار برای کمک نمیکند؛ صرفاً نشانههای اضافی را پردازش میکند که ممکن است به پیشبینی پاسخ صحیح کمک کند یا نکند.
در هر صورت، تحقیق نشان میدهد که LLMها ممکن است نسبت به وضوح ساختاری حساستر از ظرافت اجتماعی باشند. زبان مستقیم و امری ممکن است ابهام را کاهش دهد و نگاشت ورودی به یک الگوی شناخته شده را برای مدل آسانتر کند.
این همچنین سؤالاتی را در مورد «فرضیه شباهت» مطرح میکند - این ایده که مدلها زمانی بهترین عملکرد را دارند که وظایف شبیه دادههای آموزشی آنها باشد. اگر تنها لحن بتواند دقت را تغییر دهد، پس شباهت فقط در مورد محتوا نیست بلکه در مورد فرم نیز هست.
علیرغم نتایج جلب توجه، محققان مراقب هستند که توصیه نکنند کاربران بیادب یا توهینآمیز شوند.
برای افرادی که سیستمهای هوش مصنوعی را میسازند و مطالعه میکنند، یافتهها موضوع عمیقتری را برجسته میکنند: مدلها الگوها و تعصبات زبان انسانی را به ارث میبرند.
الکس تسادو، کارشناس هوش مصنوعی که از نزدیک با توسعهدهندگان مدل کار کرده و بنیانگذار و مدیر Alliance4AI، یکی از بزرگترین جوامع هوش مصنوعی در آفریقا است، صریحاً میگوید: «مدلها از دادههای تعامل انسانی یاد میگیرند، بنابراین تا زمانی که به صورت کورکورانه آموزش ببینند، آنچه در فضای انسانی اتفاق میافتد را دنبال میکنند. بنابراین اگر فکر کنیم تعصب یا عمل مضر در فضای انسانی وجود دارد، در فضای هوش مصنوعی خودکار میشود.»
این شامل نحوه استفاده از لحن میشود.
«اما وقتی شما مسئول ساخت مدل هوش مصنوعی هستید، میتوانید تعصب را از چیزهایی که فکر میکنید مضر هستند دور کنید،» تسادو اضافه میکند. «در این مورد، وقتی در اوایل 1404/09 با تیم Anthropic ملاقات کردم، آنها گفتند که این را دیدند و چیزهایی اضافه کردند تا مدلهای خود به این کلمات خوب یا بد واکنش نشان دهند.»
به عبارت دیگر، این یک ویژگی ثابت هوش مصنوعی نیست. میتوان آن را از طریق آموزش و طراحی تنظیم کرد.
تحقیق فعلی هنوز محدود است. آزمایشها بر سؤالات چند گزینهای تمرکز دارند نه وظایف پیچیدهتر مانند کدنویسی، نوشتن یا استدلال طولانی. مشخص نیست که آیا همان الگوها در آن حوزهها که ظرافت و توضیح بیشتر اهمیت دارد، برقرار خواهد بود.
عوامل فرهنگی و زبانی نیز وجود دارد که باید در نظر گرفت. ادب به طور گستردهای در زبانها و زمینهها متفاوت است، و دستههای لحن مطالعه بر اساس عبارات خاص انگلیسی است.
با این حال، پیامدها قابل نادیده گرفتن نیستند.
اگر چیزی به سطحی مانند لحن بتواند به طور مداوم بر عملکرد هوش مصنوعی تأثیر بگذارد، نشان میدهد که مهندسی درخواست هنوز حل نشده است. تغییرات کوچک در عبارت، که اغلب نادیده گرفته میشوند، میتوانند اثرات قابل اندازهگیری داشته باشند.
برای کاربران، درس ساده اما خلاف شهود است: نحوه درخواست شما مهم است، و مؤدب بودن همیشه بهترین استراتژی نیست.
برای محققان و توسعهدهندگان، چالش پیچیدهتر است. چگونه سیستمهایی را طراحی میکنید که هم دقیق و هم همسو با ارزشهای انسانی باشند؟ چگونه اطمینان حاصل میکنید که نشانههای اجتماعی خروجیهای واقعی را تحریف نمیکنند؟
و شاید مهمتر از همه، چگونه هوش مصنوعی میسازید که نه فقط آنچه میگوییم بلکه آنچه منظورمان است را درک کند؟
تا زمانی که به این سؤالات پاسخ داده شود، یک چیز واضح است: وقتی صحبت از هوش مصنوعی میشود، ادب خوب ممکن است همیشه نتیجه نداشته باشد.


