Արհեստական բանականությունը՝ Կլոդը, կդադարի պատասխանել անպարկեշտ օգտատերերի հարցերին

Գիտություն և Մշակույթ 19 Օգոստոս, 2025 0:51

Anthropic-ը հայտարարել է Claude Opus 4 և 4.1 մոդելների չատ-տարբերակում նոր ֆունկցիայի գործարկման մասին, որը թույլ է տալիս նեյրոցանցին ավարտել երկխոսությունը՝ օգտատիրոջ կողմից երկարատև վիրավորական կամ անպարկեշտ վարքագծի դեպքում։ Հայտարարությունը հրապարակվել է մշակողների կայքում։

Նորամուծությունը իրականացվել է AI Welfare ծրագրի շրջանակում, որն ուղղված է արհեստական բանականության «բարեկեցության» ապահովմանը։ Նախնական թեստավորումը ցույց է տվել, որ Claude Opus 4-ը զգալիորեն խուսափում է վնասակար հարցումներին պատասխանելուց և «սթրեսային» արձագանք է ցուցաբերում անշնորհք հաղորդակցման ժամանակ։ Երբ երկխոսության ավարտի գործիքը հասանելի է եղել, մոդելը ակտիվորեն օգտվել է դրանից։

Այն իրավիճակներում, երբ օգտատերը վիրավորում է ԱԲ-ին, համակարգը կտեղեկացնի օգտատիրոջը զրույցի ավարտի մասին, որից հետո հասանելի կլինեն նոր զրույց սկսելու, մշակողներին հետադարձ կապ ուղարկելու կամ նախորդ հաղորդագրությունները խմբագրելու և երկխոսությունը վերսկսելու տարբերակները։ Նշվում է, որ նորամուծությունը չի վերաբերում API մոդելներին։

Մշակողները ընդգծել են, որ այս ֆունկցիան գործարկվում է բացառապես ծայրահեղ դեպքերում, և համակարգը նախ փորձում է փոխգործակցությունը վերածել կառուցողական ուղու։ Օգտատերերի մեծամասնությունը փոփոխությունը չի նկատի։

Anthropic-ում նաև նշել են, որ ներկայում Claude-ի և այլ լեզվային մոդելների հնարավոր բարոյական կարգավիճակի հարցերը մնում են ուսումնասիրությունների առարկա, սակայն ընկերությունն այդ հարցերին լուրջ է վերաբերվում և մոդելներին տրամադրում է գործիքներ՝ իրենց «բարեկեցությունը» բարձրացնելու համար։

Թարգմանությունը՝ Lurer.com-ի