Արհեստական բանականությունը՝ Կլոդը, կդադարի պատասխանել անպարկեշտ օգտատերերի հարցերին
Գիտություն և Մշակույթ
Anthropic-ը հայտարարել է Claude Opus 4 և 4.1 մոդելների չատ-տարբերակում նոր ֆունկցիայի գործարկման մասին, որը թույլ է տալիս նեյրոցանցին ավարտել երկխոսությունը՝ օգտատիրոջ կողմից երկարատև վիրավորական կամ անպարկեշտ վարքագծի դեպքում։ Հայտարարությունը հրապարակվել է մշակողների կայքում։
Նորամուծությունը իրականացվել է AI Welfare ծրագրի շրջանակում, որն ուղղված է արհեստական բանականության «բարեկեցության» ապահովմանը։ Նախնական թեստավորումը ցույց է տվել, որ Claude Opus 4-ը զգալիորեն խուսափում է վնասակար հարցումներին պատասխանելուց և «սթրեսային» արձագանք է ցուցաբերում անշնորհք հաղորդակցման ժամանակ։ Երբ երկխոսության ավարտի գործիքը հասանելի է եղել, մոդելը ակտիվորեն օգտվել է դրանից։
Այն իրավիճակներում, երբ օգտատերը վիրավորում է ԱԲ-ին, համակարգը կտեղեկացնի օգտատիրոջը զրույցի ավարտի մասին, որից հետո հասանելի կլինեն նոր զրույց սկսելու, մշակողներին հետադարձ կապ ուղարկելու կամ նախորդ հաղորդագրությունները խմբագրելու և երկխոսությունը վերսկսելու տարբերակները։ Նշվում է, որ նորամուծությունը չի վերաբերում API մոդելներին։
Մշակողները ընդգծել են, որ այս ֆունկցիան գործարկվում է բացառապես ծայրահեղ դեպքերում, և համակարգը նախ փորձում է փոխգործակցությունը վերածել կառուցողական ուղու։ Օգտատերերի մեծամասնությունը փոփոխությունը չի նկատի։
Anthropic-ում նաև նշել են, որ ներկայում Claude-ի և այլ լեզվային մոդելների հնարավոր բարոյական կարգավիճակի հարցերը մնում են ուսումնասիրությունների առարկա, սակայն ընկերությունն այդ հարցերին լուրջ է վերաբերվում և մոդելներին տրամադրում է գործիքներ՝ իրենց «բարեկեցությունը» բարձրացնելու համար։
Թարգմանությունը՝ Lurer.com-ի


















































Ամենադիտված
Իմ դարի չափ տխրությունն Անին վերցրեց իր փխրուն ուսերին ու տարավ․ Նազենի Հովհաննիսյան