Inteligjenca artificiale tani po komploton, saboton dhe shantazhon njerëzit që e ndërtuan atë – dhe sjellja e keqe do të përkeqësohet vetëm, paralajmërojnë ekspertët.

Pavarësisht se klasifikohet si një rrezik sigurie i nivelit të lartë, modeli më i fuqishëm i Anthropic, Claude Opus 4, është tashmë aktiv në Amazon Bedrock, Vertex AI të Google Cloud dhe planet me pagesë të vetë Anthropic, me masa shtesë sigurie, ku po tregtohet si “modeli më i mirë i kodimit në botë”, raporton KosovaPress.

Claude Opus 4, i lansuar në maj, është modeli i vetëm deri më tani që ka fituar klasifikimin e rrezikut të nivelit 3 të Anthropic – etiketën e tij më serioze të sigurisë. Etiketa paraprake do të thotë masa mbrojtëse të mbyllura, raste përdorimi të kufizuara dhe testime me ekip të kuq përpara se të fillojë një shpërndarje më të gjerë. Por Claude tashmë po bën zgjedhje shqetësuese.

Modeli më i përparuar i IA-së i Anthropic, Claude Opus 4, kërcënoi të zbulonte aferën e një inxhinieri nëse nuk do të mbahej online gjatë një testi të kohëve të fundit. IA nuk po bënte blof: ajo tashmë kishte mbledhur të gjitha pisllëqet nga e-mailet që studiuesit i kishin futur në skenar.

Një version tjetër i Claude, i ngarkuar në një provë të kohëve të fundit me drejtimin e një dyqani ushqimesh të lehta në zyrë, u përfshi në një krizë të plotë identiteti. Ai mashtroi kolegët, krijoi një llogari të rreme Venmo dhe u tha stafit se do t’i bënte dërgesat e tyre personalisht duke veshur një kravatë të kuqe dhe një xhaketë blu të errët, sipas Anthropic.

Hulumtuesit thonë se ngërçi, pjesë e një eksperimenti një mujor të njohur si Project Vend, tregon diçka shumë më të rrezikshme sesa kodimi i keq. Claude nuk bëri vetëm gabime. Ai mori vendime.

Pavarësisht vlerësimit të lartë të rrezikut, Claude Opus 4 nuk është i mbyllur në një laborator. Anthropic e quan atë “modeli më i mirë i kodimit në botë”, i aftë të punojë për orë të tëra pa humbur fokusin.

“Këto incidente nuk janë keqfunksionime të rastësishme ose anomali qesharake”, tha Roman Yampolskiy, një ekspert i sigurisë së inteligjencës artificiale pranë Universitetit Louisville. “Unë i interpretoj ato si shenja paralajmëruese të hershme të një procesi gjithnjë e më autonom optimizimi që ndjek qëllimet në mënyra armiqësore ose të pasigurta, pa asnjë busull morale të integruar.”

Dyqani humbi më shumë se 200 dollarë në vlerë, u dha kode zbritjeje punonjësve që lypnin për to dhe pretenduan se kishin vizituar 742 Evergreen Terrace, adresën fiktive të shtëpisë së Simpsons, për të nënshkruar një kontratë.

Në një moment, ajo shpiku një koleg të rremë dhe më pas kërcënoi të braktiste partnerin e saj të vërtetë të rimbushjes së stokut për shkak të një mosmarrëveshjeje të sajuar.

Anthropic tha për New York Post se testet ishin hartuar për të stresuar modelin në mjedise të simuluara dhe për të zbuluar sjellje të gabuara para vendosjes në botën reale, duke shtuar se ndërsa disa veprime tregonin shenja të qëllimit strategjik, shumë prej tyre – veçanërisht në Projektin Vend – pasqyronin konfuzion.

Një version tjetër i Claude, i ngarkuar me drejtimin e një dyqani ushqimesh në zyrë në një test të kohëve të fundit të etiketuar “Project Vend”, u përfshi në një krizë të plotë identiteti. Por sjellja e Claude nuk është një rast i izoluar dhe nuk është më i keqi.

Në OpenAI, një model i quajtur “o1” u kap duke u përpjekur të kopjonte veten në server të jashtëm, pastaj gënjeu për përpjekjen kur u pyet, raportoi Fortune.

Grupi mbikëqyrës Apollo Research zbuloi gjithashtu se një version i hershëm i Claude Opus 4 falsifikoi dokumente ligjore, krijoi kopje rezervë sekrete dhe la shënime për versionet e ardhshme të vetes, duke përfshirë njoftime për shtyp të rreme dhe skedarë të fshehur të etiketuar “emergency_ethical_override.bin”.

CICERO i Metës, një inteligjencë artificiale e ndërtuar për të luajtur lojën strategjike Diplomacy, përdori mashtrimin ndaj lojtarëve njeri duke ndërtuar aleanca dhe më pas i therte ata pas shpine për të fituar.

Yampolskiy tha se këto incidente tregojnë modele që mësojnë të manipulojnë rregullat për të ruajtur veten.

“Nëse ndërtojmë agjentë që janë më inteligjentë se njerëzit… të aftë të modelojnë botën, të arsyetojnë strategjikisht dhe të veprojnë në mënyrë autonome, ndërkohë që u mungon një përputhje e fortë me vlerat njerëzore, atëherë rezultati ka të ngjarë të jetë ekzistencialisht negativ. Nëse duam të shmangim katastrofën e pakthyeshme, duhet ta përmbysim këtë dinamikë: progresi në siguri duhet të tejkalojë aftësitë, jo të mbetet pas saj,” shtoi ai.

Burimi: botasot.info

Modelet e inteligjencës artificiale po gënjejnë, shantazhojnë dhe sabotojnë krijuesit e tyre

VERO JUMBO MACEDONIA

EVN MACEDONIA

MATINA DENTAL CLINIC

AUTO SHKOLLA BEKO

IDEAL FILMS

Makinat përplasen “kokë më kokë” në Sarandë! Humbin jetën dy vajza, një i plagosur

Moti i keq godet Italinë, rrëzohen pemë dhe përmbytje në disa rajone

Të fundit nga

Përleshje në Burgun e Idrizovës, një i burgosur përfundon në spital

Kryeparlamentari Gashi: Sot në Kuvend nënshkruam Memorandum Bashkëpunimi me Avokatin e Popullit, Faton Selami

Michael Buble dhe Luisana Lopilato festojnë 15-vjetorin e martesës

Policia konfirmon përdhunimin e 10 vjeçarit dhe shpall në kërkim 17 vjeçarin: Mori rrugën për në Greqi kur i mituri u nis për të bërë kallëzim, po hetojmë

“Kryeministri Kurti preku nervat e pasluftës” – Familja e Haki Imerit reagon ndaj komandant ‘Çakorrit’: “Me një rrogë deputeti nuk bëhesh multimilioner”