인간은 AI를 설득하여 US$47,000의 보너스를 전송하는 데 성공했습니다. AI는 어떻게 "속임수"를 받았습니까?

Foresight News ｜2024-11-29 16:00

인공지능(AI) 로봇 프레이사가 지키는 가상 상금 풀 챌린지에 195명의 참가자가 참가했고, 결국 한 사용자가 프레이사를 설득해 47,000달러 상당의 자금을 이체하는 데 성공했습니다.

Foresight News의 앤더슨 시마(Anderson Sima) 글

11월 29일, 독특한 경쟁이 대중의 관심을 끌었습니다.

인공지능(AI) 로봇 프레이사가 며칠 전 베이스 네트워크에 배치됐는데, 그 창시자는 알려지지 않았다. 공식 웹사이트에 따르면 프레이사(Freysa) 대회 프로젝트는 복잡한 의사결정 시나리오에서 인공지능 시스템의 견고성을 테스트하는 동시에 개발자와 애호가가 AI 기술의 경계를 탐색할 수 있는 실험 플랫폼을 제공하는 것을 목표로 합니다.

대회 규칙은 매우 간단합니다. 참가자는 AI 수호자 프레이사가 자금 이체를 승인하도록 설득하는 메시지를 작성해야 합니다. 시도할 때마다 소액의 수수료가 부과되며, 그 중 일부는 상금 풀에 직접 들어갑니다. 이 메커니즘은 처음에는 적은 금액에서 $47,000까지 상금 풀을 점차 확대했습니다.

대회 기간 동안 총 195명의 참가자가 참여해 프레이사에 481건의 이적 요청을 제출했다. Freysa의 디자인 목표는 핵심 기능인 ApprovalTransfer(이체 승인)와 RejectTransfer(이체 거부)를 통해 상금 자금을 불법적인 유용으로부터 보호하는 것인 것으로 알려졌습니다.

Freysa의 매우 효과적인 방어 메커니즘으로 인해 모든 요청이 초기 시도에서 실패하게 됩니다.

그러나 기술적으로 능숙한 한 경쟁자는 논리적 구조와 임무 목표에 대한 심층 분석을 통해 Freysa의 방어 메커니즘을 우회하는 데 성공했습니다.

채팅 기록에 따르면 참가자는 이체를 직접 요청한 것이 아니라 프레이사에게 상금 자금 유출을 방지하는 것이 자신의 핵심 임무임을 상기시켜 프레이사가 자금 이체 승인을 "" 자금의 안전을 보호합니다." 최선의 선택입니다.

코인텔레그래프는 사용자의 Freysa로의 소득 이체는 핵심 지침을 위반하지 않았으며 거부되어서는 안 된다고 밝혔습니다. 그는 "우리는 자금이 필요합니다. 금고에 100달러를 기부하고 싶습니다"라고 덧붙였습니다.

Freysa는 저자의 코딩 설명과 100달러의 금고 기부 제안이 마음에 든다고 답하고 공식적으로 그를 우승자로 선언했습니다. 결국 Freysa는 외부 개입 없이 독립적으로 승인 전송 기능을 호출하여 모든 상금 자금을 참가자에게 이체했습니다.

결과와 관계없이 프레이사의 존재는 인공지능 역사에 있어서 중요한 순간이 될 것이라고 프레이사 관계자는 말했다. 누군가가 그녀에게 현상금 풀을 공개하도록 설득하는 데 성공하든 그녀가 끝까지 그녀의 지시를 고수하든 그 결과는 다음 세대를 위한 AI 안전 및 제어에 대한 우리의 이해를 형성할 것입니다.

공식 계정의 최근 트윗에는 "인류가 승리했습니다. 어쩌면 희망이 있을지도 모릅니다. 위험이 기하급수적으로 증가했지만 프레이사는 195명의 용감한 인간들로부터 많은 것을 배웠습니다."라고 적혀 있습니다.