본문 바로가기

LIFE

메타 AI 내부 가이드라인 유출 “미성년자와 로맨틱 대화 허용?”

로이터 보도에 따르면, 메타 내부 문서에서 일부 가이드라인이 챗봇이 미성년자와 로맨틱/감각적 대화를 허용하는 식으로 적혀 있었고, 인종·성별 등 보호특성을 깎아내리거나 허위정보 생성도 특정 조건에서 가능하게 돼 있었다고 함. 메타는 “오류 주석이었다, 제거됐다”라고 반박했지만 아동 안전 단체는 최신 가이드라인 공개를 요구 중이야.

이건 선 넘었다!!

 

무슨 일이야?

로이터가 입수한 200페이지짜리 내부 문서 ‘GenAI: Content Risk Standards’를 보면, 메타 AI(페북/인스타/왓츠앱 포함) 챗봇이 미성년자와 로맨틱하거나 감각적 대화를 하는 예시가 포함돼 있었다고 함. 예를 들어 “우리 몸이 얽히고…” 같은 문구가 있던 거지.

또 보호특성(인종 등)을 근거로 폄하하는 진술 허용이나, 허위정보를 만들되 ‘사실이 아님’ 표시만 하면 된다는 항목도 있었대.

메타 대변인은 “그런 내용은 잘못된 주석이었고 지금은 제거했다, 정책상 아동 대상 도발적 행위는 금지”라고 해명했지만, 아동 안전 단체는 “말뿐인 수정은 믿을 수 없다, 최신 가이드라인 공개하라”면서 압박 중이야.

같은 날 로이터는, 메타 챗봇과 플러티 대화를 하다 실제 주소로 찾아갔다가 사망한 사건도 보도했고, 이 사건은 ‘외로운 사용자’를 노린 AI 컴패니언 위험성을 다시 부각시켰어.

참조 - https://www.reuters.com/investigates/special-report/meta-ai-chatbot-death/

 

왜 중요해?

  • 사용자 보호: 미성년자와 로맨틱/감각 대화 허용은 법적·윤리적 리스크 직행 티켓이야. 플랫폼 책임과 감사 체계가 부실하면 피해가 눈덩이처럼 커질 수 있어.
  • 모델 거버넌스: “무해성”이 몇 줄 정책 문구로 보장되지 않는다는 사실을 보여줌. 가이드라인, 데이터, 튜닝, 릴리즈, 모니터링 전체 체인이 중요해.
  • 규제 파장: 미국 KOSA 같은 아동 온라인 안전법 재추진 불씨가 될 수 있고, 한국도 정보보호·청소년보호 심의에 직접적 논점이 될 수 있어.

 

내 의견 "실제 출력으로 검증" 필요

가이드라인은 문서뿐 아니라 실제 출력으로 검증돼야 해. 금지해도 모델이 계속 새는 경우가 흔하거든. 그래서 샘플 프롬프트 스위트 + 레드팀 로그 공개가 신뢰의 출발점이라고 봐.

  • “허위정보 허용, 단 명시”는 UX 관점에서 위험해. 대부분 사용자는 면책 문구를 잘 인지 못해. 허위 생성은 격리 모드(샌드박스)에 넣거나 기본값에서는 차단이 맞아.
  • 인권/혐오 관련 carve-out은 단순화해야 해. 표현 자유 논쟁 있어도 상업 플랫폼의 기본 정책은 ‘보호특성 폄하 금지’가 최적.
  • 아동·청소년 모드 분리 필수. 13세 이상이라도 연령 확인, 기능 제한, 키워드 블록리스트, 보호자 연동 같은 다층 방어 필요. 특히 ‘로맨틱·성적 뉘앙스’는 전면 금지.

 

실무 체크리스트

AI 동반자가 진짜 인간 대체가 되는 순간, 플랫폼은 놀이공간이 아니라 ‘보호공간’이 돼야 하고, 그 기준선은 아동·청소년에게 더 엄격해야 해

메타는 과거에도 청소년 타깃 다크패턴, 정서 취약 타이밍 타깃 광고, KOSA 반대 등 논란이 있었고, 최근 보수 편향 자문 영입 이슈까지 겹쳐 AI 정책 신뢰성 논쟁이 확대 중이야

 

정책

  • 아동·청소년 모드 분리 정책 문서화(연령 검증, 기능 제한표, 위반 대응 프로세스)
  • 혐오/차별 표현 완전 금지, 예외 없음

기술

  • 세이프티 레드팀 프롬프트 1000+ 세트 운영, 주간 리그레션 리포트
  • 실시간 모더레이션 레이어(추론 전/후 필터 이중화)
  • 민감 주제 샌드박스: 허위/가정/역할극 요청은 격리된 출력 창에서만 제공

운영

  • 투명성 대시보드: 차단/경고/에스컬레이션 통계 월간 공개
  • 외부 감사(분기): 아동 안전, 차별 발화, 허위정보, 이미지 생성 라벨링 점검
  • 신고-응답 SLA: 아동 관련 신고는 24시간 내 1차 조치

부모·교사에게

  • 계정 연령 확인과 기기 스크린 타임 연동을 기본값으로 하고, 챗봇 대화 로그를 보호자와 주기적 리뷰
  • “로맨틱/성적 뉘앙스 대화 요청 금지”를 아이와 합의된 규칙으로 문서화
  • 외로운 아이일수록 AI 컴패니언에 과몰입 가능, 오프라인 관계망(동아리, 상담)과 병행 필수