#WAM: 스팸 봇 식별 및 제거
게시 됨: 2021-08-02데이터의 갑작스러운 급증? 얼마나 흥미 진진한 . 아 잠깐만…
사자와 호랑이, 스팸 봇, 이런! 스팸봇은 디지털 마케터의 존재를 위협하며 삐걱거리는 깨끗한 데이터 전체에 거짓 긍정과 부정을 퍼뜨립니다.
그들은 웹 분석의 벼룩으로, 아무데서나 튀어나와 한입 베어물고는 안전한 카펫 속으로 사라집니다. 그러나 이 신비한 생물은 무엇입니까?
스팸봇이란?
Searchexchange 에서 정의한 스팸봇은 " 스팸 이라고도 하는 원치 않는 이메일을 보내기 위한 메일링 리스트를 만들기 위해 인터넷에서 이메일 주소를 수집하거나 수집하도록 설계된 프로그램입니다 . 스팸봇은 웹 사이트, 뉴스 그룹, SIG(특수 이익 단체) 게시물 및 채팅방 대화에서 이메일 주소를 수집할 수 있습니다.”
기본적으로 그들은 기생충입니다.
이러한 스팸봇이 국방부 등급 사이트 보안을 공격하여 민감한 데이터를 안전하게 보호할 수 있지만 여전히 웹 분석 데이터를 망칠 것입니다. 그럼 성가신 봇을 찾아서 제거하는 방법을 살펴보겠습니다.
1. 스파이크 식별
분석에서 날짜 범위를 확장하고 약간 벗어난 것처럼 보이는 것이 있는지 확인하십시오. 트래픽이 갑자기 급격히 증가하는 것을 발견하면 비정상적인 것일 수 있으므로 열정을 자제하십시오.
버그가 보입니다. 당신은? 시간 프레임을 확대하여 자세히 살펴보겠습니다.
오 예, 우리는 11월 27일에 매우 의심스러워 보이는 용의자가 있습니다. 날짜 범위에서 해당 날짜를 분리하고 어떻게 보이는지 살펴보겠습니다.
오후 6시에서 7시 사이에 수백 개의 세션 흥미로운…
2. 행동 인식
스팸봇은 일반적으로 점진적으로 배포되지 않고 일괄 배포됩니다. 이것이 그들의 치명적인 결점입니다. 11월 27일 오후 6시에서 7시 사이에 담배를 피우는 총이 있습니다. 그러나 이것은 유죄를 입증하기에 충분하지 않습니다. 동기를 설정하기 위해서는 스팸봇의 행동에 대해 조금 더 이해할 필요가 있습니다.
일반적으로 스팸봇은 다음과 같은 특성을 나타냅니다.
- 하나의 지리적 위치에서 발생합니다.
- 동일한 IP 주소에서 왔습니다.
- 한 번에 많은 세션을 만듭니다.
- 높은 이탈률.
- 현장에 있는 시간이 적습니다.
- 트래픽 소스는 일반적으로 직접 또는 추천입니다.
이러한 특성을 염두에 두고 의심되는 기간 동안 상위 수준 메트릭을 살펴보겠습니다.
스팸봇은 일반적으로 고유한 쿠키를 사용하여 한 번에 한 페이지만 검색하기 때문에 모든 인스턴스는 세션, 이탈 및 사이트 방문 시간 제로로 계산됩니다. 이 인스턴스에서 메트릭이 0:00 평균 세션 시간, 100% 이탈률 및 100% 신규 세션을 표시하지 않는 유일한 이유는 데이터 세트에 두 명의 실제 방문자가 혼합되었기 때문일 수 있습니다. 그럼에도 불구하고 이것은 매우 확실한 증거입니다.
3. 위치 격리
증거가 구축되고 있습니다. 계속 파봅시다. 다음으로 트래픽 위치를 살펴보고 이상이 없는지 살펴보겠습니다. 잠재고객 → 지역 → 위치로 이동합니다.
미국 위치에서 오는 비정상적인 참여 측정항목에 유의하십시오. United States 폴더를 자세히 살펴보고 눈에 띄는 것이 있는지 확인하십시오.
349명의 독특한 사람들이 추수감사절 주말 오후 7시에서 8시 사이에 우리 고객의 제품에 대한 갈망을 가질 것 같지 않습니다. 도시를 식별하여 더 깊이 들어가 보겠습니다.
Ashburn, 이 교활한 작은 벌레.
4. 출처 식별
우리는 이제 범죄의 위치를 확인했습니다: 버지니아 주 애쉬번. 이제 우리는 그들이 어떻게 사이트에 왔는지 알아야 합니다. 우리의 이론이 사실이라면 모든 트래픽은 직접 또는 추천이라는 하나의 특정 소스에서 발생해야 합니다. 획득 → 모든 트래픽 → 소스/매체로 이동합니다.
Ashburn 트래픽이 다이렉트로 오고 있습니다. 이 케이스는 이제 꽤 방수가 됩니다. 관에 마지막 못을 박기 위해 스팸 발송자가 자신의 봇을 배포하는 데 사용한 기술 플랫폼을 살펴보십시오. 대상 → 기술 → 네트워크로 이동합니다.
슬램덩크입니다. 스팸봇이 있습니다. 우리의 탐정 작업은 11월 27일 오후 7시에서 8시 사이에 버지니아주 애쉬번의 Hubspot 플랫폼에서 생성된 349개의 스팸봇 세션을 발견했습니다. 닫은.
이제 보고에서 이 잘못된 데이터를 생략하는 방법에 대한 질문이 남았습니다.
스팸봇 죽이기
불행히도 우리의 경우 피해가 이미 발생했습니다. Google Analytics에서 수집된 데이터를 덮어쓰거나 삭제할 수 없습니다. 우리가 할 수 있는 일은 보고에서 데이터를 생략하도록 고급 세그먼트를 설정하는 것입니다. 이 경우 스팸봇을 "죽이는" 것이 아니라 보고할 수 없도록 숨깁니다.
위에 설명된 특성 중 깨끗한 트래픽에서 가장 고유한 특성을 결정하려고 합니다. 트래픽을 생략할 때 부수적 피해를 최소화하기 위해 스팸봇으로 인한 트래픽 만 생략 하도록 합니다.
이 경우 Hubspot 서비스 공급자를 제거하고 싶지 않습니다. Hubspot은 스팸이 아닌 트래픽을 많이 유도하는 인기 있는 플랫폼이기 때문입니다. 기간을 6개월로 분산하여 버지니아주 애쉬번에서 얼마나 많은 트래픽이 발생하는지 확인하겠습니다. 아마도 우리는 단순히 이 도시의 교통체증을 없앨 수 있을 것입니다.
스팸봇을 제외하고 Ashburn에서 트래픽을 받는 경우는 매우 드뭅니다. 저는 Ashburn을 제거할 공통 요소로 사용하겠습니다. 화면 상단의 "세그먼트 추가"로 이동하여 "새 세그먼트"를 클릭합니다. 세그먼트 이름을 지정한 다음 '조건'을 클릭합니다.
필터 드롭다운을 클릭하여 "제외"로 한 다음 "시"를 선택하고 "Ashburn"을 입력합니다. 구하다.
이제 보고에서 스팸 트래픽이 생략됩니다. 기간을 살펴보고 이상이 제거되었는지 확인하십시오.
스팸봇, 사라졌습니다.
앞으로 문제가 다시 발생하지 않도록 하려면 관리자 패널에서 필터 설정을 탐색하여 스팸으로 확인된 특정 소스의 트래픽 을 완전히 제외 할 수 있습니다. 특정 IP 주소 또는 추천 소스의 트래픽을 필터링하는 옵션이 있습니다. 필터를 사용하면 스팸봇이 데이터에 등록되는 것을 방지할 수 있습니다. 위의 단계를 사용하여 스팸봇이 어디에서 오는지 정확히 알아야 합니다.
예를 들어 모든 스팸봇이 " www.spamcentral.com " 도메인에서 왔다는 것을 알았다면 관리자 패널 → 필터 → 새 필터 만들기로 이동합니다. 그런 다음 "제외" 및 "이 ISP 도메인의 트래픽"을 선택하고 " www.spamcentral.com ."을 입력 합니다. 이렇게 하면 GA가 이 도메인에서 오는 트래픽을 기록하지 못하게 됩니다.
Moz는 스팸 기생충이 침입하기 전에 데이터를 보호하는 방법을 훌륭하게 설명합니다.
죽은 봇
좋은 스팸봇은 생략되거나 필터링된 스팸봇입니다. 그들은 데이터를 파괴하고 모든 종류의 잘못된 지표를 보냅니다. 메트릭에서 이상(양호 또는 불량)을 식별하고 위의 단계에 따라 데이터에서 원인을 제거하기 위해 범인의 소스를 추적하십시오.
깨끗한 데이터를 얻으시기 바랍니다. 다음 주 월요일에 Web Analytics의 또 다른 버전으로 뵙겠습니다.