¿Cómo filtrar el tráfico no deseado en Analytics?

SPOILER ALERT!

¿Cómo filtrar el tráfico no deseado en Analytics?

10:33 pm 31 May 2020

¿Por qué es importante filtrar el tráfico no deseado o tráfico basura (visitas SPAM)?

Dicen que una imagen vale más que mil palabras, así que empezaré este artículo con la próxima imagen a fin de que comprendáis la importancia y el impacto que el tráfico no deseado puede tener en nuestras estrategias:

Esta gráfica corresponde a un sitio web real que, en unos pocos días, casi triplicó el número de visitas a páginas.

La primera sensación ante semejante comportamiento es una mezcla de sorpresa y alegría, mientras una pregunta revolotea sobre nuestra cabeza:
“¿qué ha pasado?”

Si ves una gráfica así en tu sitio web, seguro que examinas tu registro de actividades y acciones de tu estrategia de difusión, promoción o posicionamiento del sitio web, para hallar una explicación a ese crecimiento.

Y, casi siempre, encontrarás algo que coincida en el tiempo con este cambio y que, legítimamente, lo justificaría, como la publicación de un artículo en el que te esmeraste en especial, una revisión en la, un cambio en la estrategia Social Media o el inicio de una nueva campaña, por poner ciertos ejemplos más que posibles.

Si te prosigues llevando por la euforia, estimas que has atinado absolutamente en el cambio o bien ampliación de tu estrategia y, claro, continúas con ella...

Hasta que varias semanas después observas que esta explosión de visitas no viene pareja con el aumento de otras métricas mucho más relevantes y, al final, las que verdaderamente importan: por poner un ejemplo, que las conversiones mantienen un mismo nivel.

Ahora cambian las sensaciones.

De la alegría pasamos a la zozobra, de la alegría a la desazón, mientras nos hacemos esta pregunta:
“¿qué está pasando?”.

Y consideramos que puede ser uno que las palabras clave no están optimizadas para la conversión...

Pero, ¿y si todo el inconveniente hubiese estado en esa primera gráfica?

Veamos ahora la siguiente gráfica, del mismo sitio web, en exactamente las mismas datas y exactamente la misma métrica:

En este informe vemos la comparación entre 2 gráficas: la gráfica azul corresponde con la primera que vimos, al paso que la gráfica naranja representa exactamente la misma métrica mas filtrando el tráfico basura.

Como veis, apenas hubo un cambio significativo en su comportamiento y todas las decisiones que hubiéramos tomado desde la primera gráfica habrían estado condenadas al fracaso, puesto que partían de supuestos falsos.

El tráfico no deseado provee información falsa a la analítica web que nos hará tomar resoluciones estratégicas equivocadas.

¿Podemos advertir y evitar el tráfico no deseado?

Visto el enorme impacto que el tráfico basura y el Ghost Spam en particular, pueden tener en nuestras estrategias, lo primero que nos proponemos es si podemos advertir y suprimir este tráfico basura y si existe algún método para evitarlo.

En los dos casos, la contestación es positiva.

Solo así habría sido posible obtener la gráfica comparativa en el apartado precedente.

Ahora bien, ¿cómo lograrlo?

Nuestro inconveniente de interpretación del número de visitas se generó pues nos habíamos limitado a los resultados globales en esta métrica, sin entrar a examinar más de manera profunda el origen preciso de su radical aumento.

En otras palabras, ¿qué provocó esa subida?

Pero si consultamos las tablas con datos más detallados en Analytics, habríamos observado
dos entradascon información algo desconcertante a primera vista:

Son múltiples los datos de esta tabla que llaman la atención:

Nunca ya antes había habido visitas desde la dirección lifehacker.com, donde, además, la “k” no es una “k” real, sino un carácter con esa apariencia.
Tampoco habíamos tenido visitas anteriormente desde la dirección reddit.com.
Ambos muestran porcentajes de rebote cercanos al 0 por ciento visitando 2 páginas, prácticamente en números redondos por sesión. ¿Tanto interés despertaba, de repente, el sitio?
El porcentaje de nuevas sesiones rondaba el 90 por cien . No es que sea demasiado atípico, pero tampoco es un valor habitual para el sitio web (que ronda entre el sesenta-70 por cien ).

Veamos ahora cuáles serían esos datos si desechamos (filtramos) las visitas pertinentes a estas direcciones:

¡Increíble! De cuatrocientos ochenta y nueve visitas entre ambos, hemos pasado a 0 visitas.

Además, si estudiamos un poco por Internet, encontramos que hayque procede de la dirección lifehacker.com y reddit.com.

Hemos dado pues, con el origen de nuestros males y, desde este momento, podemos configurar nuestro servidor o Analytics a fin de que los datos relacionados con ese spamming sean filtrados, tanto de los informes de resultados globales como de las propias tablas de datos.

Esta situación que he descrito no es tan inusual como puede parecer.

La mayoría de los webmasters, en especial los dueños de sitios pequeños e incluso medianos, están centrados en el desarrollo de su modelo de negocio, no tienen por qué ser especialistas en analítica web ni acostumbran a tener el tiempo suficiente.

Por tanto, su analítica web vira esencialmente en torno a los resultados y comportamientos globales, sin ser conscientes de lo que se “cuece” por debajo, de lo que puede llegar a representar o a afectar a su negocio, ni cómo solventar cualquier anomalía o bien aberración en el análisis.

Los webmasters deberían comprobar periódicamente las visitas de su página web y saber cómo identificar cuáles pueden corresponder a spammers.

La mayoría de las veces, copian soluciones para filtrar el tráfico basura publicado en blogs o sitios especializados, con la esperanza de que resuelvan el problema y con determinada resignación de que no pueden hacer mucho más.

Sin embargo, muchas veces estas soluciones solo mitigan parte del inconveniente, pues no se adaptan a las visitas concretas de su sitio, es decir, que tenga filtros para visitas spam que el sitio no está recibiendo pero, en cambio, no tengan filtros para las que sí está recibiendo.

Por este motivo, los administradores web deberían efectuar tareas básicas de análisis de las visitas que están teniendo, para ser capaces de identificar cuáles pueden corresponder a potenciales fuentes de spam y crear ellos mismos los filtros para que no contaminen el análisis de los resultados globales.

Posibles fuentes de tráfico no deseado

Habréis observado que hasta he usado un tanto de forma indistinta tráfico no deseado, tráfico basura y Ghost Spam, mas ¿es lo mismo?

En realidad, se podría decir que todo Ghost Spam es tráfico basura mas, no todo el tráfico basura es Ghost Spam porque hay otros géneros de tráfico no deseado que pueden trastocar el análisis de los informes de Google Analytics:

Nuestras propias visitas al sitio web

Nuestras propias visitas al lugar web

No es tráfico basura como tal, mas sí que son visitas que Analytics contabiliza y, si suponen un porcentaje significativo del total, pueden distorsionar los informes de análisis.

O sencillamente Crawler Spam.

Visitan y, normalmente, recorren todo el sitio con algún propósito, ya sea bueno (buscadores) o bien malo (hackers).

El más peligroso de los tres porque, de ahí su nombre (“fantasma”), realmente no visitan al sitio, sino que se hacen con él (en cierta manera).

Veamos ahora cada uno con más detalle...

► Provenientes de nuestras propias visitas

Este tráfico no deseado no se puede estimar “spam” en el estricto sentido de la palabra, pero debemos evaluarlo para valorar su posible impacto en la tendencia general de las visitas totales de nuestro sitio web.

Para sitios webs grandes y decenas y decenas de miles de visitas cada día en el cómputo general, el impacto de nuestras visitas al sitio o, por extensión, del equipo desarrollador del sitio, suele ser bastante pequeño y puede ignorarse por su escaso impacto.

En sitios webs más pequeños, con unos pocos cientos o miles y miles de visitas, puede darse la situación de que nuestras visitas supongan un porcentaje significativo del total.

Si nuestras visitas se mantuvieran más o menos constantes a lo largo del tiempo, quizás no resultaría demasiado problemático, puesto que no afectarían a la tendencia general de las visitas totales.

Sin embargo, lo habitual es que visitemos nuestro sitio web con una mayor frecuencia cuando acabamos de lanzar una novedad, estamos revisando nuevas funcionalidades o ¡cómo no! las primeras semanas después de haberlo lanzado pues, ¿quién puede resistirse a ver cómo está creciendo su nueva criatura?

Esto quiere decir que a lo largo de esos días o bien semanas nuestras visitas tendrán un impacto más significativo en nuestras estadísticas y pueden alterar la tendencia de las visitas totales.

Así, a medida que visitamos menos nuestro sitio web, también descenderán las visitas totales, lo cual nos puede llegar a hacer pensar que estamos haciendo algo mal con nuestras estrategias.

Nuestras propias visitas a nuestro sitio pueden afectar a la interpretación y análisis de los datos de visitas de Google Analytics.

Para que os hagáis una idea del impacto que las visitas propias pueden tener, la siguiente gráfica muestra la comparación de las visitas totales, sin filtrar, que un sitio recibía a lo largo de sus primeras semanas, a fines de dos mil quince, con respecto a las visitas descontando las realizadas por el propietario del sitio web:

Como podéis ver, en ciertos instantes las visitas propias pueden suponer la práctica totalidad de las visitas del sitio web.

Hay diferentes métodos para filtrar laspero, a menos que tengamos una configuración de navegador muy específica o bien una dirección IP fija, solo tienen efecto desde que son creados o bien activados.

Aunque ciertos de estos métodos no son triviales, existen(plugins) libres para los navegadores más extendidos, que hacen este filtrado a la perfección.

Por tanto, mi recomendación es que, si no filtráis vuestras propias visitas, lo hagáis lo antes posible, sobre todo, si no tenéis un volumen muy alto de visitas totales.

► Provenientes de Crawler (Referral) Spam

En su faceta positiva, los
Crawlers o rastreadores, son las aplicaciones informáticas que los motores de búsqueda emplean para visitar todas las páginas de un sitio y parsearlas (“leerlas”) con la intención de indexarlas y posicionarlas cuando los usuarios hagan búsquedas relacionadas con esas páginas.

Estos rastreadores suelen respetar una serie de reglas de “buena urbanidad”, en el sentido de que no hacen más visitas que las realmente necesarias, para no saturar al servidor web ni realizar muchas visitas en un margen de tiempo demasiado pequeño.

Además, estos rastreadores, como prueba de su buena educación, respetan lo que les afirmemos en el fichero robots.txt, que puede controlar y limitar qué páginas visitan y cuáles no.

En general, no deberíamos preocuparnos demasiado por estos rastreadores, merced a sus buenas prácticas, pero como pueden ser muchos rastreadores diferentes los que pueden visitarnos, el efecto amontonado de todas sus visitas sí que puede ser significativo.

Afortunadamente, Analytics proporciona un mecanismo para filtrar estas visitas, a través de los próximos pasos:

Seleccionar la pestaña de
“Administrador”en el menú superior de Analytics.
Seleccionar la
cuenta,
propiedady
vista del sitio webdonde queráis filtrar las visitas de los rastreadores.
Seleccionar la opción
“Ver configuración”bajo la columna de la vista elegida.
Marcar la opción
“Excluir todos y cada uno de los hits de robots y de arañas conocido”y pulsar el botón
“Guardar”.

Sin embargo, no todos y cada uno de los rastreadores son tan “benévolos”, sino que también tienen su Lado Obscuro.

Hay multitud de rastreadores que pululan por Internet con malas pretensiones y que, claro, no van a ser tan “considerados” para respetar las reglas de “buena urbanidad” o bien del archivo robots.txt.

Los Crawler Referral Spam realizan visitas reales a los sitios y no respetan las instrucciones del archivo robots.txt del servidor.

Por ejemplo, por mencionar algunas de sus malas acciones, pueden rastrear páginas y sitios para hallar vulnerabilidades de seguridad y hackearlos o bien parsear el contenido para buscar direcciones de correo electrónico, números de teléfono o bien otros datos de contacto para campañas de marketing desmesuradas.

► Provenientes de Ghost Spam

Los dos géneros de Spam que hemos visto previamente tienen una característica común: producen visitas “reales” en el sitio web.

Pueden parecer una futileza mas esta propiedad hace que tengamos más opciones alternativas para tratar contra ellos, como vamos a ver más adelante.

Sin embargo,
los Ghost Spam no visitan verdaderamente el sitio web, sino interactúan de forma directa sobre los servidores de Google Analytics, haciéndoles creer que nuestro sitio ha recibido una visita.

Comprendamos mejor cómo marchan los Ghost Spam y cómo engañan a los servidores haciendo un breve recorrido de la mecánica del seguimiento y registro de visitas que hace Analytics.

Una visita “verdadera” a un sitio web, que tiene el código de seguimiento de Analytics en la cabecera de sus páginas, se registra en los servidores de Google mediante los siguientes pasos:

La visita accede a una página web.
El navegador carga y ejecuta el código de seguimiento de Google Analytics.
Google Analytics y el servidor web de esa página intercambian información relativa a esa visita.

En cambio, una visita “fantasma” se salta los 2 primeros pasos y se hace pasar por el servidor web para ese intercambio de información, utilizando el identificador “UA-XXXXXXXX-X” que todos los códigos de seguimiento incluyen (único para cada sitio):

(function(i,s,o,g,r,a,m)i['GoogleAnalyticsObject']=r;i[r]=i[r]function() (i[r].q=i[r].q[]).push(arguments),i[r].l=1*new Date();a=s.createElement(o), m=s.getElementsByTagName(o)[0];a.async=1;a.src=g;m.parentNode.insertBefore(a,m) )(window,document,'script','//-analytics.com/analytics.js','ga'); ga('create', 'UA-XXXXXXXX-X', 'auto'); ga('send', 'pageview');

Quizás os preguntéis cómo Google puede dejarse “engañar” así, pero la culpa no es de Google, sino que podríamos decir que se debe a un “imperativo técnico”.

Para que el código de seguimiento sea ejecutado por el navegador del usuario visitante, debe estar visible y en abierto, lo que significa que, por servirnos de un ejemplo, cualquier rastreador puede parsear la página y extraer el código Analytics correspondiente a un sitio web.

Por otro lado, tampoco es necesario que el Ghost Spammer rastree nuestras páginas para leer su código Analytics.

Puede simplemente generar de forma aleatoria un identificador UA que, por casualidad, coincida con el nuestro y ejecutar un script afín al nuestro.

En realidad, todo el proceso es algo más complicado que esta explicación tan resumida, pero nos sirve para hacernos una idea bastante aproximada del funcionamiento de los Ghost Spam.

Como el Ghost Spam no visita los sitios web, solo podemos contrarrestarlos desde Analytics, jamás en el servidor web.

La primera consecuencia de este modo de actuar es que no podemos filtrar el Ghost Spam desde el servidor web (como los otros 2 tipos de Spam), pues no interviene en todo el proceso, sino más bien solo a través de Google Analytics.

De ahí, por consiguiente, la necesidad de que sepamos cómo identificar y filtrar esas visitas espectro analizando los datos recopilados por Analytics.

Métodos para filtrar el tráfico no deseado (incluyendo el Ghost Spam)

En este apartado nos centraremos en el tráfico no deseado procedente de Crawler Referral Spam y Ghost Spam, los más perjudiciales con gran diferencia.

Los métodos que vamos a ver aquí se pueden dividir en
dos conjuntos generales:

Los que tienen efecto sobre el
spam producido por visitas realesal sitio (o sea, el Crawler Referral Spam): archivos robots.txt y .htaccess.
Aquellos que actúan sobre el
spam que no efectúan visitas realesal sitio web (esto es, el Ghost Spam): Filtros en la vista de datos y Segmentos con filtros.

La diferencia esencial entre ambos conjuntos es que, con el primero, podemos tomar medidas de contención en los propios servidores de hosting, eludiendo que visiten el sitio.

Mientras que, con el segundo, los servidores de hosting nunca tienen perseverancia de tales visitas, por lo que dichas medidas sólo pueden aplicarse desde dentro del propio Analytics.

Para explicar cómo usar estos métodos con ejemplos reales, supondremos que hemos detectado que nuestro sitio está recibiendo tráfico web no deseado de las tres siguientes fuentes, reconocidas como spam: , y

► A través del archivo robots.txt

El archivo robots.txt es un fichero de texto que se halla en la carpetita raíz de un sitio y establece una serie de pautas y condiciones a los rastreadores que visitan un sitio web.

Desde qué carpetitas y archivos pueden rastrear (por servirnos de un ejemplo, para indexarlos en un buscador) hasta qué rastreadores tienen “permiso” para acceder a ese sitio web.

¿Cuál es el principal problema de este fichero?

Que los rastreadores no están obligados a acatar sus instrucciones.

En general, los rastreadores “buenos” (como los de los motores de búsqueda que todos conocemos) sí que seguirán los comandos del archivo robots.txt, mas... nuestro contrincante no son estos rastreadores, sino los que producen excesivo tráfico no deseado.

Y, como habréis adivinado, un rastreador con malas intenciones no hará mucho caso de lo que pongamos en el robots.txt.

Sería como poner un cartel de “No entrar” en la puerta de nuestra casa: quien no tenga intención de robarnos no entrará, mas el ladrón ni se parará a leerlo.

Los comandos del robots.txt no son obligatorios a los rastreadores, por consiguiente, no podemos utilizarlo para impedir tráfico no deseado.

Entonces, ¿por qué miento este archivo si, a la hora de la verdad, no sirve para filtrar los spam?

Porque, aún a día de hoy, se pueden localizar bastantes artículos que describen el fichero robots.txt como un método de control para impedir a los rastreadores el acceso a algunas o a todas las carpetas y ficheros del servidor web.

Por tanto, olvidaos de este archivo como método para filtrar tráfico no deseado y centraos solamente en los que vienen a continuación.

► A través del archivo .htaccess

agencia optimizacion sem madrid , el fichero .htaccess también es un fichero de texto que se halla almacenado en el servidor web y contiene una serie instrucciones y comandos.

Sin embargo, no están dirigidos a los rastreadores, sino al propio servidor web, que debe acatarlos obligatoriamente.

Es decir, ya no queda al albedrío de los rastreadores el acatar o no dichas instrucciones, sino que el servidor web las debe hacer para cada visita que reciba, con independencia de su origen.

Por su definición, el .htaccess solo tendrá utilidad para limitar el tráfico no deseado que produce visitas reales al servidor web, esto es, el Crawler Referral Spam.

No hay forma de impedir el Ghost Spam con este archivo.

El servidor web asegura la ejecución de los comandos del .htaccess, por lo que podemos utilizarlo para impedir visitas de Crawler Spam.

Antes de continuar, un mensaje de aviso muy importante: además de permitir quiénes pueden acceder o bien no a nuestro sitio web, el archivo .htacces controla otras muchas áreas vitales del servidor web.

Un comando erróneo, incluso una errata en este archivo puede provocar que nuestro sitio o bien una parte de él deje de marchar apropiadamente.

Por tanto, cuando modifiquemos este archivo, siempre debemos tener a mano una imitación de su última versión operativa para, en caso de fallo, poder restaurarla rápidamente y dejar el servidor tal y como estaba antes de cualquier cambio.

Con estas precauciones, veamos ahora cómo configurar el .htaccess para cortar el acceso de las visitas spam generadas por , y

Antes de nada, debemos tener en cuenta que el archivo .htaccess puede contener líneas de comandos generados por el gestor de contenidos que estemos usando.

Normalmente, estos comandos aparecen al principio del archivo de texto, adecuadamente comentados.

Por ejemplo, WordPress añade las próximas líneas al comienzo del .htaccess:

# BEGIN WP <IfModule mod_rewrite.c> rewriteEngine On rewriteBase / rewriteRule ^index.php$ - [L] rewriteCond por ciento REQUEST_FILENAME !-f rewriteCond por ciento REQUEST_FILENAME !-d rewriteRule . /index.php [L] </IfModule> # END WordPress

Es importante que no toquemos estas líneas y que las dejemos tal como están, sin añadir ningún comando ya antes ni en el bloque enmarcado entre las líneas de comentarios
# BEGIN WordPressy
# END WordPress.

Ahora, a continuación de este bloque de instrucciones creado por el gestor de contenidos, copiar el próximo bloque de texto:

RewriteRule ^(.*)$ - [F,L] </IfModule> # FIN Bloquear el Crawler Referral Spam

Dentro de este bloque (después del comentario
## Aquí se introducen...), debemos añadir una línea por cada spammer que queramos impedir el acceso al sitio web.

Por ejemplo, para
escribiríamos:

RewriteCond por ciento HTTP_REFERER ^https?://.*ilovevitaly.ru/ [NC,OR]

Es decir, solo debemos redactar el nombre primordial del dominio (ilovevitaly) y su extensión (.ru) en los parámetros correspondientes de este comando.

El patrón es afín para las otras dos direcciones:

RewriteCond por cien HTTP_REFERER ^https?://.*kambasoft.com/ [NC,OR] RewriteCond por ciento HTTP_REFERER ^https?://.*darodar.com/ [NC,OR]

¡Mucho ojo!

Escribid TODOS los caracteres tal y como se muestran (como los puntos, interrogaciones, etc.), sin intercalar espacios en blanco, excepto los que ya aparecen.

Cualquier omisión puede anular el funcionamiento del comando de bloqueo.

El bloque completo quedaría como sigue:

# INICIO Bloquear el Crawler Referral Spam <IfModule mod_rewrite.c> RewriteEngine on ## Aquí se introducen las direcciones web de los spammers: RewriteCond por cien HTTP_REFERER ^https?://.*ilovevitaly.ru/ [NC,OR] RewriteCond por cien HTTP_REFERER ^https?://.*kambasoft.com/ [NC,OR] RewriteCond por cien HTTP_REFERER ^https?://.*darodar.com/ [NC] RewriteRule ^(.*) dólares americanos - [F,L] </IfModule> # FIN Bloquear el Crawler Referral Spam

Para finalizar, una última consideración.

Observad que en el último comando RewriteCond (el pertinente a darodar.com), solo aparece el parámetro “[NC]”, en lugar de “[NC,OR]”.

Esto se debe a que el próximo comando no es otro RewriteCond, sino más bien el comando RewriteRule.

El parámetro “OR” solo lo incluimos para concatenar comandos RewriteCond sucesivos.

Como veis, es bastante fácil configurar el archivo .htaccess para bloquear el acceso a los Referral Spam.

Sin embargo, a continuación vamos a ver que también es muy fácil filtrarlo en Google Analytics.

Por tanto, ¿qué sistema es mejor para suprimir este tipo de tráfico no deseado?

En su cometido, ninguno es mejor que el otro y seleccionar uno u otro depende de nuestras preferencias.

Personalmente, prefiero emplear solo los filtros de Analytics por las próximas razones:

Toda la gestión de tráfico no deseado está centralizada en una única herramienta, no en dos lugares separados y también independientes, con lo que solo debo trabajar en un ambiente.
Evito tener que estar modificando el fichero .htaccessy cometer algún error que pueda afectar la navegación del sitio web. Mientras que un error en los filtros de Analytics ni afecta a la navegabilidad ni se pierden datos de las visitas recibidas.
Al limitar el acceso en el .htaccess, no hay una forma fácil de
saber si estoy recibiendo un elevado número de visitas de Referral Spam, puesto que no se reflejarían en Google Analytics y no podría adoptar otras medidas de protección.

Aunque un buenproporciona mecanismos de detección y protección contra las visitas masivas de los spammers, las 2 primeras razones son de suficiente peso para mí para que no utilice el fichero .htaccess para bloquear el Crawler Referral Spam y lo haga todo en Analytics.

Filtros en la vista de datos de Google Analytics

Todos los datos recopilados por Analytics para un sitio web se agrupan dentro de las vistas, en las que configuramos cómo queremos gestionar, examinar y revisar dichos datos.

Entre las múltiples operaciones que podemos hacer con las vistas, una de ellas es la creación de filtros, para restringir o descartar qué datos se marchan a compilar en esa vista.

Por tanto, nos puede servir para filtrar las visitas de los spammers pero no solo el Crawler Referral Spam, sino también el Ghost Spam, puesto que trabajamos sobre datos de Analytics y no sobre las visitas reales del sitio web.

Ahora bien, no deberíamos sin más, crear un filtro en la vista principal de nuestro sitio, puesto que estos filtros descartan absolutamente los datos filtrados, sin posibilidad de recobrarlos y siempre y en todo momento deberíamos tener una vista con todos y cada uno de los datos, sean buenos o bien malos, por si los necesitáramos para futuros análisis o bien cometiéramos un error con algún filtro.

Así que, el primer paso consiste en crear una nueva vista desde la pestaña de Administrador, para la cuenta y propiedad de nuestro sitio web:

Filtrando los Crawler Referral Spam

Filtrando los Crawler Referral Spam

Una vez hayamos creado la vista, la escogemos y pulsamos
“Filtros”:

Google Analytics nos mostrará la lista (aún vacía) de filtros de esta vista:

Pulsamos el botón
“+ Añadir filtro”, y rellenamos los datos del nuevo filtro con los próximos datos, en la secuencia numérica que se indica, para filtrar las visitas del spammer :

Una vez introducidos estos datos, pulsamos el botón
“Guardar”y ya tenemos guardado el filtro para esta vista:

Ahora podríamos proceder igual con el resto de spammers y crear un filtro para cada uno de ellos, no obstante, esta solución no es la idónea.

Con el tiempo, el número de spammers puede crecer, de forma que acabaríamos con decenas y decenas de filtros, resultando en una larga lista de filtros.

Para evitarlo, podemos emplear expresiones regulares durante la creación del filtro, para señalar no solamente la dirección de un único spammer, sino más bien de múltiples.

De esta forma, el filtro se aplicaría a todos ellos.

Aunque las expresiones regulares pueden adoptar patrones muy complejos, yo siempre y en toda circunstancia aconsejo usar la expresión menos compleja posible, aun a costa de hacerla más larga, para que sea muy fácil de comprender y a simple vista observemos rápidamente cualquier errata.

En nuestro ejemplo, la expresión regular más fácil que recoge las 3 direcciones de spam quedaría como: “ilovevitaly.ru|kambasoft.com|darodar.com” (la barra invertida es precisa para marcar el punto, “.”, de la dirección) y el filtro se vería así:

Desde el instante de creación del filtro, esta vista solo recogerá aquellas visitas que no cumplan la condición del filtro, aunque siempre y en todo momento vamos a poder consultar los datos completos de todas las visitas accediendo a la vista original que hemos dejado sin filtros.

Aunque la configuración anterior de filtros también se puede usar para filtrar los Ghost Spam, no es el sistema más eficaz.

Sobre todo, si tenemos en cuenta que de forma continua surgen Ghost Spammers con nuevos nombres y direcciones, lo que haría interminable la lista de filtros.

Afortunadamente, tenemos una alternativa que aprovecha un defecto de los Ghost Spam, debido a que no visitan nuestro sitio web: sus visitas no tienen asociado un nombre de host o bien, si lo tuvieran, no estaría relacionado con el sitio web.

En general, el nombre del host será la dirección del sitio web mas, puede haber nombres de hosts válidos en función de los servicios que utilice el sitio o bien cómo esté configurado.

La mejor manera para revisarlo es a través de los Informes de Analytics, tal y como muestra la figura siguiente:

En este caso, sólo aparece un nombre de host válido, el pertinente a mi dirección web.

El resto no guardan relación con mi web ni tengo ningún género de relación con ellos.

Con esta consideración, solo tenemos que crear un nuevo filtro (en la misma vista donde creamos el precedente filtro) a fin de que solo recopile aquellos datos que tengan un nombre de host correcto, con la próxima secuencia de acciones:

Con lo que tendríamos nuestra vista con los dos filtros:

Segmentos con filtros en Google Analytics

A la hora de gestionar y analizar los datos, la utilización de vistas con filtros presenta
dos limitaciones:

La vista y los filtros solo tienen efecto en los datos a partir del momento en que son creados

La vista y los filtros solo tienen efecto en los datos a partir del momento en que son creados

Es decir, una nueva vista no dispone de datos anteriores a su creación y un nuevo filtro solo filtra los datos siguientes a su creación.

No podemos hacer análisis comparativos sobre un mismo informe entre los datos filtrados con los datos sin filtrar

No podemos hacer análisis comparativos sobre un mismo informe entre los datos filtrados con los datos sin filtrar

Por ejemplo, la gráfica comparativa que vimos en la primera sección, sino que tendríamos que hacerlo “a ojo” en 2 ventanas separadas del navegador, una para cada vista.

Para superar estas limitaciones, podemos utilizar segmentos, creando filtros afines a los que hicimos con las vistas, mas con la particularidad de que tienen efecto sobre todos y cada uno de los datos compendiados en la vista actual, independientemente de cuándo fuera creado el segmento o bien el filtro.

El proceso es muy sencillo:

Pulsamos en la pestaña
“Informes”y, en la
Visión general de audiencia, pulsamos la barra
“+ Añadir segmento”:

Pulsamos el botón rojo
“+ CREAR SEGMENTO”.
Seleccionamos
“Condiciones”en las opciones avanzadas y añadimos dos filtros tal como se muestra en la siguiente imagen:

Pulsamos el botón
“Guardar”.

Observad que en un mismo segmento hemos creado los dos filtros que necesitábamos:

Para el Ghost Spam (recuadro 3), seleccionando el
“Nombre de host”e introduciendo la expresión regular de las direcciones web válidas (en este caso, sólo el nombre de dominio del sitio).
posicionamiento sem santander (recuadros 4-6), el filtro tiene 2 condiciones que deben cumplirse simultáneamente (la “Y” del recuadro cinco).Por un lado, debemos seleccionar la
“Fuente”e introducir la expresión regular de las direcciones de los spammers. Además, hay que escoger el
“Medio”para apuntar que debe ser de tipo
“Referral”.

A medida que vamos creando los filtros, el cuadro resumen de la derecha va mostrando el porcentaje y número de usuarios y de sesiones que pasan los filtros.

En este caso, el 47,70 por cien de usuarios no cumple ninguna de las condiciones de los filtros y son visitas “legales”.

Una vez creado el segmento, tan solo necesitamos elegirlo a fin de que los informes no incluyan datos de visitas de spammers:

¿Cómo detectar el tráfico basura?

Ahora que sabemos los modelos de tráfico basura que podemos encontrar en Analytics y cómo descartarlos en nuestra analítica web, la siguiente pregunta que brota es, ¿cómo saber que unas determinadas visitas son producto de un spammer?

De todas y cada una de las tareas y configuraciones que hemos visto hasta ahora, analizar los datos compendiados por Google Analytics para localizar cuáles pueden corresponder a un spammer puede resultar la más complicada y aburrida.

¿El motivo?

No hay una regla fija que nos deje identificar con certeza y rotundidad que una determinada visita la realiza un spammer, sino una serie de pautas y comportamientos sospechosos que pueden darnos rastros de que se están generando.

En líneas generales, no deberíamos preocuparnos por el Ghost Spam, puesto que como hemos visto, presenta el defecto de usar un nombre de host inválido o bien que no está relacionado con nuestro sitio, por lo que el filtro que hemos creado puede confrontarlos de forma perfecta.

El problema puede venir, entonces, de los Crawler Referral Spam que cambien o usen nuevos nombres o bien direcciones de origen (“Fuente de campaña”, en los filtros), por lo que vamos a deber, primero identificarlos y segundo, actualizar las expresiones regulares de los filtros.

Para identificarlos, no nos queda otro antídoto que examinar periódicamente la gráfica y los informes del “Tráfico de referencia”:

Sobre estos datos, debemos revisar si se presenta alguno de los siguientes comportamientos sospechosos de spamming:

Crecimiento desmesurado del número de sesiones o bien de visitasdesde una misma referencia, que es el caso que os presentaba como introducción en este artículo. En muchas ocasiones, éste será el primer indicio de que algo anómalo está pasando.
Nombres de fuente (direcciones URL) sin sentidoo de los que no cabe aguardar que nos referencien (columna “Fuente”). Por servirnos de un ejemplo, en la tabla precedente, abc.xyz o reddit.com serían sospechosos. No obstante, t.co o plus.google.com sí que serían válidos, puesto que es normal que nos referencien desde Twitter o Google+.
Porcentaje de rebote irreal</ <a href="https://citiface.com/es/posicionamiento-seo-en-zaragoza">diseño paginas web Cuenca >, tanto cercano al cien por cien como al 0 por cien . El porcentaje de rebote varía mucho de un sitio web a otro, en función de muchos factores, mas siempre y en todo momento debería moverse por la zona media, no en los extremos. En la tabla anterior, motherboard.vice.com y site-auditor.online serían sospechosos de spamming.
Duración media de la sesión atípica, ya sea por el hecho de que dura cero o poquísimos segundos o varios minutos por encima de la duración media. En la tabla precedente, site-auditor.online o addons.mozilla.org se salen del comportamiento típico en este sitio.
Porcentaje de nuevas sesiones cercano al cien por cien o bien al 0 por cien ,es decir, que casi todas las visitas son de usuarios diferentes o bien prácticamente todas son de un mismo usuario, respectivamente. Lo normal es que este valor se ubique en una zona media, no en los extremos. En nuestro ejemplo, lifehacker.com o bien thenextweb.com resultarían sospechosas.

Una vez hayamos identificado ciertas fuentes sospechosas de spamming, el siguiente paso sería analizarlas más en detalle.

Por ejemplo, viendo si esa dirección web verdaderamente existe o comprobar que la página web que nos está referenciando exista y sea válida.

Otra posibilidad, más rápida y fácil, es buscar de forma directa en Google+ esas direcciones de los nombres de fuente (por poner un ejemplo, buscando “
abc.xyz spam”).

Si son spammers, lo más seguro es que alguien ya lo haya detectado y escrito acerca de ellos.

Como mencionaba al comienzo, no es una ciencia exacta mas con estas cautelas prácticamente siempre y en toda circunstancia vamos a ser capaces de identificar posibles fuentes de spamming.

Conclusiones

En cualquier estrategia de Marketing Digital, la analítica web proporciona información crucial para determinar la eficiencia de nuestras acciones y el impacto en las visitas de nuestro sitio.

En consecuencia, cualquier adulteración de los datos compendiados por Analytics puede resultar en una interpretación errónea de los resultados de la estrategia y hacernos tomar nuevas decisiones que perjudiquen o limiten el éxito de nuestras campañas.

El tráfico basura o bien las visitas spam, son la primordial causa de alteración de las visitas de un sitio, haciéndonos pensar que recibimos más visitas de las que verdaderamente están llegando de usuarios reales, además de afectar a otros factores, como el porcentaje de rebote o la duración media de las visitas.

El origen del tráfico basura puede producirse por dos medios:

Crawler Referral Spam, que hacen visitas reales al sitio y, por consiguiente, son detectadas y registradas por el servidor web. Se pueden filtrar tanto en el propio servidor web (a través de el archivo .htaccess) como con filtros en vistas o bien segmentos de Google Analytics.
Ghost Spam, que no visitan el sitio, sino interactúan de manera directa con los servidores de Analytics, simulando que hacen visitas. Como no hacen visitas al servidor web, solo se pueden filtrar en las vistas o segmentos de Analytics.

Nuestras propias visitas al sitio web, sin ser tráfico basura como tal, también pueden alterar la interpretación de los datos de analítica web, con lo que también debemos tomar medidas para eliminarlas.

La detección del tráfico basura no tiene un proceso claro y válido para cualquier circunstancia, sino debemos fijarnos en una serie de indicios (como el porcentaje de rebote, la duración de la visita o el nombre de la fuente) que puedan identificar algunas visitas como posible spamming.

El webmaster o bien el analista web debe prestar atención a semejantes indicios para, en el caso de observarlos, estudiarlo más pausadamente, determinar si corresponde a spamming o no y actualizar los filtros en caso preciso.

En el artículo hemos visto diferentes métodos y filtros para eliminar y advertir el tráfico no deseado o bien tráfico basura, pero como cada maestrillo tiene su librillo, ¿utilizas otros métodos para advertirlo y quitarlo?

showtheory6

Blog

Shelf

Timeline