Saltar al contenido

Guía para principiantes para evitar el raspado del contenido del blog en WordPress

Guía para principiantes para evitar el raspado del contenido del blog en WordPress

Si escribe contenido original día tras día, ya sabe que sus publicaciones terminarán en un montón de sitios de SPAM en unos pocos días, a veces incluso en unos pocos minutos. Algunos usuarios incluso notaron que el sitio con contenido robado superó a la publicación original. Es muy frustrante como propietario de un sitio web ver que alguien está robando su contenido sin permiso, monetizándolo, superándolo en SERPs y robando a su audiencia. El Scraping de contenido es un gran problema en estos días considerando que es muy fácil para alguien robar su contenido. En este artículo, cubriremos qué es el raspado de contenido del blog, cómo capturar raspadores de contenido, cómo lidiar con los raspadores de contenido, cómo puede reducir y prevenir el raspado de contenido, cómo aprovechar el raspado de contenido, cómo ganar dinero con los raspadores de contenido , y ¿el contenido es bueno?

¿Qué es el raspado de contenido del blog?

El raspado de contenido de blog es un acto que generalmente se realiza con scripts que extraen contenido de numerosas fuentes y lo incorporan a un sitio. Es tan fácil ahora que cualquiera puede instalar un sitio de WordPress, poner un tema gratuito o comercial e instalar algunos complementos que irán y extraerán contenido de blogs seleccionados, para que pueda publicarse en su sitio.

¿Por qué están robando mi contenido?

Algunos de nuestros usuarios nos han preguntado por qué están robando mi contenido. La respuesta simple es porque eres IMPRESIONANTE. La verdad es que estos raspadores de contenido tienen motivos ocultos. A continuación hay algunas razones por las cuales alguien rasparía su contenido:

  • Comisión de afiliados – Hay algunos vendedores sucios afiliados que solo quieren explotar el sistema para ganar unos cuantos dólares extra. Utilizarán su contenido y el contenido de otros para atraer tráfico a su sitio a través del motor de búsqueda. Estos sitios generalmente están dirigidos a un nicho específico, por lo que tienen productos relacionados que están promoviendo.
  • Generación líder – A menudo vemos abogados y agentes de bienes raíces haciendo esto. Quieren parecer líderes de la industria en sus pequeñas comunidades. No tienen el ancho de banda para producir contenido de calidad, por lo que salen y eliminan contenido de otras fuentes. A veces, ni siquiera se dan cuenta de esto porque están pagando $ 30 / mes por algo de basura para agregar contenido y ayudarlos a mejorar su SEO. Hemos encontrado bastantes de estos en el pasado.
  • Ingresos por publicidad – Algunas personas solo quieren crear un «centro» de conocimiento. Una ventanilla única para usuarios en un nicho específico. Si tuviera un centavo por cada vez que alguien ha hecho esto con nuestro contenido, tendríamos unos cientos de centavos. A menudo notamos que el contenido de nuestro sitio se está eliminando. El raspador siempre responde, estaba haciendo esto por el bien de la comunidad. Excepto que el sitio está repleto de anuncios.

Estas son solo algunas de las razones por las cuales alguien robaría su contenido.

¿Cómo atrapar raspadores de contenido?

Capturar raspadores de contenido es una tarea tediosa y puede llevar mucho tiempo. Hay algunas formas en que puede utilizar para capturar raspadores de contenido.

Busque en Google con sus títulos de publicaciones

Sí, eso es tan doloroso como parece. Probablemente este método no valga la pena, especialmente si está escribiendo sobre un tema muy popular.

Trackbacks

Si agrega enlaces internos en sus publicaciones, notará un trackback si un sitio roba su contenido. De esta manera, el raspador te dice que están raspando tu contenido. Si está utilizando Akismet, aparecerán muchos de estos trackbacks en la carpeta SPAM. Nuevamente, esto solo funcionará si tienes enlaces internos en tus publicaciones.

Herramientas para webmasters

Si utiliza las herramientas de Google para webmasters, probablemente conozca los enlaces a la página de su sitio. Si busca en «Tráfico», verá una página que dice Enlaces a su sitio. Lo más probable es que tus rascadores estén entre los mejores allí. Tendrán cientos, si no miles, de enlaces a sus páginas (teniendo en cuenta que tiene enlaces internos).

Enlaces a su sitio - Herramientas para webmasters de Google

Usos poco comunes de FeedBurner

Si ha configurado Feedburner para su blog de WordPress, puede ver algunos usos poco comunes. En la pestaña Analizar en Estadísticas del feed, verá «Usos poco frecuentes». Allí verá una lista de sitios.

Usos poco comunes de FeedBurner

Cómo lidiar con los raspadores de contenido

Hay pocos enfoques que las personas adoptan cuando se trata de raspadores de contenido. El enfoque de no hacer nada, el enfoque de matarlos a todos, aprovechar el enfoque de ellos.

El enfoque de no hacer nada

Este es, con mucho, el enfoque más fácil que puede tomar. Por lo general, los bloggers más populares recomendarían esto porque lleva MUCHO tiempo luchar contra los scrapers. Este enfoque simplemente recomienda que «en lugar de luchar contra ellos, dedique su tiempo a producir aún más contenido de calidad y diviértase». Ahora, obviamente, si se trata de un blog conocido como Smashing Magazine, CSS-Tricks, Problogger u otros, entonces no tienen que preocuparse por eso. Son sitios de autoridad a los ojos de Google.

Sin embargo, durante la actualización de Panda, sabemos que algunos sitios buenos se marcaron como raspadores porque Google pensó que sus raspadores eran contenido original. Por lo tanto, este enfoque no siempre es el mejor en nuestra opinión.

Mátalos a todos Enfoque

El opuesto exacto del «No hacer nada». En este enfoque, simplemente te pones en contacto con el raspador y les pides que retiren el contenido. Si se niegan a hacerlo o simplemente no responden a sus solicitudes, entonces presenta una DMCA (Digital Millennium Copyright Act) con su anfitrión. En nuestra experiencia, la mayoría de los sitios web de scraping no tienen un formulario de contacto disponible. Si lo hacen, utilícelo. Si no tienen el formulario de contacto, debe realizar una búsqueda de Whois.

Whois Lookup

Puede ver la información de contacto en el contacto administrativo. Por lo general, el contacto administrativo y técnico es el mismo. El whois también muestra el registrador de dominio. La mayoría de las empresas de alojamiento web y registradores de dominios conocidos tienen formularios DMCA o correos electrónicos. Puede ver que esta persona específica está con Hostgator debido a sus servidores de nombres. HostGator tiene un formulario para quejas de DMCA. Si el servidor de nombres es algo así como ns1.theirdomain.com, debe profundizar haciendo búsquedas inversas de IP y buscando IP.

También puede usar un servicio de terceros para DMCA.com para los retiros.

Jeff Starr en su artículo sugiere que debe bloquear las direcciones IP de los malos. Acceda a sus registros para obtener su dirección IP y luego bloquéelo con algo como esto en su archivo raíz .htaccess:

Deny from 123.456.789

También puede redirigirlos a una fuente ficticia haciendo algo como esto:

RewriteCond %{REMOTE_ADDR} 123.456.789.
RewriteRule .* http://dummyfeed.com/feed [R,L]

Puedes ser realmente creativo aquí, como sugiere Jeff. Envíelos a fuentes de texto realmente grandes con Lorem Ipsum. Puedes enviarles algunas imágenes desagradables de cosas malas. También puede enviarlos de vuelta a su propio servidor provocando un bucle infinito que bloqueará su sitio.

El último enfoque que tomamos es aprovecharlos.

Cómo aprovechar los raspadores de contenido

Este es nuestro enfoque para tratar con scrapers de contenido, y resulta bastante bueno. Ayuda a nuestro SEO y nos ayuda a ganar dinero extra. La mayoría de los raspadores usan su fuente RSS para robar su contenido. Estas son algunas de las cosas que puede hacer:

  • Enlace interno – Necesitas interconectar el CRAP de tus publicaciones. Con la función de enlace interno en WordPress 3.1, ahora es más fácil que nunca. Cuando tiene enlaces internos en su artículo, le ayuda a aumentar las visitas a la página y reducir la tasa de rebote en su propio sitio. En segundo lugar, obtiene vínculos de retroceso de las personas que están robando su contenido. Por último, te permite robar su audiencia. Si eres un blogger talentoso, entonces entiendes el arte de los enlaces internos. Tienes que colocar tus enlaces en palabras clave interesantes. Haz que sea tentador para el usuario hacer clic en él. Si haces eso, entonces la audiencia del raspador también hará clic en él. Simplemente así, sacó a un visitante de su sitio y lo llevó de regreso a donde debería haber estado en primer lugar.
  • Palabras clave de enlace automático con enlaces de afiliados – Existen pocos complementos como Ninja Affiliate y SEO Smart Links que reemplazarán automáticamente las palabras clave asignadas con enlaces de afiliados. Por ejemplo: HostGator, StudioPress, MaxCDN, Gravity Forms << Todos estos serán reemplazados automáticamente con enlaces de afiliados cuando se publique esta publicación.
  • Sea creativo con el pie de página RSS – Puede usar el pie de página RSS o el SEO de WordPress de Yoast Plugin para agregar elementos personalizados a su pie de página RSS. Puedes agregar casi todo lo que quieras aquí. Conocemos a algunas personas que les gusta promocionar sus propios productos a sus lectores RSS. Entonces agregarán pancartas. Adivina qué, ahora esos banners también aparecerán en el sitio web de estos scrapers. En nuestro caso, siempre agregamos un pequeño descargo de responsabilidad al final de nuestras publicaciones en nuestros canales RSS. Simplemente se lee como «Cómo poner su sitio de WordPress en estado de solo lectura para migraciones y mantenimiento del sitio es una publicación de: WPBeginner que no se puede copiar en otros sitios». Al hacer esto, obtenemos un vínculo de retroceso al artículo original del sitio de scraper que les permite a Google y a otros motores de búsqueda saber que somos autoridad. También les permite a sus usuarios saber que el sitio está robando nuestro contenido. Si eres bueno con los códigos, entonces puedes volverte loco. Como agregar publicaciones relacionadas solo para sus lectores RSS y muchas otras cosas. Consulte nuestra guía para manipular completamente su feed RSS de WordPress.

Cómo puede reducir el raspado del contenido del blog y posiblemente prevenirlo

Teniendo en cuenta si adopta nuestro enfoque de muchos enlaces internos, agregando enlaces de afiliado, banners rss y tales posibilidades son que reduzca el raspado de contenido en buena medida. Si toma la sugerencia de Jeff Starr de redirigir los raspadores de contenido, eso también los detendrá. Además de lo que hemos compartido anteriormente, hay algunos otros trucos que puedes usar.

Fuente RSS completa vs. resumen

Ha habido un debate en la comunidad de blogs sobre si se debe tener una fuente RSS completa o una fuente RSS resumida. No vamos a entrar en muchos detalles sobre ese debate, sin embargo, uno de los PROS de tener un feed RSS de resumen solamente es que evita el raspado de contenido. Puede cambiar la configuración yendo a su panel de administración de WordPress y yendo a Configuración »Lectura. Luego, cambie la configuración de cada artículo en un feed show: Resumen.

Nota: Tenemos una fuente completa porque nos importan más nuestros lectores RSS que los spammers.

Trackback SPAM

Trackbacks y Pingbacks definitivamente tuvieron grandes usos, sin embargo, ahora están siendo constantemente abusados. A menudo, los temas muestran trackbacks y pingbacks debajo o entre los comentarios. Esto le da al spammer un incentivo para raspar su sitio y enviar trackbacks. Si lo aprueba por error, obtienen un vínculo de retroceso y una mención de su sitio. Aquí es cómo puede deshabilitar Trackbacks en todas las publicaciones futuras. Aquí hay un artículo que le mostrará cómo deshabilitar trackbacks y pings en publicaciones existentes de WordPress también.

¿Es bueno el raspado de contenido?

Puede ser. Si ve que está ganando dinero desde el sitio del raspador, entonces puede estar seguro. Si ve mucho tráfico desde el sitio de un raspador, entonces puede ser. En la mayoría de los casos, sin embargo, no lo es. Siempre debes tratar de quitar tu contenido. Pero se dará cuenta a medida que su blog se haga más grande, es casi imposible hacer un seguimiento de todos los raspadores de contenido. Todavía enviamos quejas de DMCA, sin embargo, sabemos que hay muchos otros sitios que están robando nuestro contenido que simplemente no podemos seguir.

¿Cuáles son tus pensamientos? ¿Utiliza alguna otra mecánica para evitar el raspado de contenido? Me encantaría conocer tu opinión.

.