cómo los rastreadores web manejan javascript

Hoy se genera mucho contenido en Internet usando JavaScript (específicamente por llamadas AJAX de background). Me preguntaba cómo los rastreadores web como Google los manejan. ¿Están al tanto de JavaScript? ¿Tienen un motor de JavaScript integrado? O simplemente ignoran todo el contenido generado por JavaScript en la página (supongo que es bastante improbable). ¿Las personas usan técnicas específicas para get su contenido indexado que de otro modo estaría disponible a través de requestes AJAX de background a un usuario normal de Internet?

6 Solutions collect form web for “cómo los rastreadores web manejan javascript”

JavaScript es manejado por los rastreadores de Bing y Google. Yahoo usa los datos del rastreador de Bing, por lo que también debe manejarse. No busqué en otros buscadores, así que si te importan, debes searchlos.

Bing publicó una guía en marzo de 2014 sobre cómo crear sitios web basados ​​en JavaScript que trabajen con su rastreador (la mayoría relacionados con pushState ) que son buenas prácticas en general:

  • Evite crear enlaces rotos con pushState
  • Evite crear dos enlaces diferentes que se vinculen al mismo contenido con pushState
  • Evite el encubrimiento . ( Aquí hay un artículo publicado por Bing sobre su detección de camuflaje en 2007 )
  • Admite browseres (y rastreadores) que no pueden manejar pushState .

Posteriormente, Google publicó una guía en mayo de 2014 sobre cómo crear sitios web basados ​​en JavaScript que funcionan con su rastreador, y sus recomendaciones también se recomiendan:

  • No bloquee JavaScript (y CSS) en el file robots.txt.
  • Asegúrate de que puedes manejar la carga de los rastreadores.
  • Es una buena idea admitir browseres y rastreadores que no pueden manejar (o usuarios y organizaciones que no permiten) JavaScript
  • Es posible que el JavaScript complicado que se basa en funciones arcanas o específicas del idioma no funcione con los rastreadores.
  • Si su JavaScript elimina contenido de la página, es posible que no se indexe. alnetworkingedor.

La mayoría de ellos no manejan Javascript de ninguna manera. (Al less, no todos los rastreadores principales de los motores de búsqueda).

Es por eso que aún es importante que su sitio maneje correctamente la navigation sin Javascript.

He probado esto al poner páginas en mi sitio a las que JavaScript puede acceder y luego observar su presencia en los índices de búsqueda.

Las páginas de mi sitio a las que solo se puede acceder mediante Javascript fueron posteriormente indexadas por Google.

El contenido se alcanzó a través de Javascript con una técnica "clásica" o la construcción de una URL y la configuration de la window. Ubicación en consecuencia.

Precisamente lo que dijo Ben S. Y cualquiera que acceda a su sitio con Lynx tampoco ejecutará JavaScript. Si su sitio está destinado para uso público general, en general, se puede utilizar sin JavaScript.

Además, relacionado: si hay páginas que le gustaría que encontrara un motor de búsqueda, y que normalmente popupían solo de JavaScript, podría considerar generar versiones estáticas de ellas, accesibles mediante un map del sitio rastreable, donde estas páginas estáticas usan JavaScript para cargue la versión actual cuando la accione un browser habilitado para JavaScript (en caso de que un humano con un browser siga su map del sitio). El motor de búsqueda verá la forma estática de la página y podrá indexarla.

Crawlers no analiza Javascript para saber qué hace.

Se pueden crear para reconocer algunos fragments clásicos como onchange="window.location.href=this.options[this.selectedIndex].value;" o onclick="window.location.href='blah.html';" , pero no se molestan con cosas como el contenido que se obtiene con AJAX. Al less, todavía no, y el contenido obtenido así siempre será secundario de todos modos.

Por lo tanto, Javascript debería usarse solo para funciones adicionales. El contenido principal que desea que los rastreadores encuentren debe ser text sin formatting en la página y enlaces regulares que los rastreadores pueden seguir fácilmente.

los rastreadores pueden manejar llamadas javascript o ajax si están usando algún tipo de frameworks como 'htmlunit' o 'selenium'

  • ¿Cómo sé que una página está completamente cargada?
  • Cómo detectar si un visitante es humano y no una araña
  • ¿Cómo puedo saber si los files incluidos de JavaScript son realmente necesarios en diferentes páginas?
  • Node.JS: ¿Cómo pasar variables a las devoluciones de llamada asincrónicas?
  • Cómo mantener un rastreador web funcionando?
  • Detectar rastreadores de búsqueda a través de JavaScript
  • ¿Cómo rellenar programáticamente los elementos de input creados con React?
  • rastrear página web dinámica para datos usando scrapy
  • ¿Cómo crear un rastreador web con Node.js?
  • ¿Html5mode (true) afecta a los rastreadores de búsqueda de Google
  • Me gustaría get datos de un muro público de Facebook
  • Javascript tiene muchos buenos JS marco (como Node.js AngularJS Vue.js React.js) es el mejor lenguaje de script.