¿Cómo funciona Google?

Posicionamiento web / SEO
09/26/2011

Google se ejecuta en una red distribuida en miles de computadores y, por lo tanto, puede procesar mucha información en forma paralela y muy rápida. Google está conformado por tres partes bien diferentes:

Googlebot: un rastreador web que busca y encuentra las páginas web.
El indexador: que ordena cada palabra de cada página web y almacena el índice resultante de las palabras en una enorme base de datos.
El procesador de consultas: que compara la consulta de búsqueda con el índice y recomienda los documentos que considera más relevantes.

1. Googlebot, el Web Crawler de Google:

Googlebot es el robot de Google que rastrea la web, que encuentra y recupera páginas y las dirige al indexador. Es fácil imaginar a Googlebot como una pequeña araña que corre por los filamentos del ciberespacio, pero en realidad no recorre la web en absoluto. Funciona mas como tu navegador web, enviando una solicitud a un servidor para una página web, descarga toda la página, y luego la entrega al indexador de Google.

Googlebot se compone de varios ordenadores que buscan y encuentran las páginas mucho más rápido que tú con tu navegador web. De hecho, Googlebot puede solicitar miles de páginas simultáneamente. Para evitar congestionar los servidores web, o desplazar a las peticiones de los usuarios humanos, Googlebot deliberadamente hace los pedidos de cada servidor web individual más lentamente de lo que es capaz de hacer.

Googlebot encuentra páginas de dos maneras:

A través de un formulario para “añadir URL” (www.google.com / addurl.html), lo que también se conoce como indexar un sitio web a Google.

Y por medio de enlaces de búsqueda rastreando la web.

Cuando Googlebot obtiene una página, selecciona todos los enlaces que aparecen en la página y los añade a una fila para un rastreo posterior. Googlebot tiende a encontrar poco spam porque la mayoría de los usuarios únicamente vinculan sitios que ellos consideran relevantes.

Al recolectar los enlaces de cada página que encuentra, Googlebot puede crear rápidamente una lista de enlaces que pueden cubrir ampliamente la web. Esta técnica, conocida como rastreo de profundidad, también permite que Googlebot explore el interior de sitios individuales. Debido a su escala masiva, el rastreo profundo puede llegar a casi todas las páginas de la web. Como es muy amplia, esto puede tomar algún tiempo, por lo que algunas páginas pueden ser rastreadas sólo una vez al mes.

Para mantener actualizado el índice, Google vuelve a rastrear continuamente las páginas que cambian con frecuencia, a un ritmo más o menos proporcional a la frecuencia con que estas webs cambian. Estos rastreos permiten que el índice permanezca actualizado y se conocen como rastreos frescos. Las páginas de los periódicos son descargadas todos los días, las páginas con cotizaciones de bolsa se descargan con mayor frecuencia.

Por supuesto, los rastreos frescos retornan menos páginas que el rastreo de profundidad. La combinación de estos dos tipos de rastreos permite a Google hacer un uso eficiente de sus recursos y mantener su índice razonablemente actualizado.

2. Indexador de Google

Googlebot le da al indexador el texto completo de las páginas que encuentra. Estas páginas se almacenan en la base de datos del índice de Google. Este índice está ordenado alfabéticamente por término de búsqueda con cada entrada de índice, almacenando así una lista de documentos en los que aparece el término y la ubicación de dónde se produce dentro del texto. Esta estructura de datos permite un acceso rápido a los documentos que contienen los términos de consulta del usuario.

Para mejorar el rendimiento de búsqueda, Google ignora (no añade al índice):

Palabras comunes llamadas palabras de parada (tales como el, es, en, o, de, cómo, por qué, así como algunos dígitos y letras). Estas palabras son tan comunes que hacen poco para reducir una búsqueda, y por lo tanto, pueden ser descartadas con seguridad.

El indexador también ignora algunas puntuaciones y espacios múltiples, así como también convierte todas las letras en minúsculas,para mejorar el rendimiento de Google.

3. Procesador de consultas de Google:

El procesador de consultas tiene varias partes, incluyendo la interfaz del usuario (cuadro de búsqueda), el «motor» que evalúa las consultas y los compara con los documentos relevantes, y el formateador de resultados.

PageRank es el sistema de Google para medir la popularidad de una página web basándose en la cantidad de enlaces o links que apuntan a ella. Antiguamente un sitio web con buen PageRank iba a posicionar mejor en Google. Ahora, el PageRank es sólo una más de las variables que Google utiliza para posicionar una página web.

Al indexar el texto completo de la web, Google puede ir más allá de la simple comparación de términos únicos de búsqueda. Google da mayor prioridad a las páginas que tienen los términos de búsqueda cerca unos de otros y en el mismo orden que en la consulta. Google también puede hacer coincidir frases y oraciones de varias palabras.