TECNOLOGÍA

Cómo Google hace sus búsquedas en internet

Cada segundo de cada día, un promedio de 40.000 personas están introduciendo una pregunta en Google. Investigamos cómo hace el motor de búsqueda para responder las preguntas.

Alianza BBC
19 de agosto de 2016
Google también toma en cuenta tu ubicación geográfica. | Foto: Pixabay

Después de que los estudiantes Larry Page y Sergey Brin se conocieron en 1995, tuvieron la audaz ambición de "organizar la información del mundo y hacerla universalmente accesible y útil".

Y han sido fenomenalmente exitosos.

La marca que crearon en un garaje de California, Google, se ha convertido en el vehículo para navegar y buscar información en la web por excelencia.

Se trata de una organización global con más de 70 oficinas en más de 40 países.

La compañía usa el 0,01% del suministro eléctrico mundial al poner en funcionamiento las redes de computadoras más extensas que combinan más de un millón de servidores.

Cada segundo de cada día, un promedio de 40.000 personas están escribiendo preguntas en el motor de búsqueda de Google.

Maneja más de 100.000 millones de búsquedas al mes.

¿Qué pasa detrás de bambalinas cuando escribes una pregunta?

Como una araña

Haz clic en este gráfico para ver cómo se ejecuta tu búsqueda:

Índice de búsqueda

Google mantiene un índice de la web, el cual se compone de más de mil millones de gigabytes de información y que su compilación ha llevado más de un millón de horas de computación. Contiene más de un billón de páginas web y algunas estimaciones elevan el número a 30 billones.

Con una tecnología de distribución de vanguardia, la mayor parte desarrollada por ingenieros de Google, la información es recuperada por un usuario en un instante.

Eso tiene que ser procesado y almacenado en alguna parte. Cuando estás en un sitio de Google, estás accediendo a una de las redes de servidores más extensas en el mundo.

El índice de Google no es exhaustivo. Algunas partes de la web son imposibles de descubrir a través de motores de búsqueda. Se trata de la web profunda.

Esa profundidad incluye páginas como las bases de datos de usuarios o los detalles de tu cuenta bancaria y es mucho más grande que la web a la que se puede acceder. También incluye la web oscura, sitios encriptados que no son accesibles a través de navegadores estándares.

Arañas

Las arañas de Google (o agentes de búsqueda) son fragmentos de códigos que descubren y enlistan el contenido de la web. Debido a que la web está cambiando constantemente, el índice de Google tiene que ser continuamente actualizado.

Las arañas de Google dependen de una característica clave de la web: la habilidad de incluir vínculos a otras páginas. Un agente sigue los enlaces de una lista de vínculos URL cuidadosamente seleccionados, agrupa las páginas web que encuentra y añade cualquier vínculo URL nuevo que descubre a la lista de enlaces a rastrear. Esa actividad se sigue ejecutando hasta que se cubre, tanto como es posible, la web y luego empieza todo el proceso de nuevo.

Los sitios más grandes y más populares con muchos contenidos nuevos son rastreados con más frecuencia que los menos sitios menos populares. Por eso Google puede estar al tanto de noticias de última hora, incluso aunque no enlista cada página de la web todos los días.
Motor de búsqueda

El motor de búsqueda se encuentra en el corazón de cómo funciona Google. Es el algoritmo que te vincula con el índice de la web de Google.

El motor primero recupera la información sobre contenido web potencialmente relevante que coincide con tu búsqueda.

Seguidamente usa un complejo algoritmo para determinar en qué orden esos resultados deberían desplegarse.

El algoritmo de posicionamiento de Google es un principio central de su éxito. Eso les permite a los usuarios encontrar páginas altamente relevantes a la búsqueda.

Tu navegador

Cuando presionas “buscar” podría dar la impresión de que estás buscando en toda la World Wide Web. Sin embargo, lo que realmente estás explorando es el índice de la web de Google.

Tu computadora habla directamente con uno o más servidores en los centros de información de Google, el cual contiene una base de datos gigante del contenido mundial de la web.

Al principio, la única forma de investigar en Google era visitando la página web de Google. Ahora, los navegadores y aplicaciones telefónicas tienen el buscador de Google instalado.
La web

La World Wide Web consiste en muchos trillones de páginas web. Eso es significativamente más que el número de neuronas en tu cerebro.

Los motores de búsqueda son a la vez una puerta de entrada a la web y una parte constituyente de la web. Ellos hacen la web inteligible, permitiendo que recuperes la información desde una fuente que de otra forma sería tan inmensa como extremadamente difícil de usar.

La parte ingeniosa: clasificando tus resultados

Existen al menos 200 variables diferentes que Google sopesa cada vez que buscamos algo.

Los detalles exactos del algoritmo de clasificación de Google son un secreto, pero incluye varios componentes varios componentes centrales.

1. Rango de la página

Google clasifica las páginas web al analizar qué otras páginas web se vinculan con ella.

Le asigna una puntuación a cada página en base al número de enlaces que ha adquirido y ve cada enlace como un voto. Pero no todos los votos tienen el mismo valor. Un enlace de una página relevante que es en sí misma una página con una alta puntuación de rango de página es más valorado que un vínculo de una página con una puntuación de rango de página bajo.

2. Relevancia y calidad de contenido

Google modela matemáticamente las palabras de una página web.

Juzga la relevancia de una página web tomando en cuenta tu búsqueda al contar el número de ocurrencias de las palabras de búsqueda (y sinónimos o variaciones) en la página.

Mayor importancia se le da a las palabras clave en partes importantes del texto, como el título de la página.

Google también considera la rareza de esas palabras claves: si el término de búsqueda no es ampliamente usado en la web, es incluso más probable que las páginas que contienen esas palabras aparezcan primero.

Algunas palabras, como "el" o "y", están presentes con más frecuencia que otras y no son particularmente útiles a la hora de discernir la relevancia de una página en una determinada búsqueda.

Como resultado, Google les da a esas palabras mucho menos importancia. Google también busca señales de calidad como la longitud de un contenido y si se ha duplicado a partir de otro texto.

3. Contexto de usuario

Google toma en cuenta el contexto de tu búsqueda.

Si buscas "restaurantes" en México es más probable que Google despliegue los resultados de páginas mexicanas porque es más probable que te sean más útiles que las páginas de restaurantes en Brasil o en Estados Unidos.

Google también toma en cuenta el dispositivo que estás usando.

Los usuarios de teléfonos inteligentes podrían querer información de restaurantes más cercanos a su ubicación física inmediata que los usuarios de computadoras personales.

Google también puede acceder a tu propio historial de búsqueda y a tu comportamiento en internet, ofreciéndote resultados personalizados.

Y como bien dice Jack Menzel, director de gestión de producto de Google, "al entender las relaciones entre las cosas, Google puede hacer un mejor trabajo a la hora de comprender lo que exactamente estás buscando".

4. Luchando contra el spam

El tráfico de la web es un negocio inmenso.

Incluso desde que Google comenzó, la gente ha intentado engañar al sistema para situarse en posiciones altas. Webmaster han intentado de todo, desde llenar sus páginas con términos de búsqueda populares hasta comprar enlaces que lleven a sus vínculos para incrementar su rango de página.

Por eso, los motores de búsquedas tratan de filtrar este tipo de spam al perfeccionar sus algoritmos.

Noticias relacionadas