Optimización del rastreo y la indexación en buscadores

Post on 13-Feb-2017

5.175 views 2 download

Transcript of Optimización del rastreo y la indexación en buscadores

Optimización del rastreo y la indexación en buscadores

Javier Lorente | http://www.javierlorente.es/ | twitter.com/javier_lorente

¿Qué intenta ser esta presentación?

● Una GUÍA o conjunto de trucos y best practices para programadores y SEOs técnicos.

● El objetivo es aprovechar al máximo los recursos que Google nos dedica.

¿Qué es lo que NO pretende ser?

● Una guía avanzada sobre cómo funciona Google, cómo crawlea la deep-web, Information Retrieval...

Crawl• Rastreo

Index• Indexación

Rank• Posicionamiento

¿Cómo funciona un buscador?

Códigos de respuesta http

● 200: Todo bien.

● 3XX: (301, 302, 307...) redirecciones.

● 4XX: Error en la URL que se está atacando

● 5XX: Errores de Servidor, 500, 503...

URLs totalesURLs rastreables

URLs rastreadas

URLs indexables

URLs indexadasURL

s posicionadas

Pirámide con los tipos de URLs

URLs Totales● El concepto totales es muy relativo:

● Pueden ser "Todas las URLs" que tengan contenido y que únicamente se puedan sacar de una DB.

● Pero mucho mejor para el SEO llamar "totales" a todas las URLs que tienen un enlace en la web.

● Las "URLs totales" también podríamos decir que son las que antiguamente aparecían en el informe de GSC "rastreadas alguna vez“ pero sin el agregado histórico.

● Una 301 en principio no la consideramos “rastreable”

Antiguo informe “alguna vez…”

Informe actual Estado de Indexación

URLs rastreables

● El concepto "rastreables" también es relativo:● Que podrían llegar a rastrearse si se atacan.● Mejor para SEO; que están linkadas en la web

y no hay nada que impida rastrear su HTML:– Son URLs que devuelven códigos 2xx (Nunca 3xx o 4xx)– Su rastreo no está deshabilitado mediante robots.txt

Si en el HTML hay enlaces hacia URLs que devuelven error o redirecciones, los corregimos.

URLs rastreadas

● Para no variar… las “rastreadas" también son relativas y depende con el prisma que se mire.● Rastreadas… sí, pero ¿cuándo? ¿alguna

vez? ¿en el último año? ¿mes? ¿día? ¿hora?

La única forma empírica de saber las URLs rastreadas es accediendo a los LOGs

Google Search Console ofrece información muy pobre e inexacta (normalmente de menos)

URLs Indexables / Posicionables

● Este concepto NO es relativo. Se trata de un valor absoluto y finito. Son todas las URLs que:● Están enlazadas desde algún sitio (llegan los bots)● Devuelven un 200. Única y exclusivamente, 200.● Si tiene canonical, apunta hacia esa misma URL.

● Podemos obtener el total de URLs indexables de una web rastreándola entera con spiders como Screaming SEO Frog, por ejemplo.

URLs Indexadas

● Este concepto TAMPOCO es relativo. ● Lo podemos ver de forma aproximada con site:tld● De forma mucho más precisa en Search Console >

Estado de Indexación. Vemos el agregado anual.● Y mucho más preciso todavía, mediante sitemaps.

● El volumen de indexadas, a diferencia de todos los anteriores, depende de cada buscador.

URLs Posicionadas

● De nuevo, concepto relativo. ¿cuándo?● Posicionadas = con tráfico SEO en el último ¿mes?

● Las podemos medir con herramientas de Analítica Web (BootBoard de Ikhuerta)

● Mucho mejor si las medimos mediante Logs

URLs totalesURLs rastreables

URLs rastreadas

URLs indexables

URLs indexadasURL

s posicionadas

Recapitulemos

En una web “perfecta” / utópica…

URLs totalesURLs rastreablesURLs rastreadasURLs indexablesURLs indexadasURLs posicionadas

En una web real, intentamos…

URLs totalesURLs rastreables

URLs rastreadas

URLs indexables

URLs indexadas

URLs posicionadas

Optimización básica

● Todas las URLs de un servidor deben devolver 200, 301 ó 404. Nada más, el resto = error.

● Todos los links presentes en una web, deben apuntar a un http 200. Todos, tampoco a 301.

● No debe haber 2 o más URLs con un alto % de contenido demasiado parecido ni thin content.

● Todas las URLs con canonical hacia si mismas.● Los trackins, etc. Mejor tras una # antes de la ?

Optimización Intermedia

● Probamos diferentes configuraciones de rastreo● Todo abierto, paginaciones con rel prev/next…● Nofollow para enlaces internos (crawl sculpting)● ¿Incluir meta noindex en algunos contenidos?● URLs o directorios capados mediante robots.txt● Mover contenidos a otros niveles de profundidad…

Probar > Medir > Probar > Volver a medir.. etc

Puntos fuertes de cada herramienta

● Deepcrawl● Posibilidad de acceder a PRE / DNS propias.

● OnPage.org● Análisis de Palabras clave.

● Botify.com● Concepto compliant vs no compliant vs activas.

● Sistrix (optimizer)● Buscador de código fuente.

La clave de la optimización avanzada

¿Cómo analizamos los logs?

● A manubrio, con la consola de comandos.● Con Google Analytics y el código de Lino.● Con herramientas como Kibana, Splunk, etc● Con herramientas en la nube como Botify Log

Analyzer, donde cada día subes tus logs.

De las 4 herramientas de optimización de rastreo vistas anteriormente, Botify Log Analyzer es la única que analiza logs para presentar informes de todo lo visto hoy.

¿Qué echo en falta?

Una herramienta que no requiera re rastrear todo cada vez que plantee un cambio de estructura. La posibilidad de simular niveles de profundidad medios con un robots.txt virtual, etc.

También veo demasiada reticencia en muchoa gente a la hora de eliminar (o capar con robots) el contenido sin tráfico SEO

Es mejor no tener nada que URLs rastreadas y no posicionadas.

GRACIAS

@javier_lorente