Método para la extracción masiva de canales de sindicación

Manuel Blázquez Ochando

Resumen


Uno de los problemas para la investigación de la producción informativa de canales de sindicación es contar con la cantidad de fuentes suficientes y del mismo dominio, temática o área de conocimiento, para componer una muestra. Esto se debe a la dispersión de las fuentes de información en la Web y por otra parte a la dificultad del investigador para conocer todos los recursos disponibles. A estos problemas se suma la dificultad de extraer y localizar los enlaces de los canales de sindicación en cada recurso o sitio web pertinente que se descubre. En este artículo se aborda el método para extraer los canales de sindicación mediante la composición de semillas para el análisis, con programas web crawler, identificando la configuración y posterior preparación.

Palabras clave


Minería de datos; Extracción de datos; Web crawler; Sindicación de contenidos; RSS; Canales de sindicación

Texto completo:

PDF