Documentos duplicados y casi duplicados en el Web: detección con técnicas de hashing borroso

Carlos G. Figuerola; Raquel Gómez Díaz; José Luis Alonso Berrocal; Angel Zazo Rodríguez

doi:10.54886/scire.v17i1.3895

Documentos duplicados y casi duplicados en el Web: detección con técnicas de hashing borroso

Autores

Carlos G. Figuerola Departamento de Informática y Automática, Facultad de Traducción y Documentación, Universidad de Salamanca, España
Raquel Gómez Díaz
José Luis Alonso Berrocal
Angel Zazo Rodríguez

DOI:

https://doi.org/10.54886/scire.v17i1.3895

Palavras-chave:

World Wide Web, Detección de duplicados, Fuzzy hashing

Resumo

La detección de los duplicados en la web es importante porque permite aligerar las bases de datos documentales y mejorar la eficiencia de los motores de búsqueda y la precisión de los análisis cibermétricos y los estudios de minería web, etc. Sin embargo, las técnicas estándar de hashing aplicadas habitualmente sólo detectan duplicados exactos, a nivel de bits, mientras que muchos de los duplicados que encontramos en el mundo real no son exactamente iguales, por cambios en el formato, las cabeceras, las etiquetas META o las plantillas de visualización. La solución obvia es comparar las conversiones a texto plano de todos esos formatos, pero esas conversiones nunca son idénticas, debido al diferente tratamiento que hacen los conversores de los diversos elementos de formato. Se presenta la posibilidad de utilizar fuzzyhashing para producir huellas digitales de dos documentos que se pueden comparar para proporcionar una estimación de la cercanía o distancia entre los dos documentos. Basado en el concepto de rollinghash, el fuzzy hashing se utiliza con éxito en tareas de seguridad informática como identificación de programas maliciosos, correo basura, detección de virus, etc. Hemos añadido capacidades de fuzzy-hashing a un crawler y hemos llevado a cabo diversas pruebas que nos han permitido estimar umbrales útiles de similitud o parecido entre documentos, así como obtener datos interesantes sobre la cantidad y distribución de documentos duplicados en servidores web.

Downloads

Não há dados estatísticos.

Biografia do Autor

Carlos G. Figuerola, Departamento de Informática y Automática, Facultad de Traducción y Documentación, Universidad de Salamanca, España

Es profesor del Grado en Documentación y del Master en Sisyemas de Información Digital de la Universidad de Salamanca. Su docencia se centra en las técnicas informáticas base de las Ciencias de la Información y Documentación. Además es miembro del grupo de investigación E-lectra, grupo reconocido de la Universidad de Salamanca, cuyos temas de interés son la recuperación de información y la cibermetría: implementación de conocimiento lingüístico en sistemas de recuperación, procesamiento de lenguaje natural, recuperación de información multilingüe, clasificación automática, recuperación robusta, recuperación interactiva, recuperación de información en el web, cibermetría, etc.

Downloads

PDF (Español (España))

Publicado

2011-12-30

Como Citar

G. Figuerola, C., Gómez Díaz, R., Alonso Berrocal, J. L., & Zazo Rodríguez, A. (2011). Documentos duplicados y casi duplicados en el Web: detección con técnicas de hashing borroso. Scire: Representación Y organización Del Conocimiento, 17(1), 49–54. https://doi.org/10.54886/scire.v17i1.3895

Baixar Citação

Edição

Vol.17, N.1 (2011)

Seção

Artículos

Licença

Copyright (c) 2011 Los autores y autoras conservan sus derechos de autor, aunque ceden a la revista de forma no exclusiva los derechos de explotación (reproducción, distribución, comunicación pública y transformación) y garantizan a esta el derecho de primera publicación de su trabajo, el cual estará simultáneamente sujeto a la licencia CC BY-NC-ND. Los autores aceptan la responsabilidad legal de cumplir plenamente con los códigos éticos y leyes apropiadas, y de obtener todos los permisos de derecho de autor debidos. Se permite y se anima a los autores y autoras a difundir electrónicamente la versión editorial (versión publicada por la editorial) en la página web personal del autor y en el repositorio de la institución a la que pertenece.

Este trabalho está licenciado sob uma licença Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

© 1996- . Los autores y autoras conservan sus derechos de autor, aunque ceden a la revista de forma no exclusiva los derechos de explotación (reproducción, distribución, comunicación pública y transformación) y garantizan a esta el derecho de primera publicación de su trabajo, el cual estará simultáneamente sujeto a la licencia CC BY-NC-ND. Los autores aceptan la responsabilidad legal de cumplir plenamente con los códigos éticos y leyes apropiadas, y de obtener todos los permisos de derecho de autor debidos. Se permite y se anima a los autores y autoras a difundir electrónicamente la versión editorial (versión publicada por la editorial) en la página web personal del autor y en el repositorio de la institución a la que pertenece.

Documentos duplicados y casi duplicados en el Web: detección con técnicas de hashing borroso

Autores

DOI:

Palavras-chave:

Resumo

Downloads

Biografia do Autor

Carlos G. Figuerola, Departamento de Informática y Automática, Facultad de Traducción y Documentación, Universidad de Salamanca, España

Downloads

Publicado

Como Citar

Edição

Seção

Licença

Artigos mais lidos pelo mesmo(s) autor(es)

Edição Atual

Informações

Idioma

Navegar