Sistema de Detección de Plagio Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos 20050373.

Slides:



Advertisements
Presentaciones similares
Jacqueline Chávez Cuzcano
Advertisements

INTEGRANTES Aguilar Pastor, Sara Blancas Tunqui, Alicia
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS (MICROEMPRESAS, resultados provisionales) 29 de julio de 2004.
Configuración de Control
Sección 6 Ordenes de Pago
Sección 4 Gastos Generales
Tema 6. Evaluación de SRIs
Matemática Financiera 1º ADEUtilización de la Función TIR en el cálculo del tanto efectivo 1 de 37 Cálculo de tantos efectivos Utilización de la función.
ELASTICIDAD Y RESISTENCIA DE MATERIALES
DETERMINANTES.
Teoría de Sistemas Operativos Memoria
Vitrocar, S.A. de C.V. Vitrocar.
IBD Clase 7.
CRIPTOGRAFÍA MEDIANTE MATRICES INVERTIBLES
MUESTREO (NAGA´s) BOLETÍN 5020
Procesamiento de cadenas
Unidad de competencia II Estadística descriptiva:
Unidad de competencia II Estadística descriptiva:
Evaluaciones de Sistemas de Administración de la Seguridad SMSA
BASE DE DATOS Primeros pasos
UPC Tema: ESPACIO VECTORIAL Rn
Estadística Administrativa I
APLICAWEB SERVICIOS LEGALES DE PUERTO RICO
4. Mantenimiento de los espacios de trabajo. Manual de formación 2 4. Modificación de los espacios de trabajo 4.1 Introducción……………………………….……..……..…pág.
Coincidencia de imagen a través de cadena de triángulos
Tema 1.- Aritmética. 1.-Usar el algoritmo de Euclides para calcular el máximo común divisor de a y b y expresarlo en función de a y b para: a) a= 56,
MATRIZ DE CHEQUEO DE PARIDAD
DOM ( Document Object Model) Prof. Franklin Cedeño.
Introducción a los Números Fraccionarios
1) Abrir archivos: Si necesitamos abrir varios archivos, podemos usar las teclas “CTRL” + “A” (o “CTRL” + “F12”) para acceder directamente al cuadro de.
Mejoras a la Cláusula GROUP BY
Las estructuras de arreglos fueron usadas en las primeras computadoras digitales, cuando la programación se hacía todavía en lenguaje máquina, para tablas.
INTELIGENCIA ARTIFICIAL
Capítulo: 9 Inventarios.
SISTEMA DE NACIMIENTOS MANUAL DEL USUARIO. El objetivo del presente manual es servir de guía al usuario final para interactuar con el Sistema, permitiéndole.
TEORÍA DE LA DECISIÓN BAJO INCERTIDUMBRE
C REACIÓN DE B LOGS EN ESPOL Profesora: Eva María Mera Intriago Escuela Superior Politécnica del Litoral Impulsando la sociedad del conocimiento Instituto.
La minimización de los costes
Introducción a los protocolos de enrutamiento dinámico
Investigación algorítmica
3. Métodos de resolución Ecuaciones algebraicas lineales
Algoritmos Aleatorizados
1 Para editar los resultados obtenidos usamos File -> Edit.
Facultad de Ciencia Política y Relaciones Internacionales Dirección de Concursos Proyecto: Informatización de la Gestión de Concursos Sistema CONDOR.
Índice Sesión I Bloque I (09:30 a 10:30 Horas) Configuración Inicial
Investigación en acción
Tema 3. Optimización de Código
Agrupamiento de relaciones no lineales entre expresiones de genes
EL ESTADO DEL ARTE Hace referencia al nivel más alto de desarrollo conseguido en un momento determinado sobre cualquier aparato, técnica o campo científico.
Curso Administrativo OTEC Unidad II : Configuración de Cursos Curso creado por : Libro de Clases Electrónico (LCE) ACTUALIZADO
SUCESIONES Y PROGRESIONES.
Slide 7-1 Copyright © 2003 Pearson Education, Inc. Figure: Estructuras de datos.
Algoritmos de ordenación
 2003 Prentice Hall, Inc. All rights reserved. 1 Capítulo 6: Clases y Abstracción de Datos Índice del capítulo 6.1 Introducción 6.2 Estructuras 6.3 Clases.
Estadística Administrativa I
Antiplagium. Integrantes  Piere Cordero  Patricia Natividad  Gustavo Barrenechea  Renzo Gómez  Kim Alvarado.
Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní César Ríos Gárate Carolina Balbín Ávalos.
Especificación de Consultas M
Universidad Domingo Savio Facultad de Ciencias y Tecnología de la Información Carrera Ingeniería en Redes y Telecomunicaciones Materia : Programación I.
Estructura de Datos II Equipo 4 Equipo 7 Acosta Montiel Miguel A.
APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (I)
Multiplicación de matrices
Aprendizaje No Supervisado y Redes de Kohonen
COMPLETA LOS ESPACIOS CON LA PALABRA ADECUADA 1.LOS _______________________ SE DEFINEN COMO LA _________________LÓGICA DE _________PARA SOLUCIONAR UN.
Pixelación de imágenes avanzada usando el algoritmo slic
Capacitación INIA Portal Web INIA Agosto Newsletter Creación de nuevas newsletter con interfaz de usuarios Edición de newsletter desde interfaz.
AFM – Web File Manager Versión 5. Novedades técnicas – Forma de Implementación Siguiendo última tecnología de Microsoft: Framework.NET 3.5 Implementación.

ARRAYS Y COLECCIONES DE DATOS. ARRAYS Arrays – Matriz – Vector Elemento del lenguaje que nos permite agrupar un conjunto de valores del mismo tipo, y.
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ Facultad de Ingeniería de Sistemas Computacionales Programa de Lic. en Informática Educativa Computación.
Transcripción de la presentación:

Sistema de Detección de Plagio Plagiatest-T

Integrantes Grupo 4 Lizzett Seminario Huamaní César Ríos Gárate Carolina Balbín Ávalos Sheyla Díaz Muguruza Víctor Chávez Lazarte

Plagiates-T Plagiates-T Sistema de Detección de Plagio que te permite realizar comparaciones entre documentos detectando el porcentaje de similitud entre éstos.

Características

Seguridad Permite creación de usuarios de acuerdo a un determinado rol Cada rol tiene asignado un conjunto de permisos los cuales tendrán acceso a las funcionalidades del Sistema. El acceso de los usuarios se realiza mediante un usuario y contraseña. Permite recuperación de contraseñas, con envío de mail a la cuenta correspondiente del usuario.

Seguridad

Gestión de Documentos

Detección

Auditoría

Reportes

¿Cómo se aplica al problema? Preprocesamiento: Para cada palabra en el documento a procesar se crea un nodo en el cual se almacena el identificador de la palabra y 2 arreglos; el primero de ellos almacenará una lista con las posiciones en las cuales se encuentra la palabra en el documento y el segundo almacenará una lista con punteros a los nodos de las palabras en las posiciones siguientes a la analizada.

¿Cómo se aplica al problema? Algoritmo: Se recorren frecuencia definido. paralelamente la lista de nodos de los documentos a comparar de modo que se detecten secuencias comunes, se considerarán las secuencias encontradas cuyo tamaño supere al umbral de frecuencia Adicionalmente al hallar la secuencia en cada caso, se tendrá en consideración el umbral de salto, el cual representa la tolerancia que se tiene al realizar la comparación y por ende la búsqueda de las secuencias comunes.

¿Cómo se aplica al problema? 1era Fase: Construcción de la estructura Hash que representa la información que presentan los documentos En la casa roja de la esquina En la puerta de la casa En la casa de la plaza Doc 2Doc 3Doc 1 Buscamos las palabras que aparecen repetidas por documento y le asignamos un código HASH por cada palabra diferente en cada documento

¿Cómo se aplica al problema? Nodo Palabra Identificador de palabra Diccionario de Listas enlazadas Identificador de la palabra Identificador del documento Lista de las posiciones que ocupa esa palabra en el documento Lista de punteros a los nodos de las palabras siguientes según las posiciones de dicha palabra

¿Cómo se aplica al problema? 2da Fase: Almacenamiento de las secuencias maximales en la estructura que se muestra a continuación Atributo SumaIndex Se ordenan de acuerdo a la longitud de la secuencia Maximal y al atributo SumaIndex Longitud de la Secuencia Maximal Cada unidad describe a una Secuencia Maximal

Secuencias Maximales VENTAJASDESVENTAJAS Este algoritmo nos permite realizar la comparación entre varios documentos. La clasificación y longitud de las secuencias maximales nos ayudan a emitir un porcentaje de plagio. Si en un texto que ha sido copiado se invierten el orden de un conjunto de palabras el algoritmo usado no los reconocerá como plagio ya que no cumplirá con el orden de la secuencia.

Algoritmo 2: Winnowing El algoritmo presentado es capaz de detectar similitudes entre documentos a nivel de fragmentos. Un aspecto importante es establecer el criterio de selección de estos fragmentos. Ejemplo: por párrafos o por oraciones.

¿Cómo se aplica al problema? Preprocesamiento: A cada fragmento del documento se le aplica una función Hash, la cual nos dará un identificador único por cada uno de ellos. Se escogen los valores hash más significativos del documento. A los valores hash escogidos en el paso anterior se les almacena mediante una lista inversa, la cual nos dará las posiciones en las cuales se repite el mismo fragmento dentro del documento.

¿Cómo se aplica al problema? Cada fracaso supone un capítulo más en la historia de nuestra vida y una lección que nos ayuda a crecer. No te dejes desanimar por los fracasos. Aprende de ellos, y sigue adelante. Cada fracaso constituye un capítulo más en nuestra vida y una lección que nos ayuda a madurar y a crecer. Aprende de ellos, y sigue. Por los fracasos no te dejes desanimar. Documento1Documento2

Paso 1 : Seleccionamos los fragmentos Cada fracaso es un capítulo en la historia de nuestra vida. No te dejes desanimar por los fracasos. Aprende de ellos, y sigue adelante. Cada fracaso constituye un capítulo más en nuestra vida y una lección para madurar. Aprende de ellos, y sigue. Por los fracasos no te dejes desanimar. Documento1Documento2 ¿Cómo se aplica al problema?

Cada fracaso es un capítulo en la historia de nuestra vida. No te dejes desanimar por los fracasos. Aprende de ellos, y sigue adelante. Cada fracaso constituye un capítulo más en nuestra vida y una lección para madurar. Aprende de ellos, y sigue. Por los fracasos no te dejes desanimar. Paso 2 : Eliminamos artículos por cada fragmento y signos de puntuación Documento1Documento2

Cada fracaso es un capítulo en historia de nuestra vida No te dejes desanimar por fracasos Aprende de ellos y sigue adelante Cada fracaso constituye un capítulo más en nuestra vida y una lección para madurar Aprende de ellos y sigue Por fracasos no te dejes desanimar Paso 3 : Ordenamos las palabras alfabéticamente dentro de cada fragmento Doc1 Doc2 Cada capítulo de en es fracaso historia nuestra vida un dejes desanimar fracasos No por te adelante Aprende de ellos sigue y Cada capítulo constituye en fracaso lección madurar más nuestra para un una vida y Aprende de ellos sigue y dejes desanimar fracasos no Por te ¿Cómo se aplica al problema?

Paso 4 : Aplicamos la función hash a cada fragmento previamente ordenado y obtenemos un identificador por cada uno de ellos Doc1 Doc2 Cada capítulo de en es fracaso historia nuestra vida un dejes desanimar fracasos No por te adelante Aprende de ellos sigue y Cada capítulo constituye en fracaso lección madurar más nuestra para un una vida y Aprende de ellos sigue y dejes desanimar fracasos no Por te = ¿Cómo se aplica al problema?

Paso 5 Paso 5 : Escoger los valores hash más significativos de cada documento y para esto tener en cuenta el tamaño de la ventana. En el ejemplo, la ventana tendrá valor de 4 Documento1Documento … … W= Más significativos: W= Más significativos:

¿Cómo se aplica al problema? Algoritmo: Para cada par de documentos se comparan los códigos hash almacenados en la base de datos para cada uno de ellos y se cuenta el número total de coincidencias. Con este número se procede a hallar el porcentaje de similitud a través la división con el número total de códigos hash.

Winnowing - FingerPrint VENTAJASDESVENTAJAS La principal virtud de este algoritmo es la sencillez de su implementación. La detección se realiza de forma rápida. Para la comparación no sería necesario almacenar todo el documento ya que lo que se compara son los identificadores obtenidos en el preprocesamiento. Si en un texto se cambian u omiten alguna de las palabras dentro de cada fragmento el algoritmo no lo detectará como plagio ya que para cada uno de los fragmentos seleccionados la función hash dará un valor diferente.

Winnowing - Mejoras Se puede almacenar el tamaño de los fragmentos antes de ser convertidos con la función hash para obtener un mejor alcance del porcentaje de similitud al final de la comparación. Se puede ordenar las palabras dentro de los fragmentos antes de que se les aplique la función hash, con esto el algoritmo considerará los casos en que se modifique el orden de las palabras.

Algoritmo 3: Modelo del Espacio Vectorial – Similitud entre vectores Este algoritmo usa como base la teoría concerniente a los espacios vectoriales para encontrar similitudes entre los fragmentos de los documentos analizados. En este caso utilizaremos como criterio de comparación la fórmula de la función coseno para dos vectores.

Algoritmo 3: Modelo del Espacio Vectorial – Similitud entre vectores Preprocesamiento: El algoritmo arma una matriz para cada documento en la cual cada fila representa un vector en la que cada componente representa la frecuencia con la que esa palabra se repite en el fragmento escogido.

¿Cómo se aplica al problema? Algoritmo: Se contrasta fila por fila en cada par de matrices (las cuales representan a cada par de documentos) de modo que para cada par de vectores representados en dichas filas se aplica la fórmula del coseno para dos vectores. Con este resultado usamos el criterio de que si el valor obtenido mediante la formula es cercano a uno podemos considerar que se tratan de fragmentos similares en caso contrario no lo serán. Usando la cantidad de fragmentos similares podemos determinar el porcentaje de similitud total entre los documento comparados.

Modelo del Espacio Vectorial VENTAJASDESVENTAJAS Si en el documento se cambian las posiciones de las palabras este algoritmo podrá detectar el plagio ya que se basa en la obtención de la frecuencia de aparición de cada palabra y no en la posición en que aparece. Con este algoritmo no es posible poder reconocer exactamente los fragmentos en los cuales se incurrió en plagio, ya que este solo almacena la cantidad de veces que se repite cada palabra.

Cada fracaso supone un capítulo más en la historia de nuestra vida y una lección que nos ayuda a crecer. No te dejes desanimar por los fracasos. Aprende de ellos, y sigue adelante. Cada fracaso constituye un capítulo más en nuestra vida y una lección que nos ayuda a madurar y a crecer. No te dejes desanimar por los fracasos. Aprende de ellos, y sigue adelante. Documento1Documento2 Modelo del Espacio Vectorial

Paso 1 : Fragmentamos el documento. Cada fracaso es un capítulo en la historia de nuestra vida. No te dejes desanimar por los fracasos. Aprende de ellos, y sigue adelante. Cada fracaso constituye un capítulo en nuestra vida y una lección. No te dejes desanimar por los fracasos. Aprende de ellos, y sigue adelante. Documento1Documento2 Modelo del Espacio Vectorial

Paso 2 : Almacenamos los términos de la partición en una matriz Cada fracaso es un capítulo en la historia de nuestra vida constituye y una lección Frag1 D1 Cada fila es una partición de cada documento Cada columna representa un término Cada fracaso es un capítulo en la historia de nuestra vida. No te dejes desanimar por los fracasos. Aprende de ellos, y sigue adelante. Cada fracaso constituye un capítulo en nuestra vida y una lección. No te dejes desanimar por los fracasos. Aprende de ellos, y sigue adelante. Doc2 Doc1 Modelo del Espacio Vectorial Frag1 D2

Paso 3 : Almacenamos los términos de la partición en una matriz Cada fracaso es un capítulo en la historia de nuestra vida constituye y una lección Cada fracaso es un capítulo en la historia de nuestra vida. No te dejes desanimar por los fracasos. Aprende de ellos, y sigue adelante. Cada fracaso constituye un capítulo en nuestra vida y una lección. No te dejes desanimar por los fracasos. Aprende de ellos, y sigue adelante. Documento2 Documento1 Modelo del Espacio Vectorial Frag1 D1 Frag1 D2

Paso 4 : Aplicamos la función del Coseno Equivale al producto escalar de dos vectores de documentos (1 y 2) y luego se procede a dividirlo por el producto de la raíz cuadrada del sumatorio de los componentes del vector 1 con la raíz cuadrada del sumatorio de los componentes del vector 2. Modelo del Espacio Vectorial

Modelo del Espacio Vectorial- Adaptación 11 5 Identificador de la palabra Columna Cantidad de ocurrencias de la palabra PALABRA * Nos ayudaría a evitar la redundancia

Modelo del Espacio Vectorial Cada fracaso es un capítulo en la historia de nuestra vida Cada fracaso constituye un capítulo en nuestra vida y una lección Fragmento 1- Documento1 Fragmento 1- Documento2

Modelo del Espacio Vectorial Si los identificadores son iguales se procede a agregarlos a la sumatoria normalmente. Si hay identificadores en un fragmento y no en el otro se procede a agregar solo en el denominador, según la componente que sea. * Es útil para archivos muy extensos.

Modelo del Espacio Vectorial Cada fracaso es un capítulo en la historia de nuestra vida Cada fracaso constituye un capítulo en nuestra vida y una lección Fragmento 1- Documento1 Fragmento 1- Documento2 Son iguales Componente aislada

Conclusiones De los algoritmos presentados como alternativas a la búsqueda de similitudes de texto (elementos de diferentes documentos) podemos concluir que

Referencias: GARCIA BLASCO, Sandra 2009 Extracción de Secuencias Maximales de una colección de Textos – Ingeniería Técnica de Informática y Gestión- Universidad Politécnica de Valencia ALVA MANCHEGO, Fernando 2010Sistema de Información de Detección de Plagio en documentos digitales usando el método Document Fingerprinting- Tesis para obtener el título en Ingeniería informática. Pontificia Universidad Católica del Perú WIKIPEDIA Modelo del Espacio Vectorial 2010http://es.wikipedia.org/wiki/Modelo_de_espacio_vectorialhttp://es.wikipedia.org/wiki/Modelo_de_espacio_vectorial