La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

ANTIPLAGIUM Experimentación Numérica. Integrantes Piere Cordero Patricia Natividad Gustavo Barrenechea Renzo Gómez Kim Alvarado.

Presentaciones similares


Presentación del tema: "ANTIPLAGIUM Experimentación Numérica. Integrantes Piere Cordero Patricia Natividad Gustavo Barrenechea Renzo Gómez Kim Alvarado."— Transcripción de la presentación:

1 ANTIPLAGIUM Experimentación Numérica

2 Integrantes Piere Cordero Patricia Natividad Gustavo Barrenechea Renzo Gómez Kim Alvarado

3 Agenda 1. Objetivo de la Experimentación 2. Selección del Método Experimental 3. Hipótesis 4. Ejecución del Experimento 5. Resultados 6. Conclusiones

4 Objetivo de la Experimentación

5 Objetivo Encontrar el algoritmo más eficiente para la detección de plagio de documentos. Comparar dos algoritmos según tiempo de ejecución y porcentaje de plagio.

6 Algoritmos a Comparar Secuencia de Maximales Lenguaje Natural

7 Factores Experimentales Los factores elegidos para el análisis son: El número de comparaciones entre documentos. El tamaño de los documentos

8 Variables de Respuesta El porcentaje de plagio de un documento contra los documentos de la base de datos. El tiempo de ejecución del algoritmo de detección de plagio.

9 Selección del Método Experimental

10 Método Experimental Se utilizará el estadístico T-Student. Análisis con la distribución Normal. Análisis de las medias con desviación estándar conocidas

11 Criterios de evaluación Media muestral µ Varianza muestral δ 2

12 T-student Sirve para comparar medias de muestras independientes. Su objetivo es demostrar por hipótesis una muestra es mejor que otra. Trabaja con la media y la varianza. Requiere saber si las varianzas son iguales o no.

13 T-student Alpha: Grado de confianza o de certeza. Utilizaremos 95% como grado de certeza. C: Punto crítico que separa la región a rechazar y la región de aceptación.

14 T-student Sean: Si: Varianza muestral del algoritmo i g.l.: Grados de libertad (n1+n2-2) y la fórmula para hallar el estadístico t:

15 Hipótesis

16 Hipótesis para el tiempo de ejecución H0: X1 < X2 : "Secuencia de Maximales requiere un mayor tiempo de ejecución que Lenguaje Natural H1: X1 >= X2: " Lenguaje Natural requiere un mayor tiempo de ejecución que Secuencia Maximales Siendo: X1: Media de tiempo de ejecución de Lenguaje Natural. X2: Media de tiempo de ejecución de Secuencia Maximales.

17 Hipótesis para el porcentaje de plagio H0: X1 < X2 : "Secuencia de Maximales detecta mayor porcentaje de plagio que Lenguaje Natural H1: X1 >= X2: " Lenguaje Natural detecta mayor porcentaje de plagio que Secuencia Maximales Siendo: X1: Media de porcentaje de Lenguaje Natural. X2: Media de porcentaje de plagio de Secuencia Maximales.

18 Ejecución del Experimento

19 Muestra de ejecución Datos Utilizados. Ejecución del algoritmo Secuencia Maximales. Ejecución del algoritmo Lenguaje Natural.

20 Datos utilizados 50 documentos de extensión.txt que serán comparados cada uno contra la los 49 restantes.

21 Ejecución del Experimento

22 Para los tiempo de ejecución Secuencia MaximalesLenguaje Natural Item Nro. Documento a comparar contra la BDTiempo proceso (ms) 1algoritmos.TXT19262686 2Arte evaluacion.txt1592186 3Articulo PLN V0.txt448283617 4Articulo PLN V1.txt351361560 5Articulo SRI internet.txt82660265 6Articulo SRI REVISTA.txt7943366 7Articulo SRI V1.txt767943853 8Articulo SRI V2.txt924712231 9Articulo SRI V3.txt339252980 10Articulo SRI.txt520883853 11Biometria wikipedia.txt14351297 12Biometria.TXT14066328 13CLEI 2007.txt462172855 14Compresion internet.txt38987608 15CompresionV0.txt24530468 16CompresionV1.txt24048920 17CompresionV2.txt45116967 18CompresionV3.txt782212278 19CompresionV4.txt1076783370 20CompresionV5.txt869352558 21Cuadro de Mando Integral.TXT6938531 22Desenredadndo la madeja V1.txt1829265 23Desenredadndo la madeja V2.txt42431716 24Diagnostico tuberculosis Procesamiento.TXT32074920 25Espacio vectorial V0.txt563751263

23 Para los tiempo de ejecución Secuencia MaximalesLenguaje Natural Item Nro.Documento a comparar contra la BDTiempo proceso (ms) 26Espacio vectorial V1.txt14266968 27Espacio vectorial V2.txt31406702 28Espacio vectorial V3.txt17531171 29Espacio vectorial V4.txt14485156 30Espacio vectorial V6.txt16015702 31Evaluacion VAN RIJSBERGEN.txt12594686 32Formato articulos CLEI.txt712594 33Informe final SRI.txt1389692496 34 introducci¢n a los sistemas de recuperaci¢n de informaci¢n.txt249066162 35Motor de B£squeda 1.TXT501721872 36Motores de busqueda 2.TXT34891749 37Reconocimiento de voz 1.TXT4187796 38Reconocimiento de voz 2.TXT32191653 39Reconocimiento de voz wikipedia.txt31164234 40Reconocimiento de voz.TXT163591295 41Recuperacion de informacion.txt248124290 42SegmentacionV1.txt587961295 43SegmentacionV2.txt524221326 44SegmentacionV3.txt420631202 45SegmentacionV4.txt565781358 46SegmentacionV5.txt623751606 47SegmentacionV6.txt782192777 48SegmentacionV7.txt942192667 49SegmentacionV8.txt979382621 50Sistema Experto.TXT452341497

24 Comparación de tiempo de ejecución

25 Para el porcentaje de detección de plagio Secuencia Maximales Lenguaje Natural Item Nro.Documento a comparar contra la BD Porcentaje de plagio (%) 1algoritmos.TXT415 2Arte evaluacion.txt7191 3Articulo PLN V0.txt7053 4Articulo PLN V1.txt10097 5Articulo SRI internet.txt10031 6Articulo SRI REVISTA.txt5586 7Articulo SRI V1.txt9892 8Articulo SRI V2.txt9996 9Articulo SRI V3.txt10097 10Articulo SRI.txt9697 11Biometria wikipedia.txt418 12Biometria.TXT396 13CLEI 2007.txt537 14Compresion internet.txt396 15CompresionV0.txt100 16CompresionV1.txt100 17CompresionV2.txt100 18CompresionV3.txt10097 19CompresionV4.txt8166 20CompresionV5.txt9885 21Cuadro de Mando Integral.TXT340 22Desenredadndo la madeja V1.txt460 23Desenredadndo la madeja V2.txt348 24 Diagnostico tuberculosis Procesamiento.TXT315 25Espacio vectorial V0.txt564

26 Para el porcentaje de detección de plagio Secuencia MaximalesLenguaje Natural Item Nro.Documento a comparar contra la BD Porcentaje de plagio (%) 26Espacio vectorial V1.txt6865 27Espacio vectorial V2.txt6822 28Espacio vectorial V3.txt9672 29Espacio vectorial V4.txt7534 30Espacio vectorial V6.txt6033 31Evaluacion VAN RIJSBERGEN.txt130 32Formato articulos CLEI.txt230 33Informe final SRI.txt444 34 introducci¢n a los sistemas de recuperaci¢n de informaci¢n.txt9657 35Motor de B£squeda 1.TXT6022 36Motores de busqueda 2.TXT403 37Reconocimiento de voz 1.TXT6986 38Reconocimiento de voz 2.TXT9011 39Reconocimiento de voz wikipedia.txt560 40Reconocimiento de voz.TXT3971 41Recuperacion de informacion.txt9872 42SegmentacionV1.txt9991 43SegmentacionV2.txt96 44SegmentacionV3.txt9897 45SegmentacionV4.txt9897 46SegmentacionV5.txt9694 47SegmentacionV6.txt9992 48SegmentacionV7.txt10096 49SegmentacionV8.txt9995 50Sistema Experto.TXT381

27 Comparación de porcentaje de detección de plagio

28 Resultados

29 Resultados para el tiempo de ejecución SECUENCIA MAXIMALESLENGUAJE NATURALgl n 50 98 Media 41165.04 1566.32 S 32052.89694 1310.19272 t = -8.7274 Rechazo Ho Si t > 1.9845 "Como t = -8.7274 < 1.9845 se acepta Ho"

30 Resultados para porcentaje de plagio SECUENCIA MAXIMALESLENGUAJE NATURALgl n 50 98 Media 72 52.96 S 27.34436479 40.8870819 t = -2.7371 Rechazo Ho Si t > 1.9845 "Como t = -2.731 < 1.9845 se acepta Ho"

31 Conclusiones

32 Se acepta la Hipótesis nula para el tiempo de ejecución, es decir el algoritmo de Secuencias Maximales requiere de un mayor tiempo de ejecución que el algoritmo Lenguaje Natural Se acepta la Hipótesis nula para el porcentaje de detección de plagio, es decir el algoritmo de Secuencias Maximales detecta mayor porcentaje de plagio frente al algoritmo de Lenguaje Natural.

33 Bibliografía

34 Estadística Descriptiva e Inferencial Córdova Zamora, Manuel (2003)


Descargar ppt "ANTIPLAGIUM Experimentación Numérica. Integrantes Piere Cordero Patricia Natividad Gustavo Barrenechea Renzo Gómez Kim Alvarado."

Presentaciones similares


Anuncios Google