Experimentación Numérica

Slides:



Advertisements
Presentaciones similares
MOVIMIENTO JOVENES DE LA CALLE CIUDAD DE GUATEMALA chi siamo quienes-somos qui sommes-nous who we are attività actividades activités activities scuola.
Advertisements

SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR
1 Datos sobre webloggers Datos extraidos de la encuesta a webloggers disponibles en la web de los autores.
Respuestas Jack y la mata de frijoles /60. 1.vivía 2.estaba 3.estaba 4.era 5.llamaba 6.gustaba 7.comía 8.dormía 9.gustaba 10.llamó 11.dijo 12.había 13.quería.
Los números del 0 al cero uno dos tres cuatro cinco 6 7 8
50 formas de decir “Te Amo”.
1 ESTUDIO DE OPINIÓN PÚBLICA: LA SEXUALIDAD DE LOS CHILENOS ABRIL 2006 ¿Informados o desinformados? Principal fuente de información Las enseñanzas durante.
Universidad San Martín de Porres
1 PRINCIPALES INDICADORES DEL DESARROLLO DE LA SOCIEDAD DE LA INFORMACIÓN EN GALICIA CUADRO DE MANDO Apartado: Empresas Septiembre de 2004.
1 LA UTILIZACION DE LAS TIC EN LAS MICROEMPRESAS GALLEGAS. AÑO mayo 2005.
1 LA UTILIZACION DE LAS TIC EN LAS PYMES GALLEGAS AÑO de Junio de 2005.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN EL COMERCIO GALLEGO (Resumen COMERCIO AL DETALLE) Noviembre de 2004.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS ( Resumen PYMES ) Noviembre de 2004.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS (MICROEMPRESAS, resultados provisionales) 29 de julio de 2004.
AYUDA A LA FUNCIÓN DOCENTE Internet
TEMA 5.- 1ª PARTE. EL A.O. Y SUS APLICACIONES
TEMA 2 MÚLTIPLOS Y DIVISORES
02- Plan Organización Docente v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
02- PLAN DOCENTE Febrero 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
01- OFERTA FORMATIVA v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
Aladdín-respuestas 1.Vivía 2.Era 3.Amaba 4.Quería 5.Gustaban 6.Se sentía 7.Salía 8.Tenía 9.Decidió 10.escapó 11. Se vistió 12. Conoció 13. Vio 14. Pensó
Respuestas Buscando a Nemo.
ABECEDARIO FIGURAS GEOMÉTRICAS NÚMERO
EXPERIMENTO DE VARIEDADES, DENSIDADES Y FERTILIZACIÓN EN BROCOLI
Mulán /75 puntos. 1.Querían 2.Gustaban 3.Escuchó 4.Dijo 5.Tenía 6.Ayudaron 7.Maquillaron 8.Arreglaron 9.Dio 10.Estaba 11.Iba 12.Quería 13.Salió 14.Gritó
Unidad de competencia II Estadística descriptiva:
5 pt 5 pt 5 pt 5 pt 5 pt 10 pt 10 pt 10 pt 10 pt 10 pt 15 pt 15 pt
1 XML Extensible Markup Language HTML HyperText Markup Language normas06_01.xml.
MOVIMIENTO JOVENES DE LA CALLE CIUDAD DE GUATEMALA chi siamo quienes-somos qui sommes-nous who we are attività actividades activités activities alimentazione.
PRACTICOS.
C ONFIGURACIÓN C UENTAS D E C ORREO ZTE N281. C ONFIGURACIÓN C UENTAS D E C ORREO ZTE N281 1-Ingrese a menú 2-Ingrese a Mensajes 3-Ingrese a Correo 4-Seleccione.
1. Apoyo exterior sobre ala inferior de viga de acero
Distribuciones de probabilidad bidimensionales o conjuntas
Estrategias en el aula con alumnos con problemas de atención y comportamiento Curso Actividad formativa: Seminario CRA “Entreviñas” - Fuensaldaña.
-17 Expectativas sobre la situación económica (Europa) Septiembre 2013 Indicador > +20 Indicador 0 a +20 Indicador 0 a -20 Indicador < -20 Total Unión.
Phone2Wave-Server Manual de Operación.
Repaso del capítulo Primer Paso
Licitación de FONASA para Bono AUGE
INFORME USDA NOVIEMBRE TRIGO 2 MERCADO INTERNACIONAL (Millones de Toneladas) 3.
Vocabulario querer comerlo -paja por supuesto - madera
FUNCIONES DE UNA VARIABLE REAL
Calendario 2008 Imágenes variadas Venezuela Elaborado por: MSc. Lucía Osuna Wendehake psicopedagogiaconlucia.com Enero 2008.
EL OSO APRENDIZ Y SUS AMIGOS
50 principios 1. Los clientes asumen el mando.
1 PROYECTO DE PRESUPUESTO DE EGRESOS DE LA FEDERACION 2002 COORDINACIÓN DE POLITICA ECONOMICA GP-PRD.
Hacer click Hacer click en cualquiera de estos links.
Ecuaciones Cuadráticas
3 Enero 2010 PERÚ: IV CENSO NACIONAL ECONÓMICO, APURÍMAC.
Kpmg. El comercio electrónico y sus incertidumbres Resultado de la encuesta sobre
¡Primero mira fijo a la bruja!
ANÁLISIS DE RADIOGRAFÍA PANORAMICA
puede o no ser verdadero, relativo a una o más poblaciones.
COMPONENTE LEGAL COMPONENTE ADMINISTRATIVO INSTRUMENTO DE SUPERVISIÓN PARA EL SERVICIO INTERVENCIONES DE APOYO Hoja de registro y calificaciónF025.PR02.PZ1102/01/2007.
MINIMO COMÚN MÚLTIPLO DE DOS NÚMEROS a y b
CULENDARIO 2007 Para los Patanes.
0 1 ¿Qué hora es? By: Craig Tillmann Revised by: Malinda Seger Coppell High School Coppell, TX.
BEATRIZ LAFONT VILLODRE
POLÍTICAS MACROECONÓMICAS Econ. SEGUNDO A. CALLE RUIZ Ms. Sc. C. D.
¿Quién? ¿Qué? ¿Dónde? ¿Cuándo? ¿Cómo? ¿Por qué?
Los números. Del 0 al 100.
MSc. Lucía Osuna Wendehake
Calendario 2009 “Imágenes variadas” Venezuela Elaborado por: MSc. Lucía Osuna Wendehake psicopedagogiaconlucia.com Enero 2009.
Los Numeros.
SUCESIONES Y PROGRESIONES.
Manual de Procedimientos Procedimiento de ejecución del programa de
ESTADIGRAFOS DE DISPERSION
Indicaciones: 1.- Tener en cuenta que esta estrategia, solo funciona asociando las cuentas los días lunes. 2.- Los cálculos son aproximados con un margen.
Herramienta FRAX Expositor: Boris Inturias.
CHAPTER 4 VOCABULARY: PART II
FUNDAMENTOS DE CALIDAD EN LA GESTIÓN PÚBLICA
Transcripción de la presentación:

Experimentación Numérica Antiplagium

Integrantes Piere Cordero Patricia Natividad Gustavo Barrenechea Renzo Gómez Kim Alvarado

Agenda Objetivo de la Experimentación Selección del Método Experimental Hipótesis Ejecución del Experimento Resultados Conclusiones

Objetivo de la Experimentación

Objetivo Encontrar el algoritmo más eficiente para la detección de plagio de documentos. Comparar dos algoritmos según tiempo de ejecución y porcentaje de plagio.

Algoritmos a Comparar Secuencia de Maximales Lenguaje Natural

Factores Experimentales Los factores elegidos para el análisis son: El número de comparaciones entre documentos. El tamaño de los documentos

Variables de Respuesta El porcentaje de plagio de un documento contra los documentos de la base de datos. El tiempo de ejecución del algoritmo de detección de plagio.

Selección del Método Experimental

Método Experimental Se utilizará el estadístico T-Student. Análisis con la distribución Normal. Análisis de las medias con desviación estándar conocidas

Criterios de evaluación Media muestral µ Varianza muestral δ2

T-student Sirve para comparar medias de muestras independientes. Su objetivo es demostrar por hipótesis una muestra es mejor que otra. Trabaja con la media y la varianza. Requiere saber si las varianzas son iguales o no.

T-student Alpha: Grado de confianza o de certeza. Utilizaremos 95% como grado de certeza. C: Punto crítico que separa la región a rechazar y la región de aceptación.

T-student Sean: Si: Varianza muestral del algoritmo i g.l.: Grados de libertad (n1+n2-2) y la fórmula para hallar el estadístico t:

Hipótesis

Hipótesis para el tiempo de ejecución H0: X1 < X2 : "Secuencia de Maximales requiere un mayor tiempo de ejecución que Lenguaje Natural“ H1: X1 >= X2: " Lenguaje Natural requiere un mayor tiempo de ejecución que Secuencia Maximales ” Siendo: X1: Media de tiempo de ejecución de Lenguaje Natural. X2: Media de tiempo de ejecución de Secuencia Maximales.

Hipótesis para el porcentaje de plagio H0: X1 < X2 : "Secuencia de Maximales detecta mayor porcentaje de plagio que Lenguaje Natural“ H1: X1 >= X2: " Lenguaje Natural detecta mayor porcentaje de plagio que Secuencia Maximales ” Siendo: X1: Media de porcentaje de Lenguaje Natural. X2: Media de porcentaje de plagio de Secuencia Maximales.

Ejecución del Experimento

Muestra de ejecución Datos Utilizados. Ejecución del algoritmo Secuencia Maximales. Ejecución del algoritmo Lenguaje Natural.

Datos utilizados 50 documentos de extensión .txt que serán comparados cada uno contra la los 49 restantes.

Ejecución del Experimento

Para los tiempo de ejecución Secuencia Maximales Lenguaje Natural Item Nro. Documento a comparar contra la BD Tiempo proceso (ms) 1 algoritmos.TXT 19262 686 2 Arte evaluacion.txt 1592 186 3 Articulo PLN V0.txt 44828 3617 4 Articulo PLN V1.txt 35136 1560 5 Articulo SRI internet.txt 82660 265 6 Articulo SRI REVISTA.txt 7943 366 7 Articulo SRI V1.txt 76794 3853 8 Articulo SRI V2.txt 92471 2231 9 Articulo SRI V3.txt 33925 2980 10 Articulo SRI.txt 52088 11 Biometria wikipedia.txt 14351 297 12 Biometria.TXT 14066 328 13 CLEI 2007.txt 46217 2855 14 Compresion internet.txt 38987 608 15 CompresionV0.txt 24530 468 16 CompresionV1.txt 24048 920 17 CompresionV2.txt 45116 967 18 CompresionV3.txt 78221 2278 19 CompresionV4.txt 107678 3370 20 CompresionV5.txt 86935 2558 21 Cuadro de Mando Integral.TXT 6938 531 22 Desenredadndo la madeja V1.txt 1829 23 Desenredadndo la madeja V2.txt 4243 1716 24 Diagnostico tuberculosis Procesamiento.TXT 32074 25 Espacio vectorial V0.txt 56375 1263

Para los tiempo de ejecución Secuencia Maximales Lenguaje Natural Item Nro. Documento a comparar contra la BD Tiempo proceso (ms) 26 Espacio vectorial V1.txt 14266 968 27 Espacio vectorial V2.txt 31406 702 28 Espacio vectorial V3.txt 17531 171 29 Espacio vectorial V4.txt 14485 156 30 Espacio vectorial V6.txt 16015 31 Evaluacion VAN RIJSBERGEN.txt 12594 686 32 Formato articulos CLEI.txt 7125 94 33 Informe final SRI.txt 138969 2496 34 introducci¢n a los sistemas de recuperaci¢n de informaci¢n.txt 24906 6162 35 Motor de B£squeda 1.TXT 50172 1872 36 Motores de busqueda 2.TXT 34891 749 37 Reconocimiento de voz 1.TXT 4187 796 38 Reconocimiento de voz 2.TXT 3219 1653 39 Reconocimiento de voz wikipedia.txt 31164 234 40 Reconocimiento de voz.TXT 16359 1295 41 Recuperacion de informacion.txt 24812 4290 42 SegmentacionV1.txt 58796 43 SegmentacionV2.txt 52422 1326 44 SegmentacionV3.txt 42063 1202 45 SegmentacionV4.txt 56578 1358 46 SegmentacionV5.txt 62375 1606 47 SegmentacionV6.txt 78219 2777 48 SegmentacionV7.txt 94219 2667 49 SegmentacionV8.txt 97938 2621 50 Sistema Experto.TXT 45234 1497

Comparación de tiempo de ejecución

Para el porcentaje de detección de plagio Secuencia Maximales Lenguaje Natural Item Nro. Documento a comparar contra la BD Porcentaje de plagio (%) 1 algoritmos.TXT 41 5 2 Arte evaluacion.txt 71 91 3 Articulo PLN V0.txt 70 53 4 Articulo PLN V1.txt 100 97 Articulo SRI internet.txt 31 6 Articulo SRI REVISTA.txt 55 86 7 Articulo SRI V1.txt 98 92 8 Articulo SRI V2.txt 99 96 9 Articulo SRI V3.txt 10 Articulo SRI.txt 11 Biometria wikipedia.txt 12 Biometria.TXT 39 13 CLEI 2007.txt 14 Compresion internet.txt 15 CompresionV0.txt 16 CompresionV1.txt 17 CompresionV2.txt 18 CompresionV3.txt 19 CompresionV4.txt 81 66 20 CompresionV5.txt 85 21 Cuadro de Mando Integral.TXT 34 22 Desenredadndo la madeja V1.txt 46 23 Desenredadndo la madeja V2.txt 24 Diagnostico tuberculosis Procesamiento.TXT 25 Espacio vectorial V0.txt 56

Para el porcentaje de detección de plagio Secuencia Maximales Lenguaje Natural Item Nro. Documento a comparar contra la BD Porcentaje de plagio (%) 26 Espacio vectorial V1.txt 68 65 27 Espacio vectorial V2.txt 22 28 Espacio vectorial V3.txt 96 72 29 Espacio vectorial V4.txt 75 34 30 Espacio vectorial V6.txt 60 33 31 Evaluacion VAN RIJSBERGEN.txt 13 32 Formato articulos CLEI.txt 23 Informe final SRI.txt 44 4 introducci¢n a los sistemas de recuperaci¢n de informaci¢n.txt 57 35 Motor de B£squeda 1.TXT 36 Motores de busqueda 2.TXT 40 3 37 Reconocimiento de voz 1.TXT 69 86 38 Reconocimiento de voz 2.TXT 90 11 39 Reconocimiento de voz wikipedia.txt 56 Reconocimiento de voz.TXT 71 41 Recuperacion de informacion.txt 98 42 SegmentacionV1.txt 99 91 43 SegmentacionV2.txt SegmentacionV3.txt 97 45 SegmentacionV4.txt 46 SegmentacionV5.txt 94 47 SegmentacionV6.txt 92 48 SegmentacionV7.txt 100 49 SegmentacionV8.txt 95 50 Sistema Experto.TXT 1

Comparación de porcentaje de detección de plagio

Resultados

Resultados para el tiempo de ejecución SECUENCIA MAXIMALES LENGUAJE NATURAL gl n   50 98 Media 41165.04 1566.32 S 32052.89694 1310.19272 t = -8.7274   Rechazo Ho Si t > 1.9845 "Como t = -8.7274 < 1.9845 se acepta Ho"

Resultados para porcentaje de plagio SECUENCIA MAXIMALES LENGUAJE NATURAL gl n   50 98 Media 72 52.96 S 27.34436479 40.8870819 t = -2.7371   Rechazo Ho Si t > 1.9845 "Como t = -2.731 < 1.9845 se acepta Ho"

Conclusiones

Conclusiones Se acepta la Hipótesis nula para el tiempo de ejecución, es decir el algoritmo de Secuencias Maximales requiere de un mayor tiempo de ejecución que el algoritmo Lenguaje Natural Se acepta la Hipótesis nula para el porcentaje de detección de plagio, es decir el algoritmo de Secuencias Maximales detecta mayor porcentaje de plagio frente al algoritmo de Lenguaje Natural.

Bibliografía

Bibliografía Estadística Descriptiva e Inferencial Córdova Zamora, Manuel (2003)