Resumen

El análisis sintáctico parcial hoy en día ha sido utilizado en las tareas de extracción de información y minería de textos, específicamente, los analizadores sintácticos probabilísticos los cuales permiten la obtención de subestructuras y estructuras del árbol más posible de una sentencia dada. El análisis sintáctico parcial se caracteriza en predecir la estructura de frase en forma de árbol para una sentencia dada en lenguaje natural. Este tipo de análisis se realiza bajo el enfoque basado en corpus donde este es el insumo anotado manualmente con estructuras sintacticas. Un algoritmo de aprendizaje de maquinas suministra el modelo de aprendizaje sobre el corpus y anota automaticamante la estructura sintactica de una sentencia de entrada. Un analizador sintactico parcial puede ser de nido como un analizador sintactico probabilstico el cual consiste de un corpus anotado sintacticamente, un modelo probablstico para el manejo de las dependencia entre variables y un enfoque de aprendizaje supervisado para la obtencion del modelo de aprendizaje. Varios son los analizadores sintacticos probabilsticos que son usados en las tareas principales del procesamiento de lenguaje natural (PLN). Una de las tareas principales de estos analizadores probabilsticos tiene que ver con la prediccion de estructuras sintacticas para tareas de extraccion avanzadas. En el momento, el rendimiento de estos analizadores depende de los corpus y de las capacidad de las modelos para cada lenguaje, por ejemplo, para el ingles el rendimiento esta entre el 80% y 90% mientras que para el espa~nol esta en el 85 %. La capacidad de los modelos a su vez depende de la variabilidad y uso de las caractersticas para reponder a los fenomenos lingusticos de cada lengua. Se han realizado muchos trabajos que aportan a la precision en la inferencia de estas estructuras de frase basados en tecnicas probabilsticas. Michael Collins propone tres modelos probabilsticos; el primero basado en reglas de gramaticas libres de contextos probabilsticas lexicalizadas, donde la tarea es encontrar el nucleo sintactico de la frase. En el segundo modelo adiciona un componente para las distincion entre adjuncion y complementacion, y en el tercer modelo integra rastros de movimientos del nucleo sintactico y adiciona la caracterstica de diferencia en los nodos no-terminales. Mas adelante, Dan Bikel propone una metodologa para la investigacion de modelos probabilsticos que abordan el problema del analisis sintactico. En este trabajo se uso la implementacion de Bikel con el n de estudiar los modelos de analisis sintacticos probabilsticos, se de nieron caractersticas lingusticas para usar tecnicas de maquinas de soporte vectorial y poder obtener una clasi cacion de los complementos que son requeridos como argumentos de los verbos. As como lo hace el segundo modelo de Collins, se usa esta clasi cacion para ser contrastada con los tipos de complementos que son requeridos por el nucleo en caso de tratarse de un verbo. Los tipos de complementos requeridos como argumentos se obtienen de la informacion lexica suministrada por ANCORA, que provee un archivo para cada lema de los verbos existentes en el idioma espa~nol. Se realizaron pruebas de validacion cruzada con 610 archivos del subconjunto de ANCORA CESS ESP, presentando F1 score para el modelo de lnea base 􀀀;􀀀 y del 􀀀;􀀀 para el modelo con clasi cacion de argumentos, de esta manera se logra una mejora del 􀀀;􀀀%. Este trabajo presenta un analizador sintactico probabilstico entrenado por el corpus del espa~nol ANCORA y un modelo de ajuste del analizador de Bikel usando maquinas de soporte vectorial para clasi car el tipo de complemento de los modi cadores de los verbos que son argumentos.