Parsing XML representa un desafío para los aspirantes a texto analizador debido a la extensibilidad de XML. Convenciones de formato XML son de naturaleza jerárquica , es decir, algunas etiquetas dominan otras etiquetas . Expresiones regulares ( expresiones regulares ) identifican patrones de texto XML - Una expresión regular para coincidir etiquetas XML coincidirá con todo dentro de las etiquetas xml < > , pero no se mostrará a la organización jerárquica de estas etiquetas. Es posible separar la estructura de etiquetas del texto utilizando el lenguaje de programación Python y el paquete Kit de herramientas de lenguaje natural , que incorpora las expresiones regulares y la manipulación de texto y puede mostrar las etiquetas XML y su organización . Instrucciones
1
Abra una ventana de terminal y escriba el comando " python- v " en el indicador para comprobar la presencia y la versión de Python en el equipo. Ir a la página de inicio NLTK y descargar el paquete de instalación NLTK correspondiente a su sistema operativo. Compruebe que NLTK está instalado correctamente escribiendo el comando " >>> import NLTK " en el prompt de Python.
2
Tipo ">>> nltk.download ()" para abrir una ventana. Seleccione la fila denominada "todos" y haga clic en el botón de descarga. Esto descargará una serie de textos para NLTK para trabajar, entre ellos la obra de Shakespeare " El mercader de Venecia " formateado con etiquetas XML especiales para obras de teatro.
3
Importe el Mercader de Venecia etiquetado en XML con el siguiente comando en el prompt de Python :
>>> merchant_file = nltk.data.find ( ' corpora /shakespeare /merchant.xml ' )
Asigne al archivo un variable, de manera que se puede manipular con comandos de Python : .
>>> prima = open ( merchant_file ) read ()
Sólo para asegurarse de que está ahí , entre el el siguiente comando para ver los primeros 168 caracteres : .
>>> print prima [ 0:168 ]
verá las etiquetas de encabezado XML y las etiquetas especiales de reproducción XML < br > Página 4
Escriba el siguiente comando en el prompt de Python :
>>> from nltk.etree.ElementTree importación elementtree
y pulse "Return ", entonces escriba lo siguiente en el prompt de Python : . el comando parse
>>> comerciante = elementtree () parse ( merchant_file )
permite al usuario ver las etiquetas XML y su contenido . Para construir una visión jerárquica de etiquetas XML correctamente anidados , introduzca el siguiente comando en el prompt de Python :
>>> merchant.getchildren ()
Esto mostrará todos los XML especial jugar a las etiquetas en el orden jerárquico. La salida de este comando debe ser similar a esto:
[ TITULO , PERSONAE , SCNDESCR , PLAYSUBT , < ; ACT Elemento en 22cc0f8 > , ACT , ACT , ACT , ACT ]
< br >