Cómo: Regex para analizar XML

Programación

C /C + + Programming

Lenguajes De Programación

Delphi Programación

Programación Java

JavaScript Programación

Programación PHP /MySQL

Perl Programming

Python Programming

Rubí Programación

Visual Basics Programación

* Conocimientos Informáticos >> Programación >> Python Programming >> Content

Cómo: Regex para analizar XML

Parsing XML representa un desafío para los aspirantes a texto analizador debido a la extensibilidad de XML. Convenciones de formato XML son de naturaleza jerárquica , es decir, algunas etiquetas dominan otras etiquetas . Expresiones regulares ( expresiones regulares ) identifican patrones de texto XML - Una expresión regular para coincidir etiquetas XML coincidirá con todo dentro de las etiquetas xml < > , pero no se mostrará a la organización jerárquica de estas etiquetas. Es posible separar la estructura de etiquetas del texto utilizando el lenguaje de programación Python y el paquete Kit de herramientas de lenguaje natural , que incorpora las expresiones regulares y la manipulación de texto y puede mostrar las etiquetas XML y su organización . Instrucciones
1

Abra una ventana de terminal y escriba el comando " python- v " en el indicador para comprobar la presencia y la versión de Python en el equipo. Ir a la página de inicio NLTK y descargar el paquete de instalación NLTK correspondiente a su sistema operativo. Compruebe que NLTK está instalado correctamente escribiendo el comando " >>> import NLTK " en el prompt de Python.
2

Tipo ">>> nltk.download ()" para abrir una ventana. Seleccione la fila denominada "todos" y haga clic en el botón de descarga. Esto descargará una serie de textos para NLTK para trabajar, entre ellos la obra de Shakespeare " El mercader de Venecia " formateado con etiquetas XML especiales para obras de teatro.
3

Importe el Mercader de Venecia etiquetado en XML con el siguiente comando en el prompt de Python :

>>> merchant_file = nltk.data.find ( ' corpora /shakespeare /merchant.xml ' )

Asigne al archivo un variable, de manera que se puede manipular con comandos de Python : .

>>> prima = open ( merchant_file ) read ()

Sólo para asegurarse de que está ahí , entre el el siguiente comando para ver los primeros 168 caracteres : .

>>> print prima [ 0:168 ]

verá las etiquetas de encabezado XML y las etiquetas especiales de reproducción XML < br > Página 4

Escriba el siguiente comando en el prompt de Python :

>>> from nltk.etree.ElementTree importación elementtree

y pulse "Return ", entonces escriba lo siguiente en el prompt de Python : . el comando parse

>>> comerciante = elementtree () parse ( merchant_file )

permite al usuario ver las etiquetas XML y su contenido . Para construir una visión jerárquica de etiquetas XML correctamente anidados , introduzca el siguiente comando en el prompt de Python :

>>> merchant.getchildren ()

Esto mostrará todos los XML especial jugar a las etiquetas en el orden jerárquico. La salida de este comando debe ser similar a esto:

[ TITULO , PERSONAE , SCNDESCR , PLAYSUBT , < ; ACT Elemento en 22cc0f8 > , ACT , ACT , ACT , ACT ]
< br >

Previous ： Python Procesos OS

next ： Tipos enumerados en Python

Artículos relacionados

·	Cómo ejecutar un archivo Python
·	Cómo escribir una secuencia de comandos Bot
·	Cómo usar el Diccionario de Python para Looping
·	Cómo reemplazar Regex en Python
·	Cómo pasar una función como argumento en Python
·	Tutoriales de pantalla para Python
·	Cómo utilizar un Twitter Python Script
·	Cómo quitar un texto en Python
·	Los beneficios de la introspección de Python
·	¿Cómo hacer Condicionales en Python

Artículos destacados

·	¿Qué es un puntero en C
·	Tutorial sobre la conexión a MySQL de Oracle
·	Cómo introducir enteros en Java utilizando un escáner…
·	Cómo invertir Valor booleano en JavaScript
·	Cómo leer un archivo delimitado por tabuladores en Jav…
·	¿Qué es una función XSLT Unknown
·	Cómo crear una carpeta Aprobado
·	Cómo crear Socket ejemplos en Ada
·	Cómo acceder argumento nulo Query VBA
·	Cómo utilizar Ordenación rápida Función en C + + en…