Python es un lenguaje de programación de código abierto, orientado a objetos optimizada para crear aplicaciones Web dinámicas. Al programar en Python , es posible que tenga que separar el formato HTML de código Python. Por ejemplo, un usuario puede introducir una página Web en un campo de datos , lo que requiere que se deben eliminar las etiquetas HTML para almacenar los datos de texto . Para quitar las etiquetas HTML de una cadena, utilice la incorporada en el módulo de expresiones regulares de Python , " Regex . " Instrucciones
1
abrir el editor de Python .
2
Cargue el módulo de expresiones regulares escribiendo lo siguiente :
import re
3
definir una función para eliminar todas las etiquetas HTML . Por ejemplo , escriba lo siguiente :
def delete_html (datos) :
4
separar los elementos de código HTML con la función " re.compile " para compilar los patrones de expresiones regulares en un objeto que se puede utilizar para la búsqueda de patrones . Continuando con el ejemplo , escriba lo siguiente:
htmlPattern = re.compile (r ' < . ? * >' )
En este ejemplo , el atributo " re.compile " le dice a Python para buscar la cadena " ' <.. > ", que significa el comienzo y el final etiquetas HTML.
el calificador " . * ? " dice Python para que coincida sólo las etiquetas. Sin el calificador , Python devuelve la cadena "
subtítulo < /h2 > " , con el calificativo , vuelve Python " . Y
"
5
Sustituir un espacio para todo el código HTML utilizando la función de "sub" . Continuando con el ejemplo , escriba lo siguiente :
regreso htmlPattern.sub ('' , datos)
En este caso , las tiras de Python el código HTML y lo reemplaza con un espacio en blanco . En este punto , dependiendo de cómo desea estructurar los datos, puede utilizar la función de "tira" cadena para quitar los espacios en blanco o usar expresiones regulares, como " \\ s + ", para eliminar los espacios en blanco . < Br >