Expresiones regulares proporcionan al programador herramientas poderosas para el análisis de textos y la manipulación. Encuentran en todas partes de la validación de formularios de comercio electrónico para los litigios de alto riesgo - donde los abogados búsqueda de combinaciones de palabras en mensajes de correo electrónico que se suman a la "culpable " - expresiones regulares pertenecen a cada caja de herramientas del programador. Por desgracia , su sintaxis arcano se erige como un obstáculo para muchos usuarios que podrían beneficiarse de ellos. Un posible uso está escaneando un texto para localizadores de recursos universales , conocidas coloquialmente como direcciones web . El lenguaje de programación Python a cabo esta tarea en tan sólo unas pocas líneas de código. Cosas que necesitará
Python 2.6 o superior, con el medio ambiente
archivo de texto de desarrollo integrado IDLE para probar
Ver Más instrucciones
1
abierto IDLE y crean un probar archivo de texto al copiar y pegar un texto al azar en el archivo , junto con algunas de las URL . Guarde el archivo como TestText.txt en el directorio que aparece en el cuadro de diálogo Guardar para que usted no tiene que preocuparse acerca de las rutas entre el intérprete de Python y este archivo .
2
Ir a la página principal ventana IDLE y tipo
>>>> import re
en el prompt de Python. . Esto carga el motor de expresiones regulares de Python
3
Leer el texto de prueba en Python y lo mantienen en la memoria con los siguientes comandos :
>>> TestText = open (' OCB_1.txt ' )
>>> prima = TestText.read ()
OCB_1.txt es el nombre de mi archivo de prueba - un copiar y pegar de de Ambrose Bierce " una Ocurrencia en Owl Creek Bridge ", con algunas URLs pegado pulg En los comandos anteriores , se abre el archivo de texto y se asigna al TestText variable, entonces se lee en la memoria con la variable asignada prima
. Página 4
pre - compilar la expresión regular con el fin de acelerar el proceso de análisis. Esto es especialmente útil cuando se trata de grandes archivos de texto . Escriba los siguientes comandos en el prompt de Python :
>>> pattobj = re.compile ( " https ://( [- \\ w \\. ] + ) + ( : \\ D +) ? ( /( [ \\ w /_ \\. ] * ( \\ ? \\ S +) ? ) ? ) ? )
5
Invocar el método findall escribiendo el comando regex relevante junto con la variable de referencia para el texto en la memoria :
findallobj = pattobj.findall (cruda )
Esto crea una nueva variable, findallobj , que contiene los patrones producidos por la expresión regular
6 .
Muestra la URL de la expresión regular encuentra con el comando de impresión :
impresión ( findallobj )
la salida se ve algo como esto:
[( ' www.sjca . edu ' ) , ( ' www.cantlers.com /index.shtml " ) ]