python

超轻量级php框架startmvc

Python实现XML文件解析的示例代码

更新时间:2020-05-20 23:54 作者:startmvc
1.XML简介XML(eXtensibleMarkupLanguage)指可扩展标记语言,被设计用来传输和存储数据,已经日

1. XML简介

XML(eXtensible Markup Language)指可扩展标记语言,被设计用来传输和存储数据,已经日趋成为当前许多新生技术的核心,在不同的领域都有着不同的应用。它是web发展到一定阶段的必然产物,既具有SGML的核心特征,又有着HTML的简单特性,还具有明确和结构良好等许多新的特性。

test.XML文件


<?xml version="1.0" encoding="utf-8"?>
<catalog>
 <maxid>4</maxid>
 <login username="pytest" passwd='123456'>
 <caption>Python</caption>
 <item id="4">
 <caption>测试</caption>
 </item>
 </login>
 <item id="2">
 <caption>Zope</caption>
 </item>
</catalog>

XML详细介绍可以参考: http://www.w3school.com.cn/xmldom/dom_nodetype.asp

2. XML文件解析

python解析XML常见的有三种方法:一是xml.dom.*模块,它是W3C DOM API的实现,若需要处理DOM API则该模块很适合;二是xml.sax.*模块,它是SAX API的实现,这个模块牺牲了便捷性来换取速度和内存占用,SAX是一个基于事件的API,这就意味着它可以“在空中”处理庞大数量的的文档,不用完全加载进内存;三是xml.etree.ElementTree模块(简称 ET),它提供了轻量级的Python式的API,相对于DOM来说ET 快了很多,而且有很多令人愉悦的API可以使用,相对于SAX来说ET的ET.iterparse也提供了 “在空中” 的处理方式,没有必要加载整个文档到内存,ET的性能的平均值和SAX差不多,但是API的效率更高一点而且使用起来很方便。

2.1 xml.dom.*

文件对象模型(Document Object Model,简称DOM),是W3C组织推荐的处理可扩展置标语言的标准编程接口。一个 DOM 的解析器在解析一个XML文档时,一次性读取整个文档,把文档中所有元素保存在内存中的一个树结构里,之后你可以利用DOM 提供的不同的函数来读取或修改文档的内容和结构,也可以把修改过的内容写入xml文件。python中用xml.dom.minidom来解析xml文件。

a. 获得子标签

b. 区分相同标签名的标签

c. 获取标签属性值

d. 获取标签对之间的数据


#coding=utf-8

#通过minidom解析xml文件
import xml.dom.minidom as xmldom
import os
''' 
XML文件读取 
<?xml version="1.0" encoding="utf-8"?>
<catalog>
 <maxid>4</maxid>
 <login username="pytest" passwd='123456'>dasdas
 <caption>Python</caption>
 <item id="4">
 <caption>测试</caption>
 </item>
 </login>
 <item id="2">
 <caption>Zope</caption>
 </item>
</catalog>

'''

xmlfilepath = os.path.abspath("test.xml")
print ("xml文件路径:", xmlfilepath)

# 得到文档对象
domobj = xmldom.parse(xmlfilepath)
print("xmldom.parse:", type(domobj))
# 得到元素对象
elementobj = domobj.documentElement
print ("domobj.documentElement:", type(elementobj))

#获得子标签
subElementObj = elementobj.getElementsByTagName("login")
print ("getElementsByTagName:", type(subElementObj))

print (len(subElementObj))
# 获得标签属性值
print (subElementObj[0].getAttribute("username"))
print (subElementObj[0].getAttribute("passwd"))

#区分相同标签名的标签
subElementObj1 = elementobj.getElementsByTagName("caption")
for i in range(len(subElementObj1)):
 print ("subElementObj1[i]:", type(subElementObj1[i]))
 print (subElementObj1[i].firstChild.data) #显示标签对之间的数据

输出结果:

>>> D:\Pystu>python xml_instance.py >>> xml文件路径: D:\Pystu\test.xml >>> xmldom.parse: <class 'xml.dom.minidom.Document'> >>> domobj.documentElement: <class 'xml.dom.minidom.Element'> >>> getElementsByTagName: <class 'xml.dom.minicompat.NodeList'> >>> username: pytest >>> passwd: 123456 >>> subElementObj1[i]: <class 'xml.dom.minidom.Element'> >>> Python >>> subElementObj1[i]: <class 'xml.dom.minidom.Element'> >>> 测试 >>> subElementObj1[i]: <class 'xml.dom.minidom.Element'> >>> Zope

2.2 xml.etree.ElementTree

ElementTree生来就是为了处理XML,它在Python标准库中有两种实现:一种是纯Python实现的,如xml.etree.ElementTree,另一种是速度快一点的xml.etree.cElementTree。注意:尽量使用C语言实现的那种,因为它速度更快,而且消耗的内存更少。

a. 遍历根节点的下一层

b. 下标访问各个标签、属性、文本

c. 查找root下的指定标签

d. 遍历XML文件

e. 修改XML文件


#coding=utf-8

#通过解析xml文件
'''
try:
 import xml.etree.CElementTree as ET
except:
 import xml.etree.ElementTree as ET

从Python3.3开始ElementTree模块会自动寻找可用的C库来加快速度 
'''
import xml.etree.ElementTree as ET
import os
import sys
''' 
XML文件读取 
<?xml version="1.0" encoding="utf-8"?>
<catalog>
 <maxid>4</maxid>
 <login username="pytest" passwd='123456'>dasdas
 <caption>Python</caption>
 <item id="4">
 <caption>测试</caption>
 </item>
 </login>
 <item id="2">
 <caption>Zope</caption>
 </item>
</catalog>
'''

#遍历xml文件
def traverseXml(element):
 #print (len(element))
 if len(element)>0:
 for child in element:
 print (child.tag, "----", child.attrib)
 traverseXml(child)
 #else:
 #print (element.tag, "----", element.attrib)
 

if __name__ == "__main__":
 xmlFilePath = os.path.abspath("test.xml")
 print(xmlFilePath)
 try:
 tree = ET.parse(xmlFilePath)
 print ("tree type:", type(tree))
 
 # 获得根节点
 root = tree.getroot()
 except Exception as e: #捕获除与程序退出sys.exit()相关之外的所有异常
 print ("parse test.xml fail!")
 sys.exit()
 print ("root type:", type(root)) 
 print (root.tag, "----", root.attrib)
 
 #遍历root的下一层
 for child in root:
 print ("遍历root的下一层", child.tag, "----", child.attrib)

 #使用下标访问
 print (root[0].text)
 print (root[1][1][0].text)

 print (20 * "*")
 #遍历xml文件
 traverseXml(root)
 print (20 * "*")

 #根据标签名查找root下的所有标签
 captionList = root.findall("item") #在当前指定目录下遍历
 print (len(captionList))
 for caption in captionList:
 print (caption.tag, "----", caption.attrib, "----", caption.text)

 #修改xml文件,将passwd修改为999999
 login = root.find("login")
 passwdValue = login.get("passwd")
 print ("not modify passwd:", passwdValue)
 login.set("passwd", "999999") #修改,若修改text则表示为login.text
 print ("modify passwd:", login.get("passwd"))

输出结果:

>>> D:\Pystu\test.xml >>> tree type: <class 'xml.etree.ElementTree.ElementTree'> >>> root type: <class 'xml.etree.ElementTree.Element'> >>> catalog ---- {} >>> 遍历root的下一层 maxid ---- {} >>> 遍历root的下一层 login ---- {'username': 'pytest', 'passwd': '123456'} >>> 遍历root的下一层 item ---- {'id': '2'} >>> 4 >>> 测试 >>> ******************** >>> maxid ---- {} >>> login ---- {'username': 'pytest', 'passwd': '123456'} >>> caption ---- {} >>> item ---- {'id': '4'} >>> caption ---- {} >>> item ---- {'id': '2'} >>> caption ---- {} >>> ******************** >>> 1 >>> item ---- {'id': '2'} ---- >>> not modify passwd: 123456 >>> modify passwd: 999999

附:


#coding=utf-8

'''
 XML解析类
 @功能-结点的增删改查
'''
import xml.etree.ElementTree as ET
import sys
import os.path

class XmlParse:
 def __init__(self, file_path):
 self.tree = None
 self.root = None
 self.xml_file_path = file_path

 def ReadXml(self):
 try:
 print("xmlfile:", self.xml_file_path)
 self.tree = ET.parse(self.xml_file_path)
 self.root = self.tree.getroot()
 except Exception as e:
 print ("parse xml faild!")
 sys.exit()
 else:
 print ("parse xml success!") 
 finally: 
 return self.tree
 
 def CreateNode(self, tag, attrib, text):
 element = ET.Element(tag, attrib)
 element.text = text
 print ("tag:%s;attrib:%s;text:%s" %(tag, attrib, text))
 return element
 
 def AddNode(self, Parent, tag, attrib, text):
 element = self.CreateNode(tag, attrib, text)
 if Parent:
 Parent.append(element)
 el = self.root.find("lizhi")
 print (el.tag, "----", el.attrib, "----", el.text)
 else:
 print ("parent is none")

 def WriteXml(self, destfile):
 dest_xml_file = os.path.abspath(destfile)
 self.tree.write(dest_xml_file, encoding="utf-8",xml_declaration=True)
 

if __name__ == "__main__":
 xml_file = os.path.abspath("test.xml")
 parse = XmlParse(xml_file)
 tree = parse.ReadXml()
 root = tree.getroot()
 print (root)
 parse.AddNode(root, "Python", {"age":"22", "hello":"world"}, "YES")
 
 parse.WriteXml("testtest.xml")

2.3 xml.sax.*

SAX是一种基于事件驱动的API,利用SAX解析XML牵涉到两个部分:解析器和事件处理器。

解析器负责读取XML文档,并向事件处理器发送事件,如元素开始跟元素结束事件

事件处理器则负责对事件作出相应,对传递的XML数据进行处理

常用场景:

(1)对大型文件进行处理

(2)只需文件的部分内容,或只需从文件中得到特定信息

(3)想建立自己的对象模型

基于事件驱动的SAX解析XML内容的知识后续补充!

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。