ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

DBLP数据集XML使用python SAX解析 作者名字显示错误问题

2021-06-30 18:58:18  阅读:372  来源: 互联网

标签:XML xml DBLP python self parser sax your def


问题描述

最近在做实验时处理DBLP XML数据集时,作者名字部分显示不全,比如一些带有特殊符号的作者Michael H. Böhlen解析完后就会变成Michael H. Böhlen。这样会导致一系列的问题,比如解析出来的作者数目比原来的少,原先不同名的作者解析后可能变成同名等等。

解决方法

参考链接:https://blog.csdn.net/wisemanchen/article/details/109140755

之所以出现这个问题是因为dblp数据集中许多作者的名字里面含有阿拉伯文等特殊字符,在xml文件中显示为&xxxl; 具体是作为外部实体定义在“dblp.dtd”文件中,要想正确解析外部实体,需要额外用到class xml.sax.handler.EntityResolver中提供的EntityResolver.resolveEntity(publicId, systemId)函数。另外,setFeature(feature_external_ges, True)这个设置可能也会有影响。

1. 首先引入包

from xml.sax.handler import feature_external_ges

2. 在自定义的handle类中使用解析外部实体的函数 resolveEntity(publicId, systemId) 函数

class authorHandler(xml.sax.ContentHandler):  # extract all authors
    def __init__(self):
        # your code here
        
    def resolveEntity(self, publicID, systemID):
        print("TestHandler.resolveEntity(): %s %s" % (publicID, systemID))
        return systemID

    def startElement(self, tag, attributes):
        # your code here

    def endElement(self, tag):
        # your code here

    def characters(self, content):
        # your code here

3. 在最后xml parser配置时加上 setFeature(feature_external_ges, True) 这句配置。

# set xml parser
parser = xml.sax.make_parser()
parser.setFeature(xml.sax.handler.feature_namespaces, 0) #only need to add this row in your project
parser.setFeature(feature_external_ges, True)
handler1 = authorHandler()
parser.setContentHandler(handler1)
parser.parse('./dblp-2021-03-01.xml')

 

标签:XML,xml,DBLP,python,self,parser,sax,your,def
来源: https://blog.csdn.net/mmmmzhuang/article/details/118367035

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有