ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

java-如何使用SAX获取xml标记的正确开始/结束位置?

2019-12-10 16:02:11  阅读:261  来源: 互联网

标签:sax java


SAX中有一个定位器,它可以跟踪当前位置.但是,当我在startElement()中调用它时,它总是返回xml标记的结束位置.

如何获得标签的起始位置?有什么办法可以优雅地解决这个问题吗?

解决方法:

不幸的是,由org.xml.sax包中的Java系统库提供的Locator接口不允许通过定义提供有关文档位置的更多详细信息.引用getColumnNumber方法的documentation(我添加的突出显示):

The return value from the method is intended only as an approximation for the sake of diagnostics; it is not intended to provide sufficient information to edit the character content of the original XML document. For example, when lines contain combining character sequences, wide characters, surrogate pairs, or bi-directional text, the value may not correspond to the column in a text editor’s display.

根据该规范,您将始终根据SAX驱动程序的最大努力来获得“与文档事件相关联的文本之后的第一个字符的位置”.因此,对问题第一部分的简短回答是:不,定位器不提供有关标签起始位置的信息.另外,如果您要处理文档中的多字节字符(例如中文或日语文本),则从SAX驱动程序获得的位置可能不是您想要的.

如果您追随标签的确切位置,或者想要更多有关属性,属性内容等的细粒度信息,则必须实现自己的位置提供程序.

考虑到所有潜在的编码问题,Unicode字符等,我想这是一个太大的项目,无法在此处发布,实现方式也取决于您的特定要求.

个人经验只是一个简短的警告:围绕传递给SAX解析器的InputStream编写包装是危险的,因为您不知道什么时候SAX解析器将根据已从流中读取的内容报告事件.

除了使用Locator信息之外,您还可以通过检查换行符,制表符等内容来对ContentHandler的character(char [],int,int)方法进行一些计数,除了使用Locator信息外,这还可以为您提供更好的画面您实际在文档中的位置.通过记住上一个事件的位置,您可以计算当前事件的开始位置.但是要考虑到,您可能看不到所有换行符,因为这些换行符可能会出现在标记中,而您不会在字符中看到这些换行符,但是可以从定位器信息中推断出这些换行符.

标签:sax,java
来源: https://codeday.me/bug/20191210/2102724.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有