ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

我误解了String#substring方法

2019-10-27 11:06:49  阅读:333  来源: 互联网

标签:end String int 误解 substring start CharSequence


我们一般使用substring进行字符串的截取操作,特别是模式匹配的时候,我们会获取匹配到的start和end,然后调用str.substring(start, end)截取[start, end)范围的子串。最近我在做关于敏感词过滤的业务,我想获取字符串中存在字典中的正向最长字符串匹配,然后进行脱敏处理,部分代码如下:

public CharSequence searchNextMatch(String sourceText, int start, int end) {
    TireTreeFindResult findResult = tireTree.find(sourceText, start, end);//获取匹配的结果,结果会包含匹配的起始下标和结束下标(exclude)
    return sourceText.substring(findResult.getMatchTextStart(), findResult.getMatchTextEnd());
}

我使用了String的substring方法返回字符串结果,这个其实没有太大问题。当时就看了一下substring的源码,发现他是通过substring方法先是拷贝了char数组,然后重新用该char数组创建了一个String对象,我一直认为substring会跟subList一样返回一个字符串视图,但是事实并非如此。所以产生了一些问题:这样子实现不会很慢吗?为什么Java api选择这样实现?

我去网上查了一下substring,果然找到了一点蛛丝马迹。substring在jdk7之前是通过视图实现的,但是到了jdk7,就修改成了创建字符数组副本的实现。很显然,新修改的是效率比较低的,但是这样修改是有一定考虑的。

我们如果通过爬虫获取到了一个页面的html源码htmlString,然后通过正则匹配和substring获取到满足匹配的一个List<String>List<String>里所有字符串指向的字符数组是htmlString.value,我们在获取到需要的信息后本应该是要丢弃htmlString的,让JVM回收掉,但是由于List<String>中所有元素都引用着htmlString.value,导致该字符串大对象无法被回收,这里就导致了内存泄漏。

有时候为了效率考虑,我们可以通过CharSequence自己实现一个视图类,代码如下:

/**
* 使用视图减少substring的开销
*/
private static class SubstringView implements CharSequence{
    private String sourceString;
    private int start;
    private int end;
    private int length;


    public SubstringView(String sourceString, int start, int end) {
        checkBounds(sourceString, start, end);
        this.sourceString = sourceString;
        this.start = start;
        this.end = end;
        this.length = end - start;
    }


    @Override
    public int length() {
        return this.length;
    }


    @Override
    public char charAt(int index) {
        if (start + index > end){
            throw new IndexOutOfBoundsException(String.valueOf(index));
        }
        return sourceString.charAt(start + index);
    }


    @Override
    public CharSequence subSequence(int start, int end) {
        return new SubstringView(sourceString, start, end);
    }


    private void checkBounds(String string, int start, int end){
        if (start > end){
            throw new IllegalArgumentException("start > end");
        }


        if (end > string.length()){
            throw new IllegalArgumentException("end is greater than source string length");
        }
    }
}

需要注意的是,String虽然提供CharSequence作为参数的api,但是内部可能只是调用了toString方法,而对于实现CharSequence的类,跟普通类一样toString默认实现为:全类名@hashCode

String str1 = "1234abc111";
String str2 = "abc";
CharSequence sequence = new SubstringView(str1, 4, 4 + 3);
System.out.println(str2.contains(sequence));

这个示例输出为false,原因就是contains内部的判断逻辑为:indexOf(s.toString()) > -1,调用了SubstringView#toString,toString我们是没有进行实现的。那我们怎么实现toString方法呢?要想实现toString方法只能调用String#substring方法,这就没有办法了。

参考:

  1. 这篇博文讲述得很详细,博主从数组复用安全性、旧新实现的对比角度进行分析,详见:https://www.cnblogs.com/antineutrino/p/4213268.html

  2. java.lang.String#substring源码

  3. java.lang.StringBuilder#substring源码

标签:end,String,int,误解,substring,start,CharSequence
来源: https://blog.csdn.net/lidelin10/article/details/102764626

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有