ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

按照百分比取出数据的去极值方法

2019-08-27 20:04:46  阅读:313  来源: 互联网

标签:med 百分比 d2 len step print 取出 data 极值


去极值的方法,可以用均值加n倍的方差,来过滤,也可以用中位数加上下范围来过滤。如聚宽就提供了winsorize和winsorize_med等方法。

但我总觉得不合心意,第一,这个过程本来就是需要不断调整参数的,最好能够按照一定步长来取数据,逐条显示取出数据的数量,占比,方差等。此外,参数最好指定数据的百分比,用户只要指定百分比,就能够获得相应的数据。基于此,设计了一个函数。

from pandas import Series, DataFrame
from jqfactor import winsorize_med
def data_dist(data,step=0.1,maxstep=1,outratio=0.9): #以中位数为中心,数据的分布
    print("数据分布,以中位数为中心,默认步长0.1,通过step参数指定,max指定最大step,outratio指定输出百分比(0.9)")
    med=data[0].median()
    d=max(data[0].max()-med,med-data[0].min())  #最大幅度
    f=step    
    out=None
    while(f<maxstep):
        d2=data[(data[0]<med+f*d) & (data[0]>med-f*d)]
        print("%.2f %.2f%% %d var:%.2f"%(f,len(d2)*100.0/len(data),len(d2),d2[0].std()/med))
        if len(d2)*1.0/len(data)>=outratio and out is None:
            out=d2.copy(deep=False)
        f+=step
    return out

这个方法融交互和获取数据于一体,可以一边交互测试,一边设定参数,很python!

取广晟有色1000天的成交量分析,看看效果

arr=get_bars("600259.XSHG", count=1000, unit='1d',fields=['date', 'high','low','volume'],end_dt="2018-12-31")
vol=DataFrame(arr["volume"])
o=data_dist(vol,step=0.01,maxstep=0.5,outratio=0.8)
vol.plot()
o.plot()
print("%d"%(vol.median()))
print("%d"%(vol.mean()))
print("%d"%(o.mean()))

把dataframe传递进去就可以了,默认以中位数为中心,中位数到上下限的最大距离为参考,以指定步长为上下界,取出数据。

image

可以看出,按80%取出的数据,比原始数据要更加集中,中心点也更加合理

image

标签:med,百分比,d2,len,step,print,取出,data,极值
来源: https://www.cnblogs.com/jetz/p/11420473.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有