ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

python – 基于条件对数据帧进行排序,并通过动态分配给随机向量来返回所有组

2019-08-29 13:58:03  阅读:140  来源: 互联网

标签:python r dataframe


例如:INPUT DATAFRAME是: –

INPUT     group
4000       1
4000       1
2000       2
3000       3
2000       4
2000       4
2000       4

输出: – 动态分配给任意随机向量并生成输出: –
具有最大重复组编号的第一个数据帧,具有重复组的第二高元素的第二个数据帧,依此类推……

OUTPUT
1.首先

INPUT     group
2000        4
2000        4
2000        4

2.second

INPUT        group
4000        1
4000        1  

3.third

INPUT        group
2000        2

4.fourth

INPUT        group
3000        3  

用更简单的词语 – 我想将数据帧划分为一些组,在结果中,我希望通过分配一些变量来按升序排列所有组.
到目前为止,我试过这个:

x<-setDT(df)[, group := rleid(df$INPUT)]

这将对小组进行排序.我又尝试了一次,即:

y<-x[x$group == which.max(tabulate(x$group)), ] 

但这只返回具有最大重复组元素数的组.

解决方法:

我不确定你是否需要一次性输出所有产品.但这是一个可能有所帮助的想法.我正在使用dplyr包.首先让我重新创建您提供的数据集作为输入:

library(dplyr)
DF <- data.frame(INPUT = c(4000,4000,2000,3000,2000,2000,2000), group = c(1,1,2,3,4,4,4))
df <- tbl_df(DF)
df

产量

  INPUT group
  (dbl) (dbl)
1  4000     1
2  4000     1
3  2000     2
4  3000     3
5  2000     4
6  2000     4
7  2000     4

现在我将创建一个辅助表,告诉我每组有多少行,这个表已经从最大到最小排序:

aux <- df %>% group_by(group) %>% summarise(n = n()) %>% arrange(-n)
aux

产量

  group     n
  (dbl) (int)
1     4     3
2     1     2
3     2     1
4     3     1

所以我们看到第4组出现3次,第1组出现两次,依此类推.
现在我可以轻松地“提取”我想要的组从max到min:

ymax <- df %>% filter(group == aux$group[1])
y2 <- df %>% filter(group == aux$group[2])
y3 <- df %>% filter(group == aux$group[3])
ymin <- df %>% filter(group == aux$group[4])

产量

ymax
  INPUT group
  (dbl) (dbl)
1  2000     4
2  2000     4  
3  2000     4  

y2
  INPUT group
  (dbl) (dbl)
1  4000     1
2  4000     1  

y3
  INPUT group
  (dbl) (dbl)
1  2000     2  

ymin
  INPUT group
  (dbl) (dbl)
1  3000     3

我希望这有帮助.
我只想补充一点,你当然可以立刻得到所有这些:

ylist <- lapply(1:nrow(aux), function(x) {filter(df, group == aux$group[x])})

产量

[[1]]
Source: local data frame [3 x 2]

  INPUT group
  (dbl) (dbl)
1  2000     4
2  2000     4
3  2000     4

[[2]]
Source: local data frame [2 x 2]

  INPUT group
  (dbl) (dbl)
1  4000     1
2  4000     1

[[3]]
Source: local data frame [1 x 2]

  INPUT group
  (dbl) (dbl)
1  2000     2

[[4]]
Source: local data frame [1 x 2]

  INPUT group
  (dbl) (dbl)
1  3000     3

标签:python,r,dataframe
来源: https://codeday.me/bug/20190829/1761155.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有