python-从列表中消除半重复项的高性能方法

2019-11-27 13:57:36 阅读：232 来源： 互联网

标签：performance data-structures loops python

我有一系列困惑：莫尔斯电码字符串,字母或单词之间没有空格.我的计划是进行字典攻击,以找到最佳的解决方案候选人.我的武器是Python.

我有17000个英语单词的列表.我还列出了与拼图主题相关的单词,但这些单词的数量要少得多,如果这些单词出现,它们的得分应该会更高.

因此,在脚本的开头,当我生成单词列表时,我使用了一个形式为元组的列表(单词,scoremultiplier).这是一小部分：

[('zoned', 1.0), 
 ('zonely', 1.0), 
 ('zoner', 1.0), 
 ('zones', 1.0), 
 ('zoning', 1.0), 
 ('zoo', 1.0), 
 ('zoom', 1.0), 
 ('zoomed', 1.0), 
 ('zooming', 1.0), 
 ('zooms', 1.0), 
 ('zoos', 1.0), 
 ('ten', 1.0), 
 ('tens', 1.0), 
 ('gnash', 1.0), 
 ('shag', 1.0), 
 ('75th', 2.0), 
 ('seventy', 2.0), 
 ('fifth', 2.0)]

在我将所有内容解析出来的文件中,我只想将高价值的单词放在最后,而不用手动摆脱文件主体中的任何重复项.因此,我需要写一些东西来摆脱第一个值等于后一个元组的早期元组.

我可以用蛮力做到这一点：

for firstkey, (firstword, firstfactor) in enumerate(wordlist):
    for laterkey, (laterword, laterfactor) in enumerate(wordlist[firstkey+1:]):
        if firstword == laterword:
            del wordlist[firstkey]
            break

但是仅脚本的那部分就花费了将近45秒钟,而我的17000个单词甚至还不是完整的字典. (该代码除完成时间外还未经测试,因此它甚至可能无法工作.)这似乎也非常不符合Python风格,尽管我现在正在学习Python(并且完全做了一些我的第一个编程工作)这个项目.

有一个更好的方法吗？我不能使用set(),因为重复的单词是不相等元组的一部分.我是否需要以某种方式重组我的数据？还是我应该准备每次运行一整分钟后都准备好？

解决方法:

我可能会误解这个问题,但是看来您可以从元组列表中生成一个字典.以后的值将自动覆盖以前的值：

lst = [
    ('foo', 1),
    ('bar', 2),
    ('foo', 10)
]

print dict(lst) # {'foo': 10, 'bar': 2}

标签：performance,data-structures,loops,python
来源： https://codeday.me/bug/20191127/2074712.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

python-从列表中消除半重复项的高性能方法