Tenho uma lista de listas em Python:
k = [[1, 2], [4], [5, 6, 2], [1, 2], [3], [4]]
E eu quero remover elementos duplicados dele. Era se fosse uma lista normal não de listas que eu poderia usar set
. Mas, infelizmente, essa lista não é hashable e não pode fazer um conjunto de listas. Apenas de tuplas. Assim, posso transformar todas as listas em tuplas e usar definir e voltar para listas. Mas isso não é rápido.
Como isso pode ser feito da maneira mais eficiente?
O resultado da lista acima deve ser:
k = [[5, 6, 2], [1, 2], [3], [4]]
Eu não me importo em preservar a ordem.
Nota: esta questão é semelhante, mas não exatamente o que eu preciso. Procurado SO, mas não encontrei duplicata exata.
Avaliação comparativa:
import itertools, time
class Timer(object):
def __init__(self, name=None):
self.name = name
def __enter__(self):
self.tstart = time.time()
def __exit__(self, type, value, traceback):
if self.name:
print '[%s]' % self.name,
print 'Elapsed: %s' % (time.time() - self.tstart)
k = [[1, 2], [4], [5, 6, 2], [1, 2], [3], [5, 2], [6], [8], [9]] * 5
N = 100000
print len(k)
with Timer('set'):
for i in xrange(N):
kt = [tuple(i) for i in k]
skt = set(kt)
kk = [list(i) for i in skt]
with Timer('sort'):
for i in xrange(N):
ks = sorted(k)
dedup = [ks[i] for i in xrange(len(ks)) if i == 0 or ks[i] != ks[i-1]]
with Timer('groupby'):
for i in xrange(N):
k = sorted(k)
dedup = list(k for k, _ in itertools.groupby(k))
with Timer('loop in'):
for i in xrange(N):
new_k = []
for elem in k:
if elem not in new_k:
new_k.append(elem)
"loop in" (método quadrático) o mais rápido de todos para listas curtas. Para listas longas, é mais rápido que todos, exceto o método groupby. Isso faz sentido?
Para uma lista curta (a do código), 100.000 iterações:
[set] Elapsed: 1.3900001049
[sort] Elapsed: 0.891000032425
[groupby] Elapsed: 0.780999898911
[loop in] Elapsed: 0.578000068665
Para uma lista mais longa (aquela no código duplicada 5 vezes):
[set] Elapsed: 3.68700003624
[sort] Elapsed: 3.43799996376
[groupby] Elapsed: 1.03099989891
[loop in] Elapsed: 1.85900020599