No SQL Server, posso garantir um pedido sem uma cláusula ORDER BY explícita quando uma pesquisa de índice é forçada em uma tabela com apenas um índice em cluster?


24

Atualização 18/12/2014

Com a resposta esmagadora à pergunta principal sendo "Não", as respostas mais interessantes se concentraram na parte 2, como resolver o quebra-cabeça do desempenho de forma explícita ORDER BY. Embora eu já tenha marcado uma resposta, não ficaria surpreso se houvesse uma solução com desempenho ainda melhor.

Original

Essa questão surgiu porque a única solução extremamente rápida que eu poderia encontrar para um problema em particular só funciona sem uma ORDER BYcláusula. Abaixo está o T-SQL completo necessário para produzir o problema, juntamente com a minha solução proposta (estou usando o SQL Server 2008 R2, se isso for importante).

--Create Orders table
IF OBJECT_ID('tempdb..#Orders') IS NOT NULL DROP TABLE #Orders
CREATE TABLE #Orders
(  
       OrderID    INT NOT NULL IDENTITY(1,1)
     , CustID     INT NOT NULL
     , StoreID    INT NOT NULL       
     , Amount     FLOAT NOT NULL
)
CREATE CLUSTERED INDEX IX ON #Orders (StoreID, Amount DESC, CustID)

--Add 1 million rows w/ 100K Customers each of whom had 10 orders
;WITH  
    Cte0 AS (SELECT 1 AS C UNION ALL SELECT 1), --2 rows  
    Cte1 AS (SELECT 1 AS C FROM Cte0 AS A, Cte0 AS B),--4 rows  
    Cte2 AS (SELECT 1 AS C FROM Cte1 AS A ,Cte1 AS B),--16 rows 
    Cte3 AS (SELECT 1 AS C FROM Cte2 AS A ,Cte2 AS B),--256 rows 
    Cte4 AS (SELECT 1 AS C FROM Cte3 AS A ,Cte3 AS B),--65536 rows 
    Cte5 AS (SELECT 1 AS C FROM Cte4 AS A ,Cte2 AS B),--1048576 rows 
    FinalCte AS (SELECT  ROW_NUMBER() OVER (ORDER BY C) AS Number FROM   Cte5)
INSERT INTO #Orders (CustID, StoreID, Amount)
SELECT CustID = Number / 10
     , StoreID    = Number % 4
     , Amount     = 1000 * RAND(Number)
FROM  FinalCte
WHERE Number <= 1000000

SET STATISTICS IO ON
SET STATISTICS TIME ON

--For StoreID = 1, find the top 500 customers ordered by their most expensive purchase (Amount)

--Solution A: Without ORDER BY
DECLARE @Top INT = 500
SELECT DISTINCT TOP (@Top) CustID
FROM #Orders WITH(FORCESEEK)
WHERE StoreID = 1
OPTION(OPTIMIZE FOR (@Top = 1), FAST 1);
--9 logical reads, CPU Time = 0 ms, elapsed time = 1 ms
GO
--Solution B: With ORDER BY
DECLARE @Top INT = 500
SELECT TOP (@Top) CustID
FROM #Orders
WHERE StoreID = 1
GROUP BY CustID
ORDER BY MAX(Amount) DESC
OPTION(MAXDOP 1)
--745 logical reads, CPU Time = 141 ms, elapsed time = 145 ms
--Uses Sort operator

GO

Aqui estão os planos de execução para as soluções A e B, respectivamente:

Sol A

Sol B

A solução A fornece o desempenho necessário, mas não consegui fazê-lo funcionar com o mesmo desempenho ao adicionar qualquer cláusula ORDER BY (por exemplo, consulte a Solução B). E certamente parece que a Solução A teria que entregar seus resultados em ordem, pois 1) a tabela possui apenas um índice, 2) uma busca é forçada, eliminando assim a possibilidade de usar uma verificação de ordem de alocação com base nas páginas do IAM .

Então, minhas perguntas são:

  1. Estou certo de que garantirá a ordem neste caso sem uma ordem por cláusula?

  2. Caso contrário, existe outro método para forçar um plano tão rápido quanto a Solução A, preferencialmente um método que evite classificações? Observe que ele precisaria resolver exatamente o mesmo problema (para StoreID = 1encontrar os 500 principais clientes pedidos pelo valor de compra mais caro). Também seria necessário usar a #Orderstabela, mas diferentes esquemas de indexação seriam aceitáveis.


16
O pedido só é garantido se você usar ORDER BY.
Alroc

8
" Estou certo de que garantirá a ordem neste caso sem uma ordem por cláusula " - não, absolutamente não.
a_horse_with_no_name

3
Aqui está um artigo que faz um ótimo trabalho explicando isso. blogs.msdn.com/b/conor_cunningham_msft/archive/2008/08/27/…
Sean Lange

@SeanLange: Como você e outras pessoas, não me sinto à vontade para deixar de fora o pedido pelas mesmas razões. No entanto, a) não consigo encontrar uma consulta com o mesmo desempenho que a Solução A que usa ORDER BY eb) não conheço nenhuma maneira de ordená-las incorretamente. Você? Não estou dizendo que não há uma maneira, apenas não conheço uma, e esperava que alguém pudesse articular uma, se ela existisse. Mesmo os exemplos no artigo que você referenciou se aplicam apenas a verificações não solicitadas.
JohnnyM

ATUALIZAÇÃO: alterei o tipo de dados da quantia e o método de cálculo para evitar tantas duplicatas. Todos os princípios ainda se aplicam. Embora neste problema eu não me importo com quem ganha quando há um empate, ter tantos empates dificultou a visualização do que estava acontecendo ao observar os dados. É muito mais claro agora que, exceto pelos empates, as soluções A e B produzem os mesmos resultados.
precisa

Respostas:


23
  1. Estou certo de que garantirá a ordem neste caso sem uma ordem por cláusula?

Não. Um fluxo distinto que preserva a ordem (permitindo ORDER BYsem classificação) não está implementado no SQL Server hoje. É possível fazer isso em princípio, mas muitas coisas serão possíveis se tivermos permissão para alterar o código-fonte do SQL Server. Se você pode defender esse trabalho de desenvolvimento, sugira-o à Microsoft .

  1. Caso contrário, existe outro método para forçar um plano tão rápido quanto a Solução A, preferencialmente um método que evite classificações?

Sim. (Dicas de tabela e consulta necessárias apenas ao usar o estimador de cardinalidade anterior a 2014):

-- Additional index
CREATE UNIQUE NONCLUSTERED INDEX i 
ON #Orders (StoreID, CustID, Amount, OrderID);

-- Query
SELECT TOP (500) 
    O.CustID, 
    O.Amount
FROM #Orders AS O
    WITH (FORCESEEK(IX (StoreID)))
WHERE O.StoreID = 1
AND NOT EXISTS
(
    SELECT NULL
    FROM #Orders AS O2
        WITH (FORCESEEK(i (StoreID, CustID, Amount)))
    WHERE 
        O2.StoreID = O.StoreID
        AND O2.CustID = O.CustID
        AND O2.Amount >= O.Amount
        AND
        (
            O2.Amount > O.Amount
            OR
            (
                O2.Amount = O.Amount
                AND O2.OrderID > O.OrderID
            )
        )
)
ORDER BY
    O.Amount DESC
OPTION (MAXDOP 1);

Plano de execução real

(500 row(s) affected)

 SQL Server Execution Times:
   CPU time = 0 ms,  elapsed time = 4 ms.

Solução SQL CLR

O script a seguir mostra o uso de uma função com valor de tabela do SQL CLR para atender aos requisitos declarados. Como eu não sou especialista em C #, o código pode ter melhorias:

USE Sandpit;
GO
-- Ensure SQLCLR is enabled
EXECUTE sys.sp_configure
    @configname = 'clr enabled',
    @configvalue = 1;
RECONFIGURE;
GO
-- Lazy, but effective to allow EXTERNAL_ACCESS
ALTER DATABASE Sandpit
SET TRUSTWORTHY ON;
GO
-- The CLR assembly
CREATE ASSEMBLY FlowDistinctOrder
AUTHORIZATION dbo
FROM 
WITH PERMISSION_SET = EXTERNAL_ACCESS;
GO
-- The CLR TVF with order guarantee
CREATE FUNCTION dbo.FlowDistinctOrder 
(
    @ServerName nvarchar(128), 
    @DatabaseName nvarchar(128), 
    @MaxRows bigint
)
RETURNS TABLE 
(
    CustID integer NULL, 
    Amount float NULL
)
ORDER (Amount DESC)
AS EXTERNAL NAME FlowDistinctOrder.UserDefinedFunctions.FlowDistinctOrder;

Tabela de teste e dados de amostra da pergunta:

-- Test table
CREATE TABLE dbo.Orders
(  
    OrderID    integer  NOT NULL IDENTITY(1,1),
    CustID     integer  NOT NULL,
    StoreID    integer  NOT NULL,
    Amount     float    NOT NULL
);
GO
-- Sample data
WITH  
    Cte0 AS (SELECT 1 AS C UNION ALL SELECT 1), --2 rows  
    Cte1 AS (SELECT 1 AS C FROM Cte0 AS A, Cte0 AS B),--4 rows  
    Cte2 AS (SELECT 1 AS C FROM Cte1 AS A ,Cte1 AS B),--16 rows 
    Cte3 AS (SELECT 1 AS C FROM Cte2 AS A ,Cte2 AS B),--256 rows 
    Cte4 AS (SELECT 1 AS C FROM Cte3 AS A ,Cte3 AS B),--65536 rows 
    Cte5 AS (SELECT 1 AS C FROM Cte4 AS A ,Cte2 AS B),--1048576 rows 
    FinalCte AS (SELECT  ROW_NUMBER() OVER (ORDER BY C) AS Number FROM   Cte5)
INSERT dbo.Orders 
    (CustID, StoreID, Amount)
SELECT 
    CustID  = Number / 10,
    StoreID = Number % 4,
    Amount  = 1000 * RAND(Number)
FROM FinalCte
WHERE 
    Number <= 1000000;
GO
-- Index
CREATE CLUSTERED INDEX IX 
ON dbo.Orders 
    (StoreID ASC, Amount DESC, CustID ASC);

Teste de funcionamento:

-- Test the function
-- Run several times to ensure connection is cached
-- and CLR code fully compiled
DECLARE @Start datetime2 = SYSUTCDATETIME();

SELECT TOP (500) 
    FDO.CustID
FROM dbo.FlowDistinctOrder
(
    @@SERVERNAME,   -- For external connection
    DB_NAME(),      -- For external connection
    500             -- Number of rows to return
) AS FDO 
ORDER BY 
    FDO.Amount DESC;

SELECT DATEDIFF(MILLISECOND, @Start, SYSUTCDATETIME());

Plano de execução (observe a validação da ORDERgarantia):

Plano de execução da função CLR

No meu laptop, isso geralmente é executado em 80-100ms. Isso não chega nem perto da velocidade da reescrita do T-SQL acima, mas deve mostrar boa estabilidade de desempenho diante das diferentes distribuições de dados.

Código fonte:

using Microsoft.SqlServer.Server;
using System.Collections;
using System.Collections.Generic;
using System.Data.SqlClient;

public partial class UserDefinedFunctions
{
    private sealed class ReverseComparer<T> : IComparer<T>
    {
        private readonly IComparer<T> original;

        public ReverseComparer(IComparer<T> original)
        {
            this.original = original;
        }

        public int Compare(T left, T right)
        {
            return original.Compare(right, left);
        }
    }

    [SqlFunction
        (
        DataAccess = DataAccessKind.Read,
        SystemDataAccess = SystemDataAccessKind.None,
        FillRowMethodName = "FillRow",
        TableDefinition = "CustID integer NULL, Amount float NULL"
        )
    ]
    public static IEnumerable FlowDistinctOrder
        (
        [SqlFacet (MaxSize=128)]string ServerName, 
        [SqlFacet (MaxSize=128)]string DatabaseName,
        long MaxRows
        )
    {
        var list = new SortedDictionary<double, int>
            (new ReverseComparer<double>(Comparer<double>.Default));

        var csb = new SqlConnectionStringBuilder();
        csb.ConnectTimeout = 10;
        csb.DataSource = ServerName;
        csb.Enlist = false;
        csb.InitialCatalog = DatabaseName;
        csb.IntegratedSecurity = true;

        using (var conn = new SqlConnection(csb.ConnectionString))
        {
            conn.Open();
            using (var cmd = conn.CreateCommand())
            {
                cmd.CommandText =
                    @"
                    SELECT
                        O.CustID, 
                        O.Amount
                    FROM dbo.Orders AS O
                    WHERE 
                        O.StoreID = 1 
                    ORDER BY 
                        O.Amount DESC";

                int custid;
                double amount;

                using (var rdr = cmd.ExecuteReader())
                {
                    while (rdr.Read())
                    {
                        custid = rdr.GetInt32(0);
                        amount = rdr.GetDouble(1);

                        if (!list.ContainsKey(amount))
                        {
                            list.Add(amount, custid);
                            if (list.Count == MaxRows)
                            {
                                break;
                            }
                        }
                    }
                }
            }
        }
        return list;
    }

    public static void FillRow(object obj, out int CustID, out double Amount)
    {
        var v = (KeyValuePair<double, int>)obj;
        CustID = v.Value;
        Amount = v.Key;
    }
}

6

Sem ORDER BYmuitas coisas podem dar errado. Você excluiu todos os problemas possíveis em que consigo pensar, mas isso não significa que não há nenhum problema nem haverá um em uma versão futura.

Isso deve funcionar:

Puxe lotes de 500 linhas da tabela em um loop e pare quando tiver 500 IDs de clientes distintos. A consulta de busca pode ficar assim:

select TOP (500) Amount, CustID
into #fetchedOrders
from Orders
where StoreID = 1234 and Amount <= @lastAmountFetched
order by Amount DESC

Isso executará uma verificação de intervalo ordenada no índice. O Amount <= @lastAmountFetchedpredicado está lá para extrair incrementalmente mais registros. Cada consulta toca apenas fisicamente em 500 registros. Isso significa que é O (1). Não fica mais caro quanto mais você entra no índice.

É necessário manter a variável @lastAmountFetchedpara diminuir para o menor valor que você buscou nessa instrução.

Dessa forma, você fará a varredura incremental do índice de maneira ordenada. Você lerá no máximo (500 - 1) linhas mais do que a quantidade ideal seria.

Isso será muito mais rápido do que sempre agregar mais de 100000 pedidos para uma loja específica. Provavelmente, apenas algumas iterações de 500 linhas cada serão necessárias.

Essencialmente, este é um operador distinto de fluxo codificado manualmente.

Como alternativa, use um cursor para buscar o menor número possível de linhas. Isso será muito mais lento porque a execução de 500 consultas de linha única na maioria das vezes é mais lenta do que a execução de um lote de 500 linhas.

Como alternativa, basta consultar todas as linhas sem DISTINCTuma ordem ordenada e fazer com que o aplicativo cliente encerre a consulta assim que retornar linhas suficientes (usando SqlCommand.Cancel).


11
Falta um detalhe crucial - como você garantirá #fetchedOrdersque não contenha clientes que já vimos? Presumivelmente, isso envolve uma busca de índice na tabela temporária, que não é exatamente a mesma coisa que um "fluxo distinta" e não ficar mais caros os mais linhas que vimos (embora ainda vai bater solução B em todos, mas o pior caso de ter que verificar todas as linhas porque há apenas um cliente, para o qual A e B terão desempenho idêntico).

2
@JeroenMostert - IGNORE_DUP_KEYpoderia fazer isso.
Martin Smith

@usr: Obrigado por isso. Eu o codifiquei usando IGNORE_DUP_KEY e corri os números e obtive o tempo da CPU = 31ms, tempo decorrido = 27ms. Embora seja muito mais rápido que a Solução B, não está nem perto da Solução A (cpu = 0, ms = 1), que, para meus propósitos, precisa ser. Quando você disse: "Você excluiu todos os problemas possíveis em que consigo pensar", fico imaginando se excluí todos os problemas em que alguém possa pensar. O mais frustrante é que eu posso imaginar o que o SQL precisa fazer para obter o desempenho de A, só não sei como contar isso usando um ORDER BY.
JohnnyM
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.