T-SQL - Apa cara paling efisien untuk mengulang tabel sampai kondisi terpenuhi

10

Dalam mendapat tugas pemrograman di bidang T-SQL.

Tugas:

  1. Orang ingin masuk ke dalam lift setiap orang memiliki berat tertentu.
  2. Urutan orang-orang yang mengantri ditentukan oleh giliran kolom.
  3. Lift memiliki kapasitas maksimal <= 1000 lbs.
  4. Kembalikan nama orang terakhir yang bisa masuk lift sebelum terlalu berat!
  5. Jenis pengembalian harus berupa tabel

masukkan deskripsi gambar di sini

Pertanyaan: Apa cara paling efisien untuk menyelesaikan masalah ini? Jika perulangan benar, apakah ada ruang untuk perbaikan?

Saya menggunakan loop dan tabel # temp, di sini solusi saya:

set rowcount 0
-- THE SOURCE TABLE "LINE" HAS THE SAME SCHEMA AS #RESULT AND #TEMP
use Northwind
go

declare @sum int
declare @curr int
set @sum = 0
declare @id int

IF OBJECT_ID('tempdb..#temp','u') IS NOT NULL
    DROP TABLE #temp

IF OBJECT_ID('tempdb..#result','u') IS NOT NULL
    DROP TABLE #result

create table #result( 
    id int not null,
    [name] varchar(255) not null,
    weight int not null,
    turn int not null
)

create table #temp( 
    id int not null,
    [name] varchar(255) not null,
    weight int not null,
    turn int not null
)

INSERT into #temp SELECT * FROM line order by turn

 WHILE EXISTS (SELECT 1 FROM #temp)
  BEGIN
   -- Get the top record
   SELECT TOP 1 @curr =  r.weight  FROM  #temp r order by turn  
   SELECT TOP 1 @id =  r.id  FROM  #temp r order by turn

    --print @curr
    print @sum

    IF(@sum + @curr <= 1000)
    BEGIN
    print 'entering........ again'
    --print @curr
      set @sum = @sum + @curr
      --print @sum
      INSERT INTO #result SELECT * FROM  #temp where [id] = @id  --id, [name], turn
      DELETE FROM #temp WHERE id = @id
    END
     ELSE
    BEGIN    
    print 'breaaaking.-----'
      BREAK
    END 
  END

   SELECT TOP 1 [name] FROM #result r order by r.turn desc 

Di sini skrip Buat untuk tabel yang saya gunakan Northwind untuk pengujian:

USE [Northwind]
GO

/****** Object:  Table [dbo].[line]    Script Date: 28.05.2018 21:56:18 ******/
SET ANSI_NULLS ON
GO

SET QUOTED_IDENTIFIER ON
GO

CREATE TABLE [dbo].[line](
    [id] [int] NOT NULL,
    [name] [varchar](255) NOT NULL,
    [weight] [int] NOT NULL,
    [turn] [int] NOT NULL,
PRIMARY KEY CLUSTERED 
(
    [id] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY],
UNIQUE NONCLUSTERED 
(
    [turn] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY]
) ON [PRIMARY]

GO

ALTER TABLE [dbo].[line]  WITH CHECK ADD CHECK  (([weight]>(0)))
GO

INSERT INTO [dbo].[line]
    ([id], [name], [weight], [turn])
VALUES
    (5, 'gary', 800, 1),
    (3, 'jo', 350, 2),
    (6, 'thomas', 400, 3),
    (2, 'will', 200, 4),
    (4, 'mark', 175, 5),
    (1, 'james', 100, 6)
;
Legenda
sumber

Jawaban:

16

Anda harus mencoba menghindari loop secara umum. Mereka biasanya kurang efisien daripada solusi berbasis set serta kurang mudah dibaca.

Di bawah ini seharusnya cukup efisien.

Terlebih lagi jika kolom nama dan berat bisa INCLUDE-d dalam indeks untuk menghindari pencarian kunci.

Itu dapat memindai indeks unik secara berurutan turndan menghitung jumlah Weightkolom yang berjalan - kemudian gunakan LEADdengan kriteria pemesanan yang sama untuk melihat berapa jumlah total yang berjalan pada baris berikutnya.

Begitu menemukan baris pertama di mana ini melebihi 1000 atau berada NULL(menunjukkan tidak ada baris berikutnya) maka dapat menghentikan pemindaian.

WITH T1
     AS (SELECT *,
                SUM(Weight) OVER (ORDER BY turn ROWS UNBOUNDED PRECEDING) AS cume_weight
         FROM   [dbo].[line]),
     T2
     AS (SELECT LEAD(cume_weight) OVER (ORDER BY turn) AS next_cume_weight,
                *
         FROM   T1)
SELECT TOP 1 name
FROM   T2
WHERE  next_cume_weight > 1000
        OR next_cume_weight IS NULL
ORDER  BY turn 

Rencana eksekusi

masukkan deskripsi gambar di sini

Dalam prakteknya tampaknya membaca beberapa baris di depan di mana sangat diperlukan - sepertinya setiap pasangan agregat / aliran jendela menyebabkan dua baris tambahan dibaca.

Untuk data sampel dalam pertanyaan idealnya hanya perlu membaca dua baris dari pemindaian indeks tetapi pada kenyataannya itu membaca 6 tetapi ini bukan masalah efisiensi yang signifikan dan tidak menurun karena lebih banyak baris ditambahkan ke tabel (seperti pada demo ini )

Bagi mereka yang tertarik dengan masalah ini, sebuah gambar dengan output baris oleh masing-masing operator (seperti yang ditunjukkan oleh query_trace_column_valuesevent yang diperluas) ada di bawah, baris adalah output secara row_idberurutan (mulai dari 47untuk baris pertama dibaca oleh pemindaian indeks dan finishing di 113untuk TOP)

Klik gambar di bawah untuk membuatnya lebih besar atau sebagai alternatif melihat versi animasi untuk membuat aliran lebih mudah diikuti .

Menjeda animasi pada titik di mana agregat aliran kanan telah memancarkan baris pertama (untuk gary - turn = 1). Tampak jelas bahwa ia menunggu untuk menerima baris pertama dengan WindowCount yang berbeda (untuk Jo - turn = 2). Dan kumparan jendela tidak melepaskan baris "Jo" pertama sampai telah membaca baris berikutnya dengan yang berbeda turn(untuk thomas - turn = 3)

Jadi kumparan jendela dan aliran agregat keduanya menyebabkan baris tambahan untuk dibaca dan ada empat dari ini dalam rencana - karenanya 4 baris tambahan.

masukkan deskripsi gambar di sini

Penjelasan dari kolom yang ditunjukkan di bawah ini (berdasarkan info di sini )

  • NodeName: Pemindaian Indeks, NodeId: 15, ColumnName: kolom tabel dasar id yang dicakup oleh indeks
  • NodeName: Pemindaian Indeks, NodeId: 15, ColumnName: giliran kolom tabel dasar yang dicakup oleh indeks
  • NodeName: Clustered Index Seek, NodeId: 17, ColumnName: kolom tabel basis berat diambil dari pencarian
  • NodeName: Clustered Index Seek, NodeId: 17, ColumnName: nama tabel tabel kolom diambil dari pencarian
  • NodeName: Segment, NodeId: 13, ColumnName: Segment1010 Mengembalikan 1 pada awal grup baru atau nol jika tidak. Karena tidak Partition Bydi SUMbaris pertama saja mendapat 1
  • NodeName: Sequence Project, NodeId: 12, ColumnName: RowNumber1009 row_number() dalam grup yang ditandai dengan flag Segment1010. Karena semua baris berada di grup yang sama, ini adalah bilangan bulat naik dari 1 menjadi 6. Akan digunakan untuk memfilter baris frame kanan dalam kasus seperti rows between 5 preceding and 2 following. (atau untuk LEADnanti)
  • NodeName: Segment, NodeId: 11, ColumnName: Segment1011 Mengembalikan 1 pada awal grup baru atau nol sebaliknya. Karena tidak Partition Bydi SUMbaris pertama saja mendapat 1 (Sama dengan Segment1010)
  • NodeName: Spool Jendela, NodeId: 10, ColumnName: WindowCount1012 Atribut bahwa grup-grup bersama-sama baris milik bingkai jendela. Spool jendela ini menggunakan case "fast track" untuk UNBOUNDED PRECEDING. Di mana ia memancarkan dua baris per baris sumber. Satu dengan nilai kumulatif dan satu dengan nilai detail. Meskipun tidak ada perbedaan yang terlihat dalam baris yang diekspos oleh query_trace_column_valuessaya berasumsi bahwa kolom kumulatif ada dalam kenyataannya.
  • NodeName: Stream Aggregate, NodeId: 9, ColumnName: Expr1004 Count(*) dikelompokkan oleh WindowCount1012 menurut rencana tetapi sebenarnya hitungan berjalan
  • NodeName: Stream Aggregate, NodeId: 9, ColumnName: Expr1005 SUM(weight) dikelompokkan berdasarkan WindowCount1012 sesuai dengan rencana tetapi sebenarnya jumlah menjalankan bobot (yaitu cume_weight)
  • NodeName: Segment, NodeId: 7, ColumnName: Expr1002 CASE WHEN [Expr1004]=(0) THEN NULL ELSE [Expr1005] END - Tidak melihat bagaimana COUNT(*)bisa 0 sehingga akan selalu menjalankan jumlah ( cume_weight)
  • NodeName: Segment, NodeId: 7, ColumnName: Segment1013 Tidak partition bydi LEADbaris pertama jadi 1. Semua yang tersisa dapatkan nol
  • NodeName: Sequence Project, NodeId: 6, ColumnName: RowNumber1006 row_number() dalam grup yang ditunjukkan oleh flag Segment1013. Karena semua baris berada di grup yang sama, ini adalah bilangan bulat naik dari 1 ke 4
  • NodeName: Segmen, NodeId: 4, ColumnName: BottomRowNumber1008 RowNumber1006 + 1 karena LEADmemerlukan satu baris berikutnya
  • NodeName: Segmen, NodeId: 4, ColumnName: TopRowNumber1007 RowNumber1006 + 1 karena LEADmemerlukan satu baris berikutnya
  • NodeName: Segment, NodeId: 4, ColumnName: Segment1014 Tidak partition bydi LEADbaris pertama jadi 1. Semua yang tersisa dapatkan nol
  • NodeName: Spool Jendela, NodeId: 3, ColumnName: WindowCount1015 Atribut bahwa grup bersama-sama baris milik bingkai jendela menggunakan nomor baris sebelumnya. Bingkai jendela untuk LEADmemiliki maksimal 2 baris (yang sekarang dan yang berikutnya)
  • NodeName: Stream Aggregate, NodeId: 2, ColumnName: Expr1003 LAST_VALUE([Expr1002]) untukLEAD(cume_weight)
Martin Smith
sumber
6

Sama seperti rasa ingin tahu (karena pertanyaan menyatakan T-SQL) juga dimungkinkan untuk memecahkan masalah ini secara efisien menggunakan SQLCLR.

Idenya adalah membaca baris satu per satu secara turnberurutan hingga weightmelebihi 1000 (atau kita kehabisan baris), lalu mengembalikan namepembacaan terakhir .

Kode sumbernya adalah:

using Microsoft.SqlServer.Server;
using System.Data;
using System.Data.SqlClient;
using System.Data.SqlTypes;

public partial class UserDefinedFunctions
{
    [SqlFunction(DataAccess = DataAccessKind.Read,
        SystemDataAccess = SystemDataAccessKind.None,
        IsDeterministic = true, IsPrecise = true)]
    [return: SqlFacet(IsFixedLength = false, IsNullable = true, MaxSize = 255)]
    public static SqlString Elevator()
    {
        const string query =
            @"SELECT L.[name], L.[weight]
            FROM dbo.line AS L
            ORDER BY L.turn;";

        using (var con = new SqlConnection("context connection = true"))
        {
            con.Open();
            using (var cmd = new SqlCommand(query, con))
            {
                var rdr = cmd.ExecuteReader(CommandBehavior.SingleResult);
                var name = SqlString.Null;
                var total = 0;

                while (rdr.Read() && (total += rdr.GetInt32(1)) <= 1000)
                {
                    name = rdr.GetSqlString(0);
                }
                return name;
            }
        }
    }
}

Rakitan yang dikompilasi dan fungsi T-SQL:

CREATE ASSEMBLY Elevator AUTHORIZATION [dbo]
FROM 
WITH PERMISSION_SET = SAFE;
GO
CREATE FUNCTION dbo.Elevator ()
RETURNS nvarchar(255)
AS EXTERNAL NAME Elevator.UserDefinedFunctions.Elevator;

Mendapatkan hasilnya:

SELECT dbo.Elevator();
Paul White 9
sumber
1

Sedikit variasi dari solusi Martin Smith

SELECT top 1 name
FROM (
    SELECT id, name, weight, turn
         , SUM(weight) OVER (ORDER BY turn) AS cumulative_weight
    FROM line                               
) as T
WHERE cumulative_weight <= 1000
ORDER BY turn DESC 

RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW adalah bingkai jendela default jadi saya tidak menyatakan itu.

Predikat untuk bobot kumulatif saat ini digunakan sebagai ganti berat kumulatif berikutnya.

Saya belum memeriksa rencana apa pun, jadi saya tidak tahu apakah ada perbedaan dalam hal itu.

Lennart
sumber
Begitu ya, saya dikelilingi oleh Geeks DB :-). Saya harus memeriksa semua kata kunci yang kalian sebutkan untuk memahami apa yang mereka lakukan. Saya hanya melihat Client statistics --> Total Execution Time, bukan Actual execution planyang mungkin paling menarik di sini. Sebagai Client Statisticssolusi Anda sedikit lebih lambat maka Martin. Terima kasih atas info tambahannya. Metode mana yang dapat digunakan untuk mengukur perbedaan kinerja antara berbagai pendekatan?
Legenda
1
Saya khawatir pengetahuan saya tentang SQL-server sangat terbatas sehingga saya tidak memiliki banyak wawasan tentang metrik apa yang digunakan. Martin memiliki db <> tautan biola dalam jawabannya, mungkin Anda dapat melihat rencananya di sana.
Lennart
1
saya belum memeriksa rencana baik tetapi akan membayangkan bahwa ini mungkin akan menghitung total berjalan di seluruh tabel dan kemudian mengurutkan baris yang cocok dengan WHERE. Saya ragu bahwa itu akan menggunakan batasan cek untuk mengetahui bahwa total berjalan benar-benar naik dan dapat berhenti lebih awal. Juga di SQL Server kecuali di mana agregat jendela mode batch digunakan menentukan ROWS daripada RANGE lebih disukai bahkan di mana tidak ada duplikat karena kumparan jendela dalam memori tidak disc
Martin Smith
@ MartinSmith, menarik. Dalam solusi Anda, LEAD memungkinkan untuk mendorong predikat next_cume_weight <10000 di dalam T1 dan menebus lebih awal dari pemindaian indeks? Saya memeriksa rencana untuk pertanyaan saya dan ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROWmemperkenalkan Sequence Project (Compute Scalar), operator. Tidak perlu dikatakan saya tidak tahu apa artinya ini :-)
Lennart
1
Indeks memberikan baris dalam urutan yang dibutuhkan oleh jumlah, timah, dan atas. Segera setelah top menerima baris pertama, ia dapat berhenti meminta lagi baris dan eksekusi dapat berhenti.
Martin Smith
0

Anda bisa melakukan join sendiri:

select 
    a.id, a.turn, a.game, 
    coalesce(sum(b.weight), 0) as cumulative_weight
from
    table a
left join 
    table b
on
    a.turn > b.turn
group by
    a.id, a.turn, a.game ;

Hal semacam ini tidak terlalu efisien karena menyebabkan pilih per baris. Tapi setidaknya itu dinyatakan sebagai satu pernyataan.

Jika Anda tidak harus melakukannya sepenuhnya dalam SQL maka Anda dapat dengan mudah memilih semua baris dan mengulanginya, menambahkan saat Anda pergi.

Anda bisa melakukan hal yang sama dalam prosedur tersimpan tanpa tabel temp juga. Cukup tahan jumlah dan nama baris terakhir dalam sebuah variabel.

ypercubeᵀᴹ
sumber
Maaf, saya tidak tahu bagaimana cara membuatnya bekerja dengan self-join, jika Anda bisa membuat contoh kecil yang dapat direproduksi, saya telah menambahkan definisi tabel ke pertanyaan saya. Sql saya jelek .... Saya perlu nama orang yang paling dekat dengan <= 1000 lbs.
Legenda
Sepertinya pembaruan Anda berfungsi dengan baik, Anda harus sedikit bermain-main dengannya jika Anda ingin menghasilkan output yang tepat. Tapi seperti yang saya katakan, itu tidak sangat efisien
Baik? Saya mendapatkan null untuk Person dengan id 5 ...
Legends
itu aneh, saya akan mengharapkan jumlah () mengembalikan 0 untuk jumlah lebih dari 0 baris
SUM lebih dari 0 baris bukan 0 (sayangnya). Anda perlu menggunakan COALESCE()atau ISNULL()fungsi atau CASEekspresi untuk membuatnya 0.
ypercubeᵀᴹ