ansaurus

Question

Set based way to classify rows based on dates fitting inside a rolling two hour window

Answer 1

A:

Edit: Here's quite a ridiculous solution that appears to bring back the right results though.

http://cloudexchange.cloudapp.net/stackoverflow/q/2282

 WITH DATE AS
(
SELECT '20100530 00:00:00.000'  AS CreateDate UNION ALL
SELECT '20100530 00:01:00.000' UNION ALL
SELECT '20100530 01:59:00.000' UNION ALL
SELECT '20100530 01:59:00.000' UNION ALL
SELECT '20100530 03:58:00.000' UNION ALL
SELECT '20100530 03:58:00.000' UNION ALL
SELECT '20100530 05:57:00.000' UNION ALL
SELECT '20100530 06:57:00.000' UNION ALL
SELECT '20100530 07:56:00.000' UNION ALL
SELECT '20100530 07:56:00.000' UNION ALL
SELECT '20100530 08:55:00.000' UNION ALL
SELECT '20100530 11:54:00.000'
),PossibleBuckets As
(
SELECT     earlier.CreateDate, MIN(later.CreateDate) AS NextBucket
FROM         Date AS earlier INNER JOIN
                      Date AS later ON later.CreateDate > earlier.CreateDate 
and later.CreateDate > DATEADD(hour, 2, earlier.CreateDate)  
GROUP BY earlier.CreateDate
),
dates AS (
    SELECT   TOP(1)  CreateDate, NextBucket, 1 AS rank
    FROM         PossibleBuckets
    ORDER BY CreateDate
  UNION ALL
  SELECT   PB.CreateDate, PB.NextBucket, Rank + 1 AS Rank
    FROM   PossibleBuckets PB
    JOIN dates on dates.NextBucket = PB.CreateDate
)
SELECT d.CreateDate, COALESCE(x.Rank, (SELECT MAX(Rank)+1 FROM dates), 1) AS Rank
  FROM date d left join dates x on d.CreateDate >= x.CreateDate AND d.CreateDate < x.NextBucket

Martin Smith 2010-06-04 21:16:24

Thanks, Martin, but the two hour buckets aren't fixed. They need to be reset based on the value in the tables. So my buckets aren't 12:00:00 AM, 2:00:00 AM, 4:00:00 AM, etc. They're 12:00 AM - 2:00 AM, 3:58 - 5:58, 6:57 - 8:57, and 11:54 - 1:54 PM

Jason 2010-06-04 21:19:39

Ah I missed that!

Martin Smith 2010-06-04 21:23:43

Thanks, Martin. I'm going to test performance today with each solution on our larger datasets.

Jason 2010-06-07 15:01:37

@Jason Cool. Would be interested to hear the results. I wonder whether this is something for which a cursor is actually best.

Martin Smith 2010-06-07 15:16:56

Answer 2

+1 A:

Nasty but works http://cloudexchange.cloudapp.net/stackoverflow/q/2281

Aggregates are not allowed in the recursive part of a CTE.

DECLARE @t AS TABLE (dt datetime) ;
INSERT  INTO @t
VALUES  ('5/30/10 12:00 AM')
INSERT  INTO @t
VALUES  ('5/30/10 12:01 AM')
INSERT  INTO @t
VALUES  ('5/30/10 1:59 AM')
INSERT  INTO @t
VALUES  ('5/30/10 1:59 AM') 
INSERT  INTO @t
VALUES  ('5/30/10 3:58 AM') 
INSERT  INTO @t
VALUES  ('5/30/10 3:58 AM') 
INSERT  INTO @t
VALUES  ('5/30/10 5:57 AM') 
INSERT  INTO @t
VALUES  ('5/30/10 6:57 AM') 
INSERT  INTO @t
VALUES  ('5/30/10 7:56 AM') 
INSERT  INTO @t
VALUES  ('5/30/10 7:56 AM')
INSERT  INTO @t
VALUES  ('5/30/10 8:55 AM')
INSERT  INTO @t
VALUES  ('5/30/10 11:54 AM') ;
WITH    CTE
          AS (
              SELECT    dt
                       ,1 AS bucket
              FROM      @t
              WHERE     dt = (
                              SELECT    MIN(dt)
                              FROM      @t
                             )
              UNION ALL
              SELECT    t.dt -- Cannot use aggregates here
                       ,CTE.bucket + 1 AS bucket
              FROM      CTE
              INNER JOIN @t AS t
                        ON t.dt >= DATEADD(HOUR, 2, CTE.dt)
             ),
        X AS (
              SELECT    dt
                       ,bucket
                       ,ROW_NUMBER() OVER (PARTITION BY BUCKET ORDER BY dt) AS bucket_start
              FROM      CTE
             ),
        Y AS (
              SELECT    *
              FROM      X
              WHERE     bucket_start = 1
             )
    SELECT  t.*
           ,(
             SELECT MAX(bucket)
             FROM   Y
             WHERE  Y.dt <= t.dt
            ) AS bucket
    FROM    @t AS t

Cade Roux 2010-06-04 22:52:34

Thanks, Cade. This looks great. I'm testing performance on large datasets today.

Jason 2010-06-07 15:00:33

ansaurus

tags:

views:

answers:

Set based way to classify rows based on dates fitting inside a rolling two hour window

related questions