Don't assume a subquery's output is unique if there's a SRF in its tlist.
authorTom Lane <tgl@sss.pgh.pa.us>
Tue, 8 Jul 2014 18:03:32 +0000 (14:03 -0400)
committerTom Lane <tgl@sss.pgh.pa.us>
Tue, 8 Jul 2014 18:03:32 +0000 (14:03 -0400)
While the x output of "select x from t group by x" can be presumed unique,
this does not hold for "select x, generate_series(1,10) from t group by x",
because we may expand the set-returning function after the grouping step.
(Perhaps that should be re-thought; but considering all the other oddities
involved with SRFs in targetlists, it seems unlikely we'll change it.)
Put a check in query_is_distinct_for() so it's not fooled by such cases.

Back-patch to all supported branches.

David Rowley

src/backend/optimizer/util/pathnode.c
src/test/regress/expected/subselect.out
src/test/regress/sql/subselect.sql

index 3f506ae3b06a7de44c5f8446f98cbc64c6581476..ee11679041203d23b13507ce9abe01d96d457f6c 100644 (file)
@@ -19,6 +19,7 @@
 #include "catalog/pg_operator.h"
 #include "executor/executor.h"
 #include "miscadmin.h"
+#include "nodes/nodeFuncs.h"
 #include "optimizer/clauses.h"
 #include "optimizer/cost.h"
 #include "optimizer/pathnode.h"
@@ -1093,6 +1094,17 @@ query_is_distinct_for(Query *query, List *colnos, List *opids)
 
    Assert(list_length(colnos) == list_length(opids));
 
+   /*
+    * A set-returning function in the query's targetlist can result in
+    * returning duplicate rows, if the SRF is evaluated after the
+    * de-duplication step; so we play it safe and say "no" if there are any
+    * SRFs.  (We could be certain that it's okay if SRFs appear only in the
+    * specified columns, since those must be evaluated before de-duplication;
+    * but it doesn't presently seem worth the complication to check that.)
+    */
+   if (expression_returns_set((Node *) query->targetList))
+       return false;
+
    /*
     * DISTINCT (including DISTINCT ON) guarantees uniqueness if all the
     * columns in the DISTINCT clause appear in colnos and operator semantics
index 6194d259a1072a6d9449c85340179113c5d6d0ee..c9d80bc045a1b3550f1262216dadbfef28a98afa 100644 (file)
@@ -650,3 +650,15 @@ select * from int4_tbl where
   0
 (1 row)
 
+--
+-- Check for incorrect optimization when IN subquery contains a SRF
+--
+set enable_hashjoin to 0;
+select * from int4_tbl o where (f1, f1) in
+  (select f1, generate_series(1,2) / 10 g from int4_tbl i group by f1);
+ f1 
+----
+  0
+(1 row)
+
+reset enable_hashjoin;
index 33b894c2b5e2b57e42f4b1766f1b695c25970417..a748889b23d4c2d2b038ea7750d96b11b15cf77b 100644 (file)
@@ -396,3 +396,11 @@ where a.thousand = b.thousand
 select * from int4_tbl where
   (case when f1 in (select unique1 from tenk1 a) then f1 else null end) in
   (select ten from tenk1 b);
+
+--
+-- Check for incorrect optimization when IN subquery contains a SRF
+--
+set enable_hashjoin to 0;
+select * from int4_tbl o where (f1, f1) in
+  (select f1, generate_series(1,2) / 10 g from int4_tbl i group by f1);
+reset enable_hashjoin;