IBM
diff --git a/‎examples/evaluate_text2sql.py‎
Lines changed: 2 additions & 6 deletions b/‎examples/evaluate_text2sql.py‎
Lines changed: 2 additions & 6 deletions
diff --git a/‎prepare/metrics/text2sql_accuracy.py‎
Lines changed: 265 additions & 0 deletions b/‎prepare/metrics/text2sql_accuracy.py‎
Lines changed: 265 additions & 0 deletions
diff --git a/‎prepare/metrics/text2sql_execution_accuracy.py‎
Lines changed: 0 additions & 65 deletions b/‎prepare/metrics/text2sql_execution_accuracy.py‎
Lines changed: 0 additions & 65 deletions
diff --git a/‎prepare/processors/text2sql.py‎
Lines changed: 2 additions & 1 deletion b/‎prepare/processors/text2sql.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎prepare/tasks/text2sql.py‎
Lines changed: 5 additions & 1 deletion b/‎prepare/tasks/text2sql.py‎
Lines changed: 5 additions & 1 deletion
diff --git a/‎pyproject.toml‎
Lines changed: 1 addition & 0 deletions b/‎pyproject.toml‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎src/unitxt/catalog/metrics/text2sql/execution_accuracy.json‎
Lines changed: 1 addition & 1 deletion b/‎src/unitxt/catalog/metrics/text2sql/execution_accuracy.json‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/unitxt/catalog/metrics/text2sql/non_execution_accuracy.json‎
Lines changed: 3 additions & 0 deletions b/‎src/unitxt/catalog/metrics/text2sql/non_execution_accuracy.json‎
Lines changed: 3 additions & 0 deletions
@@ -23,18 +23,14 @@
 
 print_dict(
     evaluated_dataset[0],
-    keys_to_print=[
-        "source",
-        "prediction",
-        "subset",
-    ],
+    keys_to_print=["source", "prediction", "subset"],
 )
 print_dict(
     evaluated_dataset[0]["score"]["global"],
 )
 
 assert (
-    evaluated_dataset[0]["score"]["global"]["score"] >= 0.44
+    evaluated_dataset[0]["score"]["global"]["score"] >= 0.43
 ), "results have been degraded, something is wrong with the metric"
 
 # with llama-3-3-70b-instruct
 
@@ -0,0 +1,265 @@
+from unitxt.catalog import add_to_catalog
+from unitxt.metrics import SQLExecutionAccuracy, SQLNonExecutionAccuracy
+from unitxt.test_utils.metrics import test_metric
+
+sql_execution_accuracy_metric = SQLExecutionAccuracy()
+
+predictions = [
+    "SELECT nme FROM employees WHERE department = 'Sales'",
+    "SELECT name FROM employees WHERE department = 'Sales'",
+    "SELECT name FROM employees WHERE department = 'Engineering'",
+    "SELECT id, name FROM employees WHERE department = 'Sales'",
+    "SELECT name FROM employees WHERE department = 'Non-Existent'",
+    "Garbage SELECT *",
+]  # Incorrect column name 'nme'
+references = [
+    ["SELECT name FROM employees WHERE department = 'Sales';"],
+    ["SELECT name FROM employees WHERE department = 'Sales';"],
+    ["SELECT name FROM employees WHERE department = 'Sales';"],
+    ["SELECT name FROM employees WHERE department = 'Sales';"],
+    ["SELECT name FROM employees WHERE department = 'Non-Existent';"],
+    ["SELECT name FROM employees WHERE department = 'Sales';"],
+]
+task_data = [
+    {
+        "db": {
+            "db_id": "mock_db",
+            "db_type": "in_memory",
+            "data": {
+                "employees": {
+                    "columns": ["id", "name", "department", "salary"],
+                    "rows": [
+                        (1, "Alice", "Sales", 50000),
+                        (2, "Bob", "Engineering", 60000),
+                        (3, "Charlie", "Sales", 55000),
+                    ],
+                }
+            },
+        }
+    }
+] * 6
+
+instance_targets = [
+    {
+        "error_message": "Error executing SQL: no such column: nme",
+        "execution_accuracy": 0.0,
+        "gold_df_json": "",
+        "gold_error": 0.0,
+        "non_empty_execution_accuracy": 0.0,
+        "non_empty_gold_df": 0.0,
+        "predicted_df_json": "",
+        "predicted_error": 1.0,
+        "score": 0.0,
+        "score_name": "non_empty_execution_accuracy",
+        "subset_non_empty_execution_result": 0.0,
+    },
+    {
+        "error_message": "",
+        "execution_accuracy": 1.0,
+        "gold_df_json": '{"0":{"0":"Alice","1":"Charlie"}}',
+        "gold_error": 1.0,
+        "non_empty_execution_accuracy": 1.0,
+        "non_empty_gold_df": 1.0,
+        "predicted_df_json": '{"0":{"0":"Alice","1":"Charlie"}}',
+        "predicted_error": 0.0,
+        "score": 1.0,
+        "score_name": "non_empty_execution_accuracy",
+        "subset_non_empty_execution_result": 1.0,
+    },
+    {
+        "error_message": "None",
+        "execution_accuracy": 0.0,
+        "gold_df_json": '{"0":{"0":"Alice","1":"Charlie"}}',
+        "gold_error": 0.0,
+        "non_empty_execution_accuracy": 0.0,
+        "non_empty_gold_df": 1.0,
+        "predicted_df_json": '{"0":{"0":"Bob"}}',
+        "predicted_error": 0.0,
+        "score": 0.0,
+        "score_name": "non_empty_execution_accuracy",
+        "subset_non_empty_execution_result": 0.0,
+    },
+    {
+        "error_message": "None",
+        "execution_accuracy": 0.0,
+        "gold_df_json": '{"0":{"0":"Alice","1":"Charlie"}}',
+        "gold_error": 0.0,
+        "non_empty_execution_accuracy": 0.0,
+        "non_empty_gold_df": 1.0,
+        "predicted_df_json": '{"0":{"0":1,"1":3},"1":{"0":"Alice","1":"Charlie"}}',
+        "predicted_error": 0.0,
+        "score": 0.0,
+        "score_name": "non_empty_execution_accuracy",
+        "subset_non_empty_execution_result": 1.0,
+    },
+    {
+        "error_message": "",
+        "execution_accuracy": 1.0,
+        "gold_df_json": "{}",
+        "gold_error": 1.0,
+        "non_empty_execution_accuracy": 0.0,
+        "non_empty_gold_df": 0.0,
+        "predicted_df_json": "{}",
+        "predicted_error": 0.0,
+        "score": 0.0,
+        "score_name": "non_empty_execution_accuracy",
+        "subset_non_empty_execution_result": 0.0,
+    },
+    {
+        "error_message": "Error executing SQL: no tables specified",
+        "execution_accuracy": 0.0,
+        "gold_df_json": "",
+        "gold_error": 0.0,
+        "non_empty_execution_accuracy": 0.0,
+        "non_empty_gold_df": 0.0,
+        "predicted_df_json": "",
+        "predicted_error": 1.0,
+        "score": 0.0,
+        "score_name": "non_empty_execution_accuracy",
+        "subset_non_empty_execution_result": 0.0,
+    },
+]
+
+
+global_target = {
+    "execution_accuracy": 0.33,
+    "execution_accuracy_ci_high": 0.83,
+    "execution_accuracy_ci_low": 0.0,
+    "gold_error": 0.33,
+    "gold_sql_runtime_ci_high": 0.0,
+    "gold_sql_runtime_ci_low": 0.0,
+    "non_empty_execution_accuracy": 0.17,
+    "non_empty_execution_accuracy_ci_high": 0.67,
+    "non_empty_execution_accuracy_ci_low": 0.0,
+    "non_empty_gold_df": 0.5,
+    "num_of_instances": 6,
+    "predicted_error": 0.33,
+    "predicted_sql_runtime_ci_high": 0.0,
+    "predicted_sql_runtime_ci_low": 0.0,
+    "score": 0.17,
+    "score_ci_high": 0.67,
+    "score_ci_low": 0.0,
+    "score_name": "non_empty_execution_accuracy",
+    "subset_non_empty_execution_result": 0.33,
+    "subset_non_empty_execution_result_ci_high": 0.83,
+    "subset_non_empty_execution_result_ci_low": 0.0,
+}
+
+outputs = test_metric(
+    metric=sql_execution_accuracy_metric,
+    predictions=predictions,
+    references=references,
+    instance_targets=instance_targets,
+    global_target=global_target,
+    task_data=task_data,
+    score_keys_to_ignore=[
+        "predicted_sql_runtime",
+        "gold_sql_runtime",
+        "pred_to_gold_runtime_ratio",
+    ],
+)
+
+add_to_catalog(
+    sql_execution_accuracy_metric, "metrics.text2sql.execution_accuracy", overwrite=True
+)
+
+sql_non_execution_accuracy_metric = SQLNonExecutionAccuracy()
+
+instance_targets = [
+    {
+        "score": 0.0,
+        "score_name": "sqlglot_equivalence",
+        "sql_exact_match": 0.0,
+        "sqlglot_equivalence": 0.0,
+        "sqlglot_optimized_equivalence": 0.0,
+        "sqlglot_validity": 1.0,
+        "sqlparse_equivalence": 0.0,
+        "sqlparse_validity": 1.0,
+    },
+    {
+        "score": 1.0,
+        "score_name": "sqlglot_equivalence",
+        "sql_exact_match": 1.0,
+        "sqlglot_equivalence": 1.0,
+        "sqlglot_optimized_equivalence": 1.0,
+        "sqlglot_validity": 1.0,
+        "sqlparse_equivalence": 0.0,
+        "sqlparse_validity": 1.0,
+    },
+    {
+        "score": 0.0,
+        "score_name": "sqlglot_equivalence",
+        "sql_exact_match": 0.0,
+        "sqlglot_equivalence": 0.0,
+        "sqlglot_optimized_equivalence": 0.0,
+        "sqlglot_validity": 1.0,
+        "sqlparse_equivalence": 0.0,
+        "sqlparse_validity": 1.0,
+    },
+    {
+        "score": 0.0,
+        "score_name": "sqlglot_equivalence",
+        "sql_exact_match": 0.0,
+        "sqlglot_equivalence": 0.0,
+        "sqlglot_optimized_equivalence": 0.0,
+        "sqlglot_validity": 1.0,
+        "sqlparse_equivalence": 0.0,
+        "sqlparse_validity": 1.0,
+    },
+    {
+        "score": 1.0,
+        "score_name": "sqlglot_equivalence",
+        "sql_exact_match": 1.0,
+        "sqlglot_equivalence": 1.0,
+        "sqlglot_optimized_equivalence": 1.0,
+        "sqlglot_validity": 1.0,
+        "sqlparse_equivalence": 0.0,
+        "sqlparse_validity": 1.0,
+    },
+    {
+        "score": 0.0,
+        "score_name": "sqlglot_equivalence",
+        "sql_exact_match": 0.0,
+        "sqlglot_equivalence": 0.0,
+        "sqlglot_optimized_equivalence": 0.0,
+        "sqlglot_validity": 1.0,
+        "sqlparse_equivalence": 0.0,
+        "sqlparse_validity": 1.0,
+    },
+]
+
+
+global_target = {
+    "num_of_instances": 6,
+    "score": 0.33,
+    "score_ci_high": 0.83,
+    "score_ci_low": 0.0,
+    "score_name": "sqlglot_equivalence",
+    "sql_exact_match": 0.33,
+    "sql_exact_match_ci_high": 0.83,
+    "sql_exact_match_ci_low": 0.0,
+    "sqlglot_equivalence": 0.33,
+    "sqlglot_equivalence_ci_high": 0.83,
+    "sqlglot_equivalence_ci_low": 0.0,
+    "sqlglot_optimized_equivalence": 0.33,
+    "sqlglot_optimized_equivalence_ci_high": 0.83,
+    "sqlglot_optimized_equivalence_ci_low": 0.0,
+    "sqlglot_validity": 1.0,
+    "sqlparse_equivalence": 0.0,
+    "sqlparse_validity": 1.0,
+}
+
+outputs = test_metric(
+    metric=sql_non_execution_accuracy_metric,
+    predictions=predictions,
+    references=references,
+    instance_targets=instance_targets,
+    global_target=global_target,
+    task_data=task_data,
+)
+
+add_to_catalog(
+    sql_non_execution_accuracy_metric,
+    "metrics.text2sql.non_execution_accuracy",
+    overwrite=True,
+)
@@ -1,10 +1,11 @@
 from unitxt import add_to_catalog
 from unitxt.operator import SequentialOperator
-from unitxt.processors import GetSQL
+from unitxt.processors import AddPrefix, GetSQL
 
 add_to_catalog(
     SequentialOperator(
         steps=[
+            AddPrefix(field="prediction", prefix="SELECT "),
             GetSQL(field="prediction"),
         ]
     ),
 
@@ -14,7 +14,11 @@
         },
         reference_fields={"query": str},
         prediction_type=str,
-        metrics=["metrics.text2sql.execution_accuracy", "metrics.anls"],
+        metrics=[
+            "metrics.text2sql.execution_accuracy",
+            "metrics.text2sql.non_execution_accuracy",
+            "metrics.anls",
+        ],
     ),
     "tasks.text2sql",
     overwrite=True,
 
@@ -108,6 +108,7 @@ tests = [
     "func_timeout==4.3.5",
     "Wikipedia-API",
     "sqlglot",
+    "sqlparse",
 ]
 ui = [
     "gradio",
 
@@ -1,3 +1,3 @@
 {
-    "__type__": "execution_accuracy"
+    "__type__": "sql_execution_accuracy"
 }
@@ -0,0 +1,3 @@
+{
+    "__type__": "sql_non_execution_accuracy"
+}
Original file line number	Diff line number	Diff line change
`@@ -108,6 +108,7 @@ tests = [`
`108`	`108`	`"func_timeout==4.3.5",`
`109`	`109`	`"Wikipedia-API",`
`110`	`110`	`"sqlglot",`
	`111`	`+ "sqlparse",`
`111`	`112`	`]`
`112`	`113`	`ui = [`
`113`	`114`	`"gradio",`
Original file line number	Diff line number	Diff line change
`@@ -1,3 +1,3 @@`
`1`	`1`	`{`
`2`		`- "__type__": "execution_accuracy"`
	`2`	`+ "__type__": "sql_execution_accuracy"`
`3`	`3`	`}`
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+{`
	`2`	`+ "__type__": "sql_non_execution_accuracy"`
	`3`	`+}`