amazon-science · zhjwy9343 · Oct 27, 2025 · Oct 25, 2025 · Oct 25, 2025
diff --git a/main/autog2.py b/main/autog2.py
@@ -206,8 +206,8 @@ def generate_metadata(table_path, dataset_name, data_format='csv'):
         table_meta_dict = {
             'name': table_name,
             'columns': [],
-            'format': 'parquet',
-            'source': 'data/' + table_name + '.pqt'
+            'format': data_format,
+            'source': 'data/' + new_file_name
         }
 
         for column_name, column_dtype in table_df.dtypes.to_dict().items():

diff --git a/multi-table-benchmark/dbinfer_bench/dataset_meta.py b/multi-table-benchmark/dbinfer_bench/dataset_meta.py
@@ -76,6 +76,7 @@ class Config:
 class DBBTableDataFormat(str, Enum):
     PARQUET = 'parquet'
     NUMPY = 'numpy'
+    CSV = 'csv'
 
 class DBBTableSchema(pydantic.BaseModel):
     """Table schema model."""

diff --git a/multi-table-benchmark/dbinfer_bench/table_loader.py b/multi-table-benchmark/dbinfer_bench/table_loader.py
@@ -33,7 +33,12 @@ def numpy_loader(path : str) -> Dict[str, np.ndarray]:
     npz = np.load(path, allow_pickle=True)
     return { name : npz[name] for name in npz.files }
 
+def csv_loader(path : str) -> Dict[str, np.ndarray]:
+    df = pd.read_csv(str(path))
+    return { col : df[col].to_numpy() for col in df }
+
 LOADER_MAP = {
     DBBTableDataFormat.PARQUET : parquet_loader,
     DBBTableDataFormat.NUMPY : numpy_loader,
+    DBBTableDataFormat.CSV : csv_loader
 }