add column names

16ec9503 · 赵威 · 13456735 · 16ec9503 · 16ec9503 · 16ec9503
Commit 16ec9503 authored Nov 16, 2020 by 赵威
Hide whitespace changes
Inline Side-by-side

Showing with 26 additions and 24 deletions

get_data.py personas_vector/get_data.py +6 -6

to_vector.py personas_vector/to_vector.py +17 -16

files.py utils/files.py +3 -2

No files found.
--- a/personas_vector/get_data.py
+++ b/personas_vector/get_data.py
@@ -18,13 +18,13 @@ if __name__ == "__main__":
    days = 5  # TODO days 30
    start, end = get_ndays_before_no_minus(days), get_ndays_before_no_minus(1)
-    click_df = get_click_data(spark, card_type, start, end)
+    # click_df = get_click_data(spark, card_type, start, end)
-    save_df_to_csv(click_df, "personas_tractate_click.csv")
+    # save_df_to_csv(click_df, "personas_tractate_click.csv")
-    print(click_df.shape)
+    # print(click_df.shape)
-    exposure_df = get_exposure_data(spark, card_type, start, end)
+    # exposure_df = get_exposure_data(spark, card_type, start, end)
-    save_df_to_csv(exposure_df, "personas_tractate_exposure.csv")
+    # save_df_to_csv(exposure_df, "personas_tractate_exposure.csv")
-    print(exposure_df.shape)
+    # print(exposure_df.shape)
    device_feature_df = get_device_tags(spark)
    save_df_to_csv(device_feature_df, "personas_device_feature.csv")

--- a/personas_vector/dssm_model.py
+++ b/personas_vector/dssm_model.py
@@ -4,6 +4,7 @@ import sys
 sys.path.append(os.path.realpath("."))
 import pandas as pd
+from gensim.models import Word2Vec, word2vec
 from utils.defs import nth_element
 from utils.files import get_df
@@ -17,23 +18,23 @@ TRACTATE_COLUMNS = [
 def device_tractae_fe():
-    click_df = get_df("personas_tractate_click.csv")
+    pass
-    exposure_df = get_df("personas_tractate_exposure.csv")
-    device_fe_df = get_df("personas_device_feature.csv")
-    tractate_tags_df = get_df("personas_tractate_tags.csv")
-    print(click_df.shape)
-    print(exposure_df.shape)
-    print(device_fe_df.shape)
-    print(tractate_tags_df.shape)
 if __name__ == "__main__":
-    click_df = get_df("personas_tractate_click.csv")
+    device_fe_df = get_df("personas_device_feature.csv",
-    exposure_df = get_df("personas_tractate_exposure.csv")
+                          columns=[
-    device_fe_df = get_df("personas_device_feature.csv")
+                              "cl_id",
-    tractate_tags_df = get_df("personas_tractate_tags.csv")
+                              "first_demands",
-    print(click_df.shape)
+                              "first_solutions",
-    print(exposure_df.shape)
+                              "first_positions",
-    print(device_fe_df.shape)
+                              "second_demands",
-    print(tractate_tags_df.shape)
+                              "second_solutions",
+                              "second_positions",
+                              "projects",
+                              "business_tags",
+                          ])
+    print(device_fe_df.head(3))
+    tractate_tags_df = get_df("personas_tractate_tags.csv", columns=["tractate_id", "business_tags"])
    print(tractate_tags_df.head(3))
--- a/utils/files.py
+++ b/utils/files.py
@@ -32,8 +32,9 @@ def save_dict_to_csv(d, file):
                f.write("{}|{}\n".format(k, ",".join([str(x) for x in v])))
-def get_df(file):
+def get_df(file, sep="|", columns=[]):
    full_path = os.path.join(DATA_PATH, file)
    print(full_path)
-    df = pd.read_csv(full_path, sep="|")
+    df = pd.read_csv(full_path, sep="|", names=columns)
+    print(df.shape)
    return df