native_queue 取top50%的日记

5cc22188 · 张彦钊 · 6013308d · 5cc22188 · 5cc22188 · 5cc22188
Commit 5cc22188 authored 6 years ago by 张彦钊
5 changed files
--- a/eda/esmm/Feature_pipline/data2ffm.py
+++ b/eda/esmm/Feature_pipline/data2ffm.py
@@ -38,10 +38,6 @@ class multiFFMFormatPandas:
        self.y = None

    def fit(self, df, y=None):
-        b = df.dtypes
-        c = list(b.values)
-        d =tuple(df.dtypes.to_dict())
-        f = dict(zip(d,c))
        self.y = y
        df_ffm = df[df.columns.difference([self.y])]
        if self.field_index_ is None:
@@ -53,14 +49,10 @@ class multiFFMFormatPandas:
        if self.feature_index_ is None:
            self.feature_index_ = dict()

+        for col in df.columns:
+            self.feature_index_[col] = 1
            last_idx = 1
-        l = list(df.columns)
-        l.remove(y)
-        for col in l:
-            if f[col]=="O":
-                vals = list(df[col].unique())
-                vals.append("na")
-                vals = set(vals)
+            vals = df[col].unique()
            for val in vals:
                if pd.isnull(val):
                    continue
@@ -68,9 +60,6 @@ class multiFFMFormatPandas:
                if name not in self.feature_index_:
                    self.feature_index_[name] = last_idx
                    last_idx += 1
-            else:
-                self.feature_index_[col] = last_idx
-                last_idx += 1
        return self

    def fit_transform(self, df, y=None,n=50000,processes=4):
@@ -110,7 +99,6 @@ class multiFFMFormatPandas:
        result_map = {}
        for i in data_list:
            result_map.update(i.get())
-
        pool.close()
        pool.join()

@@ -140,60 +128,52 @@ class multiFFMFormatPandas:
            return pd.Series({idx: self.transform_row_(row, t) for idx, row in df.iterrows()})


+    # 下面这个方法不是这个类原有的方法，是新增的。目的是用来判断这个用户是不是在训练数据集中存在
+    def is_feature_index_exist(self, name):
+        if name in self.feature_index_:
+            return True
+        else:
+            return False
+
+
 def get_data():
    db = pymysql.connect(host='10.66.157.22', port=4000, user='root', passwd='3SYz54LS9#^9sBvC', db='jerry_test')
    sql = "select max(stat_date) from esmm_train_data"
    validate_date = con_sql(db, sql)[0].values.tolist()[0]
    print("validate_date:" + validate_date)
    temp = datetime.datetime.strptime(validate_date, "%Y-%m-%d")
-    start = (temp - datetime.timedelta(days=60)).strftime("%Y-%m-%d")
+    start = (temp - datetime.timedelta(days=30)).strftime("%Y-%m-%d")
    print(start)
    db = pymysql.connect(host='10.66.157.22', port=4000, user='root', passwd='3SYz54LS9#^9sBvC', db='jerry_test')
    sql = "select e.y,e.z,e.stat_date,e.ucity_id,e.clevel1_id,e.ccity_name," \
-          "u.device_type,u.manufacturer,u.channel,c.top,df.level2_ids,e.device_id,cut.time " \
+          "u.device_type,u.manufacturer,u.channel,c.top,cid_time.time,e.device_id " \
          "from esmm_train_data e left join user_feature u on e.device_id = u.device_id " \
-          "left join cid_type_top c on e.device_id = c.device_id " \
-          "left join diary_feat df on e.cid_id = df.diary_id " \
-          "left join cid_time_cut cut on e.cid_id = cut.cid " \
+          "left join cid_type_top c on e.device_id = c.device_id left join cid_time on e.cid_id = cid_time.cid_id " \
          "where e.stat_date >= '{}'".format(start)
    df = con_sql(db, sql)
-    # print(df.shape)
+    print(df.shape)
    df = df.rename(columns={0: "y", 1: "z", 2: "stat_date", 3: "ucity_id",4: "clevel1_id", 5: "ccity_name",
-                            6:"device_type",7:"manufacturer",8:"channel",9:"top",10:"level2_ids",
-                            11:"device_id",12:"time"})
+                            6:"device_type",7:"manufacturer",8:"channel",9:"top",10:"time",11:"device_id"})
    print("esmm data ok")
-    # print(df.head(2)
-    print("before")
-    print(df.shape)
-    print("after")
-    df = df.drop_duplicates()
-    df = df.drop_duplicates(["ucity_id", "clevel1_id", "ccity_name", "device_type", "manufacturer",
-                             "channel", "top", "level2_ids", "time","stat_date"])
-    print(df.shape)
+    print(df.head(2))

    df["clevel1_id"] = df["clevel1_id"].astype("str")
    df["y"] = df["y"].astype("str")
    df["z"] = df["z"].astype("str")
    df["top"] = df["top"].astype("str")
-    df["time"] = df["time"].astype("str")
    df["y"] = df["stat_date"].str.cat([df["device_id"].values.tolist(),df["y"].values.tolist(),df["z"].values.tolist()], sep=",")
-
-    df = df.drop(["z","device_id"], axis=1)
-    df = df.fillna("na")
+    df = df.drop(["z","stat_date","device_id"], axis=1).fillna(0.0)
    print(df.head(2))
-
    features = 0
-    l = ["ucity_id","clevel1_id","ccity_name","device_type","manufacturer","channel","level2_ids","top","time","stat_date"]
-    for i in l:
+    for i in ["ucity_id","clevel1_id","ccity_name","device_type","manufacturer","channel"]:
        features = features + len(df[i].unique())
    print("fields:{}".format(df.shape[1]-1))
    print("features:{}".format(features))
-    # filter_list 中没有device_type，这个类别只有安卓、ios两种类型，转化前能完全覆盖到这两种类型
-    filter_list = ["ccity_name","ucity_id","manufacturer","channel","level2_ids","clevel1_id","top","time"]
-    column_map = dict()
-    for i in filter_list:
-        column_map[i] = list(set(df[i].values.tolist()))
-    return df,validate_date,column_map
+    ccity_name = list(set(df["ccity_name"].values.tolist()))
+    ucity_id = list(set(df["ucity_id"].values.tolist()))
+    manufacturer = list(set(df["manufacturer"].values.tolist()))
+    channel = list(set(df["channel"].values.tolist()))
+    return df,validate_date,ucity_id,ccity_name,manufacturer,channel


 def transform(a,validate_date):
@@ -216,51 +196,47 @@ def transform(a,validate_date):
    train = train.drop("stat_date",axis=1)
    test = df[df["stat_date"] == validate_date]
    test = test.drop("stat_date",axis=1)
-    print("train shape")
-    print(train.shape)
-
+    # print("train shape")
+    # print(train.shape)
    train.to_csv(path + "tr.csv", sep="\t", index=False)
    test.to_csv(path + "va.csv", sep="\t", index=False)

    return model


-def get_predict_set(model,columns,date):
+def get_predict_set(ucity_id,model,ccity_name,manufacturer,channel):
    db = pymysql.connect(host='10.66.157.22', port=4000, user='root', passwd='3SYz54LS9#^9sBvC', db='jerry_test')
    sql = "select e.y,e.z,e.label,e.ucity_id,e.clevel1_id,e.ccity_name," \
-          "u.device_type,u.manufacturer,u.channel,c.top,df.level2_ids,e.device_id,e.cid_id,cut.time " \
+          "u.device_type,u.manufacturer,u.channel,c.top,cid_time.time,e.device_id,e.cid_id " \
          "from esmm_pre_data e left join user_feature u on e.device_id = u.device_id " \
-          "left join cid_type_top c on e.device_id = c.device_id " \
-          "left join diary_feat df on e.cid_id = df.diary_id " \
-          "left join cid_time_cut cut on e.cid_id = cut.cid"
+          "left join cid_type_top c on e.device_id = c.device_id left join cid_time on e.cid_id = cid_time.cid_id"
    df = con_sql(db, sql)
    df = df.rename(columns={0: "y", 1: "z", 2: "label", 3: "ucity_id", 4: "clevel1_id", 5: "ccity_name",
-                            6: "device_type", 7: "manufacturer", 8: "channel", 9: "top", 10: "level2_ids",
-                            11:"device_id",12:"cid_id",13:"time"})
-
-    df["stat_date"] = date
+                            6: "device_type", 7: "manufacturer", 8: "channel", 9: "top", 10: "time",
+                            11:"device_id",12:"cid_id"})
+    print("before filter:")
+    print(df.shape)
+    df = df[df["ucity_id"].isin(ucity_id)]
+    print("after ucity filter:")
+    print(df.shape)
+    df = df[df["ccity_name"].isin(ccity_name)]
+    df = df[df["manufacturer"].isin(manufacturer)]
+    df = df[df["channel"].isin(channel)]
+    print("after ccity_name filter:")
    print(df.shape)
-    for i in columns.keys():
-        df.loc[~df[i].isin(columns[i]), [i]] = "na"
    df["cid_id"] = df["cid_id"].astype("str")
    df["clevel1_id"] = df["clevel1_id"].astype("str")
    df["top"] = df["top"].astype("str")
-    df["time"] = df["time"].astype("str")
    df["y"] = df["y"].astype("str")
    df["z"] = df["z"].astype("str")
    df["label"] = df["label"].astype("str")
    df["y"] = df["label"].str.cat(
        [df["device_id"].values.tolist(), df["ucity_id"].values.tolist(), df["cid_id"].values.tolist(),
         df["y"].values.tolist(), df["z"].values.tolist()], sep=",")
-    df = df.drop(["z","label","device_id","cid_id"], axis=1)
-    df = df.fillna("na")
-    print("before transform")
-    print(df.shape)
-    # print(df.count())
-    temp_series = model.transform(df,n=160000, processes=22)
-    df = pd.DataFrame(temp_series)
-    print("after transform")
-    print(df.shape)
+    df = df.drop(["z","label","device_id","cid_id"], axis=1).fillna(0.0)
+    print(df.head(2))
+    df = model.transform(df,n=160000, processes=22)
+    df = pd.DataFrame(df)
    df["label"] = df[0].apply(lambda x: x.split(",")[0])
    df["device_id"] = df[0].apply(lambda x: x.split(",")[1])
    df["city_id"] = df[0].apply(lambda x: x.split(",")[2])
@@ -275,25 +251,24 @@ def get_predict_set(model,columns,date):

    native_pre = df[df["label"] == "0"]
    native_pre = native_pre.drop("label", axis=1)
-    print("native")
-    print(native_pre.shape)
-    # print(native_pre.loc[native_pre["device_id"] == "358035085192742"].shape)
    native_pre.to_csv(path+"native.csv",sep="\t",index=False)
+    # print("native_pre shape")
+    # print(native_pre.shape)

    nearby_pre = df[df["label"] == "1"]
    nearby_pre = nearby_pre.drop("label", axis=1)
-    print("nearby")
-    print(nearby_pre.shape)
-    # print(nearby_pre.loc[nearby_pre["device_id"] == "358035085192742"].shape)
    nearby_pre.to_csv(path + "nearby.csv", sep="\t", index=False)
+    # print("nearby_pre shape")
+    # print(nearby_pre.shape)
+


 if __name__ == "__main__":
    path = "/home/gmuser/esmm_data/"
    a = time.time()
-    temp, validate_date, column_map = get_data()
-    model = transform(temp, validate_date)
-    get_predict_set(model,column_map,validate_date)
+    df, validate_date, ucity_id,ccity_name,manufacturer,channel = get_data()
+    model = transform(df, validate_date)
+    get_predict_set(ucity_id,model,ccity_name,manufacturer,channel)
    b = time.time()
    print("cost(分钟)")
    print((b-a)/60)
--- a/eda/esmm/Feature_pipline/get_tfrecord.py
+++ b/eda/esmm/Feature_pipline/get_tfrecord.py
@@ -26,7 +26,7 @@ tf.app.flags.DEFINE_integer("threads", 16, "threads num")
 #Ad_Fileds = set(['205','206','207','210','216'])
 #Context_Fileds = set(['508','509','702','853','301'])
 #Common_Fileds = {'1':'1','2':'2','3':'3','4':'4','5':'5','6':'6','7':'7','8':'8','9':'9','10':'10','11':'11','12':'12','13':'13','14':'14','15':'15','16':'16','17':'17','18':'18','19':'19','20':'20','21':'21','22':'22','23':'23'}
-Common_Fileds = {'1':'1','2':'2','3':'3','4':'4','5':'5','6':'6','7':'7','8':'8','9':'9','10':'10'}
+Common_Fileds = {'1':'1','2':'2','3':'3','4':'4','5':'5','6':'6','7':'7','8':'8'}
 UMH_Fileds = {'109_14':('u_cat','12'),'110_14':('u_shop','13'),'127_14':('u_brand','14'),'150_14':('u_int','15')}      #user multi-hot feature
 Ad_Fileds = {'206':('a_cat','16'),'207':('a_shop','17'),'210':('a_int','18'),'216':('a_brand','19')}                  #ad feature for DIN

@@ -70,24 +70,24 @@ def gen_tfrecords(in_file):
                            #"feat_vals": tf.train.Feature(float_list=tf.train.FloatList(value=feat_vals))})

            #3 特殊字段单独处理
-            # for f, (fname, def_id) in UMH_Fileds.items():
-            #     if f in ffv[:,0]:
-            #         mask = np.array(f == ffv[:,0])
-            #         feat_ids = ffv[mask,1]
-            #         feat_vals= ffv[mask,2]
-            #     else:
-            #         feat_ids = np.array([def_id])
-            #         feat_vals = np.array([1.0])
-            #     feature.update({fname+"ids": tf.train.Feature(int64_list=tf.train.Int64List(value=feat_ids.astype(np.int))),
-            #                     fname+"vals": tf.train.Feature(float_list=tf.train.FloatList(value=feat_vals.astype(np.float)))})
-
-            # for f, (fname, def_id) in Ad_Fileds.items():
-            #     if f in ffv[:,0]:
-            #         mask = np.array(f == ffv[:,0])
-            #         feat_ids = ffv[mask,1]
-            #     else:
-            #         feat_ids = np.array([def_id])
-            #     feature.update({fname+"ids": tf.train.Feature(int64_list=tf.train.Int64List(value=feat_ids.astype(np.int)))})
+            for f, (fname, def_id) in UMH_Fileds.items():
+                if f in ffv[:,0]:
+                    mask = np.array(f == ffv[:,0])
+                    feat_ids = ffv[mask,1]
+                    feat_vals= ffv[mask,2]
+                else:
+                    feat_ids = np.array([def_id])
+                    feat_vals = np.array([1.0])
+                feature.update({fname+"ids": tf.train.Feature(int64_list=tf.train.Int64List(value=feat_ids.astype(np.int))),
+                                fname+"vals": tf.train.Feature(float_list=tf.train.FloatList(value=feat_vals.astype(np.float)))})
+
+            for f, (fname, def_id) in Ad_Fileds.items():
+                if f in ffv[:,0]:
+                    mask = np.array(f == ffv[:,0])
+                    feat_ids = ffv[mask,1]
+                else:
+                    feat_ids = np.array([def_id])
+                feature.update({fname+"ids": tf.train.Feature(int64_list=tf.train.Int64List(value=feat_ids.astype(np.int)))})

            # serialized to Example
            example = tf.train.Example(features = tf.train.Features(feature = feature))

--- a/eda/esmm/Model_pipline/DeepCvrMTL.py
+++ b/eda/esmm/Model_pipline/DeepCvrMTL.py
--- a/eda/esmm/Model_pipline/sort_and_2sql.py
+++ b/eda/esmm/Model_pipline/sort_and_2sql.py
@@ -18,10 +18,21 @@ def con_sql(sql):
    db.close()
    return result

-def set_join(lst):
+
+def nearby_set_join(lst):
    # return ','.join([str(i) for i in list(lst)])
    return ','.join([str(i) for i in lst.unique().tolist()])

+
+def native_set_join(lst):
+    l = lst.unique().tolist()
+    d = int(len(l)/2)
+    if d == 0:
+        d = 1
+    r = [str(i) for i in l]
+    r =r[:d]
+    return ','.join(r)
+
 def main():

    # native queue
@@ -30,7 +41,7 @@ def main():

    df1 = pd.read_csv("/home/gmuser/esmm_data/native/pred.txt",sep='\t',header=None,names=["ctr","cvr","ctcvr"])
    df2["ctr"],df2["cvr"],df2["ctcvr"] = df1["ctr"],df1["cvr"],df1["ctcvr"]
-    df3 = df2.groupby(by=["uid","city"]).apply(lambda x: x.sort_values(by="ctcvr",ascending=False)).reset_index(drop=True).groupby(by=["uid","city"]).agg({'cid_id':set_join}).reset_index(drop=False)
+    df3 = df2.groupby(by=["uid","city"]).apply(lambda x: x.sort_values(by="ctcvr",ascending=False)).reset_index(drop=True).groupby(by=["uid","city"]).agg({'cid_id':native_set_join}).reset_index(drop=False)
    df3.columns = ["device_id","city_id","native_queue"]
    print("native_device_count",df3.shape)

@@ -41,7 +52,7 @@ def main():

    df1 = pd.read_csv("/home/gmuser/esmm_data/nearby/pred.txt",sep='\t',header=None,names=["ctr","cvr","ctcvr"])
    df2["ctr"], df2["cvr"], df2["ctcvr"] = df1["ctr"], df1["cvr"], df1["ctcvr"]
-    df4 = df2.groupby(by=["uid","city"]).apply(lambda x: x.sort_values(by="ctcvr",ascending=False)).reset_index(drop=True).groupby(by=["uid","city"]).agg({'cid_id':set_join}).reset_index(drop=False)
+    df4 = df2.groupby(by=["uid","city"]).apply(lambda x: x.sort_values(by="ctcvr",ascending=False)).reset_index(drop=True).groupby(by=["uid","city"]).agg({'cid_id':nearby_set_join}).reset_index(drop=False)
    df4.columns = ["device_id","city_id","nearby_queue"]
    print("nearby_device_count",df4.shape)


--- a/eda/esmm/Model_pipline/submit.sh
+++ b/eda/esmm/Model_pipline/submit.sh
 #! /bin/bash

 cd /srv/apps/ffm-baseline/eda/esmm
+git checkout master
 PYTHON_PATH=/home/gaoyazhe/miniconda3/bin/python
 MODEL_PATH=/srv/apps/ffm-baseline/eda/esmm
 DATA_PATH=/home/gmuser/esmm_data
@@ -55,7 +56,7 @@ currentTimeStamp=$((timeStamp*1000+`date "+%N"`/1000000))
 echo $current

 echo "train..."
-${PYTHON_PATH} ${MODEL_PATH}/Model_pipline/DeepCvrMTL.py --ctr_task_wgt=0.3 --learning_rate=0.0001 --deep_layers=256,128 --dropout=0.8,0.5 --optimizer=Adam --num_epochs=1 --embedding_size=16 --batch_size=1024 --field_size=10 --feature_size=2000 --l2_reg=0.005 --log_steps=100 --num_threads=36 --model_dir=${DATA_PATH}/model_ckpt/DeepCvrMTL/ --data_dir=${DATA_PATH} --task_type=train
+${PYTHON_PATH} ${MODEL_PATH}/Model_pipline/DeepCvrMTL.py --ctr_task_wgt=0.3 --learning_rate=0.0001 --deep_layers=256,128 --dropout=0.8,0.5 --optimizer=Adam --num_epochs=1 --embedding_size=16 --batch_size=1024 --field_size=8 --feature_size=2000 --l2_reg=0.005 --log_steps=100 --num_threads=36 --model_dir=${DATA_PATH}/model_ckpt/DeepCvrMTL/ --data_dir=${DATA_PATH} --task_type=train

 echo "train time"
 current=$(date "+%Y-%m-%d %H:%M:%S")
@@ -64,11 +65,11 @@ currentTimeStamp=$((timeStamp*1000+`date "+%N"`/1000000))
 echo $current

 echo "infer native..."
-${PYTHON_PATH} ${MODEL_PATH}/Model_pipline/DeepCvrMTL.py --ctr_task_wgt=0.3 --learning_rate=0.0001 --deep_layers=256,128 --dropout=0.8,0.5 --optimizer=Adam --num_epochs=1 --embedding_size=16 --batch_size=1024 --field_size=10 --feature_size=2000 --l2_reg=0.005 --log_steps=100 --num_threads=36 --model_dir=${DATA_PATH}/model_ckpt/DeepCvrMTL/ --data_dir=${DATA_PATH}/native --task_type=infer > ${DATA_PATH}/infer.log
+${PYTHON_PATH} ${MODEL_PATH}/Model_pipline/DeepCvrMTL.py --ctr_task_wgt=0.3 --learning_rate=0.0001 --deep_layers=256,128 --dropout=0.8,0.5 --optimizer=Adam --num_epochs=1 --embedding_size=16 --batch_size=1024 --field_size=8 --feature_size=2000 --l2_reg=0.005 --log_steps=100 --num_threads=36 --model_dir=${DATA_PATH}/model_ckpt/DeepCvrMTL/ --data_dir=${DATA_PATH}/native --task_type=infer > ${DATA_PATH}/infer.log


 echo "infer nearby..."
-${PYTHON_PATH} ${MODEL_PATH}/Model_pipline/DeepCvrMTL.py --ctr_task_wgt=0.3 --learning_rate=0.0001 --deep_layers=256,128 --dropout=0.8,0.5 --optimizer=Adam --num_epochs=1 --embedding_size=16 --batch_size=1024 --field_size=10 --feature_size=2000 --l2_reg=0.005 --log_steps=100 --num_threads=36 --model_dir=${DATA_PATH}/model_ckpt/DeepCvrMTL/ --data_dir=${DATA_PATH}/nearby --task_type=infer > ${DATA_PATH}/infer.log
+${PYTHON_PATH} ${MODEL_PATH}/Model_pipline/DeepCvrMTL.py --ctr_task_wgt=0.3 --learning_rate=0.0001 --deep_layers=256,128 --dropout=0.8,0.5 --optimizer=Adam --num_epochs=1 --embedding_size=16 --batch_size=1024 --field_size=8 --feature_size=2000 --l2_reg=0.005 --log_steps=100 --num_threads=36 --model_dir=${DATA_PATH}/model_ckpt/DeepCvrMTL/ --data_dir=${DATA_PATH}/nearby --task_type=infer > ${DATA_PATH}/infer.log

 echo "sort and 2sql"
 ${PYTHON_PATH} ${MODEL_PATH}/Model_pipline/sort_and_2sql.py