update feature

37995a94 · 郭羽 · 5c3a1c78 · 37995a94 · 37995a94
Commit 37995a94 authored Jul 09, 2021 by 郭羽
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 1 deletion

featureEng.py spark/featureEng.py +1 -0

train_service.py train/train_service.py +1 -1

No files found.
--- a/spark/featureEng.py
+++ b/spark/featureEng.py
@@ -112,6 +112,7 @@ def addItemFeatures(samples,itemDF,dataVocab,multiVocab):
    samples = samples.join(staticFeatures, on=['itemid'], how='left')
    print("连续特征处理...")
+    # todo 分桶比较耗时，可以考虑做非线性转换
    # 连续特征处理
    pipelineStage = []
    # Normalization

--- a/train/train_service.py
+++ b/train/train_service.py
@@ -14,7 +14,7 @@ import utils.configUtils as configUtils
 ITEM_NUMBER_COLUMNS = ["item_"+c for c in ["smart_rank2"]]
 embedding_columns = ["itemid","userid"] + ["item_"+c for c in ["doctor_id","hospital_id"]]
 multi_columns = ["tags_v3","first_demands","second_demands","first_solutions","second_solutions","first_positions","second_positions"]
-one_hot_columns = ["item_"+c for c in ["service_type","doctor_type","doctor_famous","hospital_city_tag_id","hospital_type","hospital_is_high_quality"]]
+one_hot_columns = ["user_os"] + ["item_"+c for c in ["service_type","doctor_type","doctor_famous","hospital_city_tag_id","hospital_type","hospital_is_high_quality"]]
 # history_columns = ["userRatedHistory"]
 # 数据加载