get vector dict

086d0f85 · 赵威 · 3376c972 · 086d0f85
Commit 086d0f85 authored Nov 16, 2020 by 赵威
Hide whitespace changes
Inline Side-by-side

Showing with 20 additions and 7 deletions

to_vector.py personas_vector/to_vector.py +20 -7

No files found.
--- a/personas_vector/to_vector.py
+++ b/personas_vector/to_vector.py
+import json
 import os
+import random
 import sys
 sys.path.append(os.path.realpath("."))
@@ -26,8 +28,7 @@ def device_tractate_fe():
    return device_tags_df, tractate_tags_df
-def tractate_business_tags_word2vec(tractate_df):
+def tractate_business_tags_word2vec(data):
-    data = tractate_tags_df["business_tags"].to_list()
    print(len(data))
    model = Word2Vec(data, hs=0, min_count=3, workers=multiprocessing.cpu_count(), iter=10)
    print(model)
@@ -36,8 +37,20 @@ def tractate_business_tags_word2vec(tractate_df):
 if __name__ == "__main__":
    device_tags_df, tractate_tags_df = device_tractate_fe()
-    model = tractate_business_tags_word2vec(tractate_tags_df)
+    tags_data = tractate_tags_df["business_tags"].to_list()
-    for i in ["自体脂肪面部年轻化", "自体脂肪填充面部", "自体脂肪全面部填充", "自体脂肪面部填充", "鼻综合", "鼻部综合"]:
+    model = tractate_business_tags_word2vec(tags_data)
-        print(model.wv.most_similar(i))
-        print(model.wv.get_vector(i))
+    tags_set = set()
-    # tractate_tags_df["business_tags"].to_list()
+    for i in tags_data:
+        for j in i:
+            tags_set.add(j)
+    tags_vector_dict = {}
+    for i in tags_set:
+        tags_vector_dict[i] = json.dumps(model.wv.get_vector(i))
+    print(random.choice(tags_vector_dict.items()))
+    # for i in ["自体脂肪面部年轻化", "自体脂肪填充面部", "自体脂肪全面部填充", "自体脂肪面部填充", "鼻综合", "鼻部综合"]:
+    #     print(model.wv.most_similar(i))
+    #     print(model.wv.get_vector(i))