From 55a246309c0c02811dcdb9aa689549c01303e688 Mon Sep 17 00:00:00 2001
From: litaolemo <593516104@qq.com>
Date: Wed, 23 Sep 2020 16:15:12 +0800
Subject: [PATCH] update

---
 output/out_put_diary_0923.py | 221 +++++++++++++++++++++++++++++++++++
 1 file changed, 221 insertions(+)
 create mode 100644 output/out_put_diary_0923.py

diff --git a/output/out_put_diary_0923.py b/output/out_put_diary_0923.py
new file mode 100644
index 0000000..590879e
--- /dev/null
+++ b/output/out_put_diary_0923.py
@@ -0,0 +1,221 @@
+# -*- coding:UTF-8 -*-
+# @Time  : 2020/9/23 16:10
+# @File  : out_put_diary_0923.py
+# @email : litao@igengmei.com
+# @author : litao
+
+
+
+import hashlib
+import json
+
+import pymysql
+import xlwt, datetime
+import redis
+from meta_base_code.utils.func_from_redis_get_portrait import user_portrait_scan_info,get_user_portrait_tag3_from_redis
+from meta_base_code.utils.func_from_es_get_article import get_es_article_num,get_user_post_from_mysql
+# from pyhive import hive
+from maintenance.func_send_email_with_file import send_file_email
+from typing import Dict, List
+from elasticsearch_7 import Elasticsearch
+from elasticsearch_7.helpers import scan
+import sys
+import time
+from pyspark import SparkConf
+from pyspark.sql import SparkSession, DataFrame
+
+
+# from pyspark.sql.functions import lit
+# import pytispark.pytispark as pti
+startTime = time.time()
+sparkConf = SparkConf()
+sparkConf.set("spark.sql.crossJoin.enabled", True)
+sparkConf.set("spark.debug.maxToStringFields", "100")
+sparkConf.set("spark.tispark.plan.allow_index_double_read", False)
+sparkConf.set("spark.tispark.plan.allow_index_read", True)
+sparkConf.set("spark.hive.mapred.supports.subdirectories", True)
+sparkConf.set("spark.hadoop.mapreduce.input.fileinputformat.input.dir.recursive", True)
+sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
+sparkConf.set("mapreduce.output.fileoutputformat.compress", False)
+sparkConf.set("mapreduce.map.output.compress", False)
+sparkConf.set("prod.gold.jdbcuri",
+              "jdbc:mysql://172.16.30.136/doris_prod?user=doris&password=o5gbA27hXHHm&rewriteBatchedStatements=true")
+sparkConf.set("prod.mimas.jdbcuri",
+              "jdbc:mysql://172.16.30.138/mimas_prod?user=mimas&password=GJL3UJe1Ck9ggL6aKnZCq4cRvM&rewriteBatchedStatements=true")
+sparkConf.set("prod.gaia.jdbcuri",
+              "jdbc:mysql://172.16.30.143/zhengxing?user=work&password=BJQaT9VzDcuPBqkd&rewriteBatchedStatements=true")
+sparkConf.set("prod.tidb.jdbcuri",
+              "jdbc:mysql://172.16.40.158:4000/eagle?user=st_user&password=aqpuBLYzEV7tML5RPsN1pntUzFy&rewriteBatchedStatements=true")
+sparkConf.set("prod.jerry.jdbcuri",
+              "jdbc:mysql://172.16.40.158:4000/jerry_prod?user=st_user&password=aqpuBLYzEV7tML5RPsN1pntUzFy&rewriteBatchedStatements=true")
+sparkConf.set("prod.tispark.pd.addresses", "172.16.40.158:2379")
+sparkConf.set("prod.tispark.pd.addresses", "172.16.40.170:4000")
+sparkConf.set("prod.tidb.database", "jerry_prod")
+sparkConf.setAppName("test")
+
+spark = (SparkSession.builder.config(conf=sparkConf).config("spark.sql.extensions", "org.apache.spark.sql.TiExtensions")
+         .config("spark.tispark.pd.addresses", "172.16.40.170:2379").enableHiveSupport().getOrCreate())
+
+spark.sql("ADD JAR hdfs:///user/hive/share/lib/udf/brickhouse-0.7.1-SNAPSHOT.jar")
+spark.sql("ADD JAR hdfs:///user/hive/share/lib/udf/hive-udf-1.0-SNAPSHOT.jar")
+spark.sql("CREATE TEMPORARY FUNCTION json_map AS 'brickhouse.udf.json.JsonMapUDF'")
+spark.sql("CREATE TEMPORARY FUNCTION is_json AS 'com.gmei.hive.common.udf.UDFJsonFormatCheck'")
+spark.sql("CREATE TEMPORARY FUNCTION arrayMerge AS 'com.gmei.hive.common.udf.UDFArryMerge'")
+
+task_list = []
+task_days = 2
+
+
+def con_sql(sql):
+    # ä»Žæ•°æ®åº“çš„è¡¨é‡ŒèŽ·å–æ•°æ®
+
+    db = pymysql.connect(host='172.16.40.158', port=4000, user='st_user', passwd='aqpuBLYzEV7tML5RPsN1pntUzFy',
+                         db='jerry_prod')
+    cursor = db.cursor()
+    cursor.execute(sql)
+    result = cursor.fetchall()
+    db.close()
+    return result
+
+
+second_demands_zero_dict = {
+    # "answer":{},
+    # "tractate":{},
+    "diary":{},
+}
+project_zero_dict = {
+    # "answer":{},
+    # "tractate":{},
+    "diary":{},
+}
+t = 1
+day_num = 0 - t
+now = (datetime.datetime.now() + datetime.timedelta(days=day_num))
+last_30_day_str = (now + datetime.timedelta(days=-31)).strftime("%Y%m%d")
+today_str = now.strftime("%Y%m%d")
+today_str_format = now.strftime("%Y-%m-%d")
+yesterday_str = (now + datetime.timedelta(days=-1)).strftime("%Y%m%d")
+yesterday_str_format = (now + datetime.timedelta(days=-1)).strftime("%Y-%m-%d")
+one_week_age_str = (now + datetime.timedelta(days=-7)).strftime("%Y%m%d")
+sql = """select first_device from online.ml_user_history_detail where partition_date = {today_str} and last_active_date >= {last_30_day_str}
+""".format(today_str=today_str,last_30_day_str=last_30_day_str)
+print(sql)
+new_urser_device_id_df = spark.sql(sql)
+new_urser_device_id_df.createOrReplaceTempView("device_id_view")
+new_urser_device_id_df.show(1)
+sql_res = new_urser_device_id_df.collect()
+
+bulk_dict = {
+    0: [0, 0, 0],
+    10: [0, 0, 0],
+    50: [0, 0, 0],
+    100: [0, 0, 0],
+    200: [0, 0, 0],
+    500: [0, 0, 0],
+    1000: [0, 0, 0],
+}
+
+
+task_list = []
+sql = """
+select card_id from strategy_content_exposure_index where card_content_type="diary" and preciseexposure_num>=50 and ctr>=0.05 and avg_page_stay>=20 and create_day="2020-09-17";   
+    """
+second_demands_count_dict, tags_v3_count_dict, second_demands_card_id_list,tags_v3_card_id_list,second_demands_tractate_dict,tags_v3_tractate_dict=get_user_post_from_mysql(sql)
+# second_demands_count_dict= {'åœ°åŒ…å¤©': 4, 'è¿‘è§†': 20, 'æ´—çœ‰': 16, 'é˜´é“ç¼©ç´§': 338, 'é¿å•': 1, 'ç¼©çª„ä¸‹å·´': 1, 'ç¿˜ç«': 2, 'è…¿å½¢çŸ«æ£': 7, 'è„±æ‰‹è„šæ¯›': 80, 'æ³¨å°„ç‰©å–å‡º': 1, 'è„±æ•': 2, 'è„±è…‹æ¯›': 6, 'ç¥›çº¹èº«': 8, 'å¡«å……é¢éƒ¨': 7, 'ç”Ÿç§å¯†æ¯›å‘': 339, 'ç¥›çº¢è¡€ä¸': 2, 'è‡ªä½“è„‚è‚ªä¿®å¤': 3, 'é™¤èž¨': 1, 'ç”Ÿçœ‰æ¯›': 10, 'ç½‘çº¢è„¸': 1, 'ç¼©èƒ¸': 11, 'é˜´èŒŽç¾ŽåŒ–': 11, 'è€³æ´ž': 3, 'ç”Ÿå¤´å‘': 85, 'AIæµ‹è¯•': 3, 'å‡¸å˜´': 3, 'ç¼©çŸä¸‹å·´': 6, 'çº¹èº«': 11, 'ç”Ÿç«æ¯›': 2, 'å‡ä½“å–å‡º': 1, 'é¼»å”çŸ«æ£': 1, 'ä¸‹é¢Œç¼˜æå‡': 2, 'å¥¥ç¾Žå®š': 1, 'çš®è‚¤ç—…': 6, 'æ€§å¿«æ„Ÿ': 3, 'çœ¼çº¿': 10, 'é¢è‚Œæ”¾æ¾': 3, 'æ´—çœ¼çº¿': 2, 'äº§åŽæ¢å¤': 1, 'ç¥›è…‹è‡': 20, 'è„±èƒŒæ¯›': 79, 'è„±æ¯›å‘': 2, 'é¼»å°–å»¶é•¿': 12, 'è…¿éƒ¨åŠ é•¿': 2, 'æ´é¢': 2, 'é¼»ä¸éš”å»¶é•¿': 3, 'å”‡è…è£‚': 2, 'è„±å”‡æ¯›': 3, 'å¡«å……å§èš•': 3, 'ä¸°çœ¼çª': 3, 'è„±å‘é™…çº¿': 5, 'è„¸åž‹': 241, 'è„±ç§å¯†æ¯›å‘': 1, 'ç¼©é¼»èƒŒ': 5, 'ç”Ÿå‘é™…çº¿': 4, 'è„±è…¿æ¯›': 4, 'ç”Ÿèƒ¡é¡»': 1, 'é¼»éƒ¨ç¼©çŸ': 2, 'å¥åº·è°ƒç†': 4}
+
+# tags_v3_count_dict = {'ç‰™é½¿': 3, 'ç¼©ä¸‹å·´': 3, 'æ´—çœ‰': 12, 'çŽ»å°¿é…¸': 1, 'è¶…å£°æº¶è„‚': 2, 'æ³¨å°„ç‰©å–å‡º': 1, 'ç”Ÿé•¿å› å': 3, 'Gç‚¹æ³¨å°„': 3, 'æ£éª¨æœ¯': 1, 'çœŸçš®å¡«å……å§èš•': 2, 'æ¿€å…‰ç¥›çš±': 4, 'èƒ¶åŽŸè›‹ç™½å¡«å……é¢éƒ¨': 3, 'è„±ç§å¯†æ¯›å‘': 1, 'ç˜¦èº«': 3, 'çŽ»å°¿é…¸ä¸°å”‡ç ': 1, 'åŠé£žç§’æ¿€å…‰æœ¯': 1, 'ä¹³ç‰™': 1, 'äº§åŽä¿®å¤': 1, 'è§†åŠ›æ£€æŸ¥': 2, 'å¹²ç»†èƒžç–—æ³•': 2, 'ç«¥é¢œé’ˆ': 4, 'å‡†åˆ†åæ¿€å…‰æœ¯': 1, 'ä¸åŒ»æŒ‰æ‘©': 1, 'ç¥›é»‘å¤´': 1, 'ç¥›é»‘çœ¼åœˆ': 4, 'è‡ªä½“è½¯éª¨åž«é¼»å°–': 14, 'æ´—çœ¼çº¿': 2, 'è€³éƒ¨çŸ«æ£': 2, 'æ–°æ‰‹ç²¾é€‰': 1, 'æ¤ç§å¯†æ¯›å‘': 338, 'çŽ»å°¿é…¸å¡«å……å§èš•': 1, 'é˜´èŒŽå¢žå¤§': 6, 'ä¹³æˆ¿ç¼©å°': 1, 'æ¤èƒ¡é¡»': 1, 'åŸºå› æ£€æµ‹': 1, 'é¼»å”çŸ«æ£': 1, 'ä¸‹å·´å‰æŽ¨': 10, 'æ¿€å…‰è„±æ¯›': 2, 'PRPç”Ÿå‘': 80, 'çŽ»å°¿é…¸ç¥›çš±': 1, 'æ³¨å°„ç¥›è…‹è‡': 14, 'é¢è†œ': 4, 'åŠæ°¸ä¹…çº¹çœ‰1': 2, 'æ¯›å›Šæ£€æµ‹': 4, 'æ¿€å…‰è„±è…‹æ¯›': 2, 'ç¿˜ç«': 2, 'ä¸‹å·´æˆªéª¨æœ¯': 2, 'æ¿€å…‰è„±å”‡æ¯›': 1, 'æ¿€å…‰ç¥›è…‹è‡': 1, 'å…¨é£žç§’æ¿€å…‰æœ¯': 1, 'æ‹”ç½': 1, 'ç¾Žè‡€': 1, 'æ¿€å…‰ç¥›çº¹èº«': 7, 'å–·ç ‚æ´—ç‰™': 1, 'åŠæ°¸ä¹…çº¹å‘é™…çº¿': 7, 'è‡ªä½“è„‚è‚ªé¢éƒ¨å¡«å……': 2, 'ç¥›æ–‘': 1, 'ç§å¯†ç´§è‡´': 1, 'æ¿€å…‰è„±æ‰‹è„šæ¯›': 80, 'è…¿å½¢çŸ«æ£': 7, 'æ¿€å…‰è„±èƒŒæ¯›': 80, 'åŸ‹çº¿ç¼©é¼»ç¿¼': 2, 'åŠæ°¸ä¹…': 4, 'å¡«å……é¢éƒ¨': 2, 'ç”Ÿç§å¯†æ¯›å‘': 1, 'æ´—å”‡çº¿': 2, 'è‡ªä½“è„‚è‚ª': 1, 'åŠæ°¸ä¹…çº¹çœ¼çº¿': 10, 'èƒ¶åŽŸè›‹ç™½æ³¨å°„': 2, 'è‚‰æ¯’ç´ æ²»ç–—å¤šæ±—': 1, 'é»‘è„¸å¨ƒå¨ƒ': 6, 'çŽ»å°¿é…¸ä¸°çœ¼çª': 2, 'å¾®ç¬‘å”‡': 1, 'æ‰“è€³æ´ž': 3, 'ç«æ¯›å¢žé•¿': 2, 'åŒçœ¼çš®': 8, 'å…¨é£žç§’': 3, 'è‡ªä½“è„‚è‚ªç§å¯†ç´§è‡´': 337, 'å¸è„‚': 2, 'çš®è‚¤ç—…': 6, 'å£è…”æºƒç–¡': 1, 'æ¿€å…‰æ´—çœ‰': 5, 'è¯ç‰©è„±æ¯›': 5, 'æ–éª¨å¢žé«˜': 2, 'é¢å¤´ç¼©å°': 4, 'è‚¤è´¨æ£€æµ‹': 1, 'æ¿€å…‰è¿‘è§†çŸ«æ£': 4, 'è‡ªä½“è„‚è‚ªå¡«å……ä¿®å¤': 3, 'è‚‰æ¯’ç´ é¢è‚Œæ”¾æ¾': 1, 'ç¥›çœ¼è¢‹': 1, 'æ™¶ä½“æ¤å…¥': 3, 'é˜´èŒŽå»¶é•¿': 5, 'æ¿€å…‰è„±å‘é™…çº¿': 1, 'å”‡ç å”‡å¼“': 2, 'åŒ…çš®æ‰‹æœ¯': 5, 'å”‡è…è£‚': 4, 'ä¹³å¤´ç¼©å°': 338, 'è‡€éƒ¨æ•´å½¢': 1, 'æ¤çœ‰': 10, 'é˜´èŒŽå¢žç²—': 9, 'æŠ—è¡°ç´§è‡´': 1, 'ç¼©é¼»èƒŒ': 2, 'æ‰‹æœ¯ç¥›è…‹è‡': 7, 'å°„é¢‘ç¥›çœ¼è¢‹': 4, 'ä¸Šçœ¼ç‘ç¥›è„‚': 3, 'é¼»éƒ¨ç¡…èƒ¶å‡ä½“å–å‡º': 1, 'æ¿€å…‰è„±è…¿æ¯›': 3, 'å‘è´¨æŠ¤ç†': 6, 'æŠ—è¡°': 1}
+
+print(second_demands_count_dict,tags_v3_count_dict)
+time.sleep(10)
+
+
+second_demands_tag_count = {}
+projects_demands_tag_count = {}
+total_tag_count = {}
+total_tag_count_pro = {}
+temp_null_count = 0
+for redis_count,spark_res in enumerate(sql_res):
+    # if redis_count >= 50:break
+    second_demands = []
+    projects = []
+    total_answer_content_num = 0
+    total_tractate_content_num = 0
+    total_diary_content_num = 0
+    # print(sql_res)
+    try:
+        res = get_user_portrait_tag3_from_redis(spark_res.first_device)
+    except:
+        continue
+    if res.get("second_demands"):
+        second_demands = res.get("second_demands")
+        # print(count_res)
+        for tag in second_demands:
+            if tag in second_demands_tag_count:
+                second_demands_tag_count[tag] += 1
+            else:
+                second_demands_tag_count[tag] = 1
+            if tag in second_demands_count_dict:
+                total_tractate_content_num += second_demands_count_dict[tag]
+    if res.get("projects"):
+        projects = res.get("projects")
+        # print(count_res)
+        for tag in projects:
+            if tag in projects_demands_tag_count:
+                projects_demands_tag_count[tag] += 1
+            else:
+                projects_demands_tag_count[tag] = 1
+
+            if tag in tags_v3_count_dict:
+                total_tractate_content_num += tags_v3_count_dict[tag]
+    # print(total_answer_content_num, total_tractate_content_num, total_diary_content_num)
+    tmp_count_num = 0
+
+
+    if 0 <= total_tractate_content_num < 10:
+        bulk_dict[0][1] += 1
+        if not second_demands and not projects:
+            temp_null_count += 1
+        if second_demands:
+            for tag in second_demands:
+                if tag in total_tag_count:
+                    total_tag_count[tag] += 1
+                else:
+                    total_tag_count[tag] = 1
+        if projects:
+            for tag in projects:
+                if tag in total_tag_count_pro:
+                    total_tag_count_pro[tag] += 1
+                else:
+                    total_tag_count_pro[tag] = 1
+    elif 10 <= total_tractate_content_num < 50:
+        bulk_dict[10][1] += 1
+    elif 50 <= total_tractate_content_num < 100:
+        bulk_dict[50][1] += 1
+    elif 100 <= total_tractate_content_num < 200:
+        bulk_dict[100][1] += 1
+    elif 200 <= total_tractate_content_num < 500:
+        bulk_dict[200][1] += 1
+    elif 500 <= total_tractate_content_num < 1000:
+        bulk_dict[500][1] += 1
+    else:
+        bulk_dict[1000][1] += 1
+
+    # if redis_count % 5000 == 0:
+    #     print(redis_count,bulk_dict)
+    #     print(temp_null_count)
+    #     print(second_demands_tag_count,projects_demands_tag_count)
+print("total_tag_count" , total_tag_count)
+print("total_tag_count_pro" ,total_tag_count_pro)
+print("bulk_dict", bulk_dict)
+print("temp_null_count", temp_null_count)
+#
+print("second_demands_tag_count",second_demands_tag_count)
+print("projects_demands_tag_count",projects_demands_tag_count)
+with open("log.log","w",encoding='utf-8') as f:
+    f.write(str(total_tag_count))
+    f.write(str(total_tag_count_pro))
+    f.write(str(second_demands_tag_count))
+    f.write(str(projects_demands_tag_count))
+
+
+
-- 
2.18.0