add test file

db8b409e · 张彦钊 · 1e28e399 · db8b409e
Commit db8b409e authored Dec 06, 2018 by 张彦钊
Hide whitespace changes
Inline Side-by-side

Showing with 8 additions and 19 deletions

test.py tensnsorflow/test.py +8 -19

No files found.
--- a/tensnsorflow/test.py
+++ b/tensnsorflow/test.py
@@ -41,7 +41,6 @@ class multiFFMFormatPandas:
        return self
    def fit_transform(self, df, y=None,z=None,n=50000,processes=4):
-        # n是每个线程运行最大的数据条数,processes是线程数
        self.fit(df, y,z)
        n = n
        processes = processes
@@ -78,13 +77,13 @@ class multiFFMFormatPandas:
        return  ''.join(ffm)+' '.join(ffm1)
    def transform(self, df,n=1500,processes=2):
-        # n是每个线程运行最大的数据条数,processes是线程数
        t = df.dtypes.to_dict()
        data_list = self.data_split_line(df,n)
-        # 设置进程的数量
        pool = Pool(processes)
-        print("总进度: " + str(len(data_list)))
+        print("all: " + str(len(data_list)))
        for i in range(len(data_list)):
            data_list[i] = pool.apply_async(self.pool_function, (data_list[i], t,))
@@ -96,11 +95,11 @@ class multiFFMFormatPandas:
        return pd.Series(result_map)
-    # 多进程计算方法
    def pool_function(self, df, t):
        return {idx: self.transform_row_(row, t) for idx, row in df.iterrows()}
-    # 切分数据方法，传人dataframe和切分条数的步长,返回dataframe的集合，每个dataframe中含有若干条数据
    def data_split_line(self, data, step):
        data_list = []
        x = 0
@@ -112,27 +111,17 @@ class multiFFMFormatPandas:
                data_list.append(data.iloc[x:data.__len__()])
                break
-        '''
-        # 返回生成器方法，但是本地测试效率不高
-        x = 0
-        while True:
-            if x + step < data.__len__():
-                yield data.iloc[x:x + step]
-                x = x + step + 1
-            else:
-                yield data.iloc[x:data.__len__()]
-                break
-        '''
        return data_list
-    # 原生转化方法，不需要多进程
    def native_transform(self, df):
            t = df.dtypes.to_dict()
            return pd.Series({idx: self.transform_row_(row, t) for idx, row in df.iterrows()})
-    # 下面这个方法不是这个类原有的方法，是新增的。目的是用来判断这个用户是不是在训练数据集中存在
    def is_feature_index_exist(self, name):
        if name in self.feature_index_:
            return True