数据降维

降维

降维不是数组的维度,而是特征的数量.

数据降维方法

1.特征选择
2.主成分分析

特征选择


冗余:部分特征的相关程度高,影响性能
噪声:部分特征对预测成功有影响

特征选择 API


sklearn.feature_selection.VarianceThreshold
默认删除方差为0的特征,删除低方差的特征,阈值一般在0-10(不确定,看实际情况)

特征选择代码


# 特征工程 - 数据降维之特征选择
from sklearn.feature_selection import VarianceThreshold

def var():
    """
    特征选择 - 删除低方差特征  :return: None
    """
    # 实例化 threshold等于地方差范围 这里是删除所有方差为0的特征
    var = VarianceThreshold(threshold=0.0)

    data = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])

    print(data)

    return None

if __name__ == "__main__":
    var()

运行结果


[[2 0]
 [1 4]
 [1 1]]

主成分分析(PCA)


应用场景并不多,大量特征会使用
sklearn.decomposition
n_components:小数(通常是90%~95%),整数:(减少到的特征数量)

代码


# 特征工程 - 数据降维之主成分分析(PCA)

from sklearn.decomposition import PCA

def pca():

    """
    主成分分析进行特征降维  :return: None
    """
    pca = PCA(n_components=0.9)

    data = pca.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])

    print(data)
    return None

if __name__ == "__main__":
    pca()

运行结果


[[-1.76504522]
 [ 2.35339362]
 [-0.58834841]]

主成分分析案例


import pandas as pd 
from sklearn.decomposition import PCA 

# 读取四张表的数据
prior = pd.read_csv("./Desktop/all/order_products__prior.csv")

products = pd.read_csv("./Desktop/all/products.csv")
orders = pd.read_csv("./Desktop/all/orders.csv")
aisles = pd.read_csv("./Desktop/all/aisles.csv")

# 合并四张表到一张表  (用户-物品类别)
_mg = pd.merge(prior,products,on=['product_id','product_id'])
_mg = pd.merge(_mg,orders,on=['order_id','order_id'])
mt = pd.merge(_mg,aisles,on=['aisle_id','aisle_id'])


mt.head(10)

# 交叉表
cross = pd.crosstab(mt['user_id'],mt['aisle'])



cross.head(10)

# 进行主成分分析
pca = PCA(n_components=0.9)


# 计算还是挺快的,因为sklearn是用np计算的
data = pca.fit_transform(cross)

print(data)

# 查看样本信息
data.shape

运行结果

Sklearn 0.21 中文文档校对活动 | ApacheCN

整体进度：[链接] 贡献指南：[链接] 项目仓库：[链接] 贡献指南请您勇敢地去翻译和改进翻译。虽然我们追求卓越，但我们并不要求您做到十全十美，因此请不要担心因为翻译上犯错——在大部分情况下，我们的服务器已经记录所有的翻译，因此您不必担心会因为您的失误遭到无法挽回的破坏。（改编自维基百科）可能有用的链接： [链接] ..

特征预处理 - 归一化 & 标准化

特征处理是什么通过特定的统计方法(数学方法)将数据转换成算法要求的数据. sklearn.preprosessing 数值型数据: 标准缩放: 归一化标准化缺失值类别型数据:one-hot 编码时间类型:时间的切分归一化使得某一个特征不会对最终的结果造成更大的影响 sklearn.preprosessin ..

请求实现将常用字体颜色修改按钮（如几个高频色块）直接暴露在工具栏上

建议将常用字体颜色修改按钮（如几个高频色块）直接暴露在工具栏上。现在修改必须先点击“字体颜色”入口再选色，层级较深。直接展示能大幅减少操作步骤，提升改色效率。希望可以实现之前将修改标题层级提取到菜单上一层一样的效果。如三星笔记是这样的[图片]

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

降维

数据降维方法

特征选择

特征选择 API

特征选择代码

运行结果

主成分分析(PCA)

代码

运行结果

主成分分析案例

运行结果

相关帖子

Sklearn 0.21 中文文档校对活动 | ApacheCN

特征预处理 - 归一化 & 标准化

tf idf

特征抽取

求助大佬帮写个 js，在移动端页面上侧工具栏添加两个按钮，一个调用文档树功能、一个调用大纲功能

请求实现将常用字体颜色修改按钮（如几个高频色块）直接暴露在工具栏上

忽略引用搜索好像不包括虚拟引用

欢迎来到这里！