- 博客(245)
- 资源 (5)
- 收藏
- 关注
原创 关于置信学习的文献综述
置信学习的核心思想在于使用模型计算的预测概率来定位错误标签。通过评估模型输出与标签之间的置信度,置信学习能够自动检测和校正这些错误。评估标签置信度:根据预测概率计算各个样本置信值。检测错误标签:进一步评估优惠值,标记低置信样本。正确标签或移除废值:对不合理数据进行数据清洗或重新正确化。置信学习使用统计分析方法,如 Z-Score 和 IQR,检测移动偏移过大的样本。该算法适合低维数据,但对高维数据效果有限 (Cheng et al., 2020)。
2025-01-03 16:39:52 932
原创 文本分类中的离群值特征
对于小规模数据集,可以使用文本长度统计或词向量相似度分析快速检测异常样本。对于大规模和高维数据集,可以使用自动编码器或主题建模分析发现语义离群值。高级方法如BERT 嵌入向量和更适合复杂文本分布的离群值检测。根据具体任务需求选择合适的检测和处理方法,有助于提高模型的鲁棒性和分类性能。
2025-01-03 16:31:26 565
原创 深度学习中的离群值
深度学习中的离群值可能来源于输入特征或标签的异常分布,对模型训练和预测精度产生负面影响。因此,可以通过数据预处理、鲁棒损失函数、正则化、数据增强和异常检测模型等方法降低其影响。同时,对于更复杂的问题如对抗样本,需要额外设计防御机制来保护模型安全性。此外目前也有专门用于处理数据集标注错误的深度学习模型,有兴趣的朋友可以去自行了解一下。深度学习中存在异常值,并且会产生负面影响。可以直接使用 Z-Score 或 IQR 等统计方法检测异常值。
2025-01-03 16:27:04 1134
原创 什么是离群值?如何检测?
Outliers(离群值),也称逸出值,是指在数据集中显著偏离其他数据点的值。这些值与大多数观测值之间存在明显的差异,可能是由于异常情况、测量错误、数据输入错误或真实的罕见现象导致的。异常值:主要关注数据错误,倾向于剔除或修复。离群值:关注模式异常,倾向于分析背后的原因。Z-Score 和 IQR 适合小规模数据分析。Isolation Forest 和 LOF 适合处理复杂、高维数据集。箱线图和散点图便于初步探索数据分布和潜在异常值。根据数据特性和具体需求选择合适的方法进行分析。
2025-01-03 16:19:32 908
原创 PowerShell 信息,请参阅 https......_Execution_Policies
默认情况下,PowerShell 具有安全策略来防止运行未经授权的脚本,以保护系统安全。文件 → 属性 → 检查“解除锁定”(Unblock)选项。注意:执行修改策略必须用管理员运行PowerShell。注意:这是自带的解释,不推荐永久修改脚本执行策略。请按上述步骤检查和处理,如果还有问题请继续反馈!在管理员模式下重试上述步骤。,以防运行恶意代码。
2025-01-02 15:44:40 411
原创 联邦学习防止数据泄露
它允许在分散的数据源上进行模型训练,而无需将数据集中到中央服务器。因此,联邦学习可以有效地防止训练过程中的数据泄露,并提高数据隐私安全性。进行模型的联合训练,所以联邦学习为了还有一个很重要的使用途径,就是同行业的跨公司商业合作,比如金融行业联合构建欺诈检测模型,不过考虑到实际的行业竞争关系,应该只有在少数特定业务上才会有真正落地的可能。联邦学习的核心思想是将模型训练过程分散到多个设备或服务器上,每个设备或服务器只处理本地数据,并将训练结果发送给中央服务器进行聚合。以下是几个比较常见的应用行业。
2024-12-20 22:03:09 588
原创 人工智能 (AI) 模型的数据泄露问题
人工智能 (AI) 模型的数据泄露问题指的是模型训练过程中,训练数据的信息被泄露到模型输出中,导致模型对未见过的数据产生偏差或错误预测。
2024-12-20 22:00:54 1161
原创 Data governance, data literacy, and data quality management:A literature review
With the rise of the data era, data governance, data literacy, and data quality management have emerged as the core pillars of organizational data management. This paper reviews these three areas, examining their definitions, interconnections, and applicat
2024-11-19 20:05:51 690
原创 数据治理、数据素养和数据质量管理:文献综述
随着数据时代的到来,数据治理、数据素养和数据质量管理成为组织数据管理中的三大核心概念。本文基于相关研究与实践,对这三个领域进行全面综述,探讨它们的定义、相互关系及其在数据中台与AI数据服务中的体现。通过结合中国互联网企业的实践,提出数据中台作为现代数据治理的重要工具,其在数据治理、数据挖掘及智能化应用方面的优势。
2024-11-19 20:03:30 1038
原创 (2024)AttributeError: module ‘numpy‘ has no attribute ‘object‘.
这个错误是numpy版本不一致造成的,比如在TensorFlow2.4.3中,使用的事numpy1.19.X版本的numpy,但是1.20中已经移除了该方法。(1)TensorFlow升级。(2)numpy降级。
2024-11-10 11:19:41 772 1
原创 如何解决网络应用运行中的审核问题【系列研究预告】
人工智能算是一个可行的方法,但是问题在于成本太高。一个网站上一天可能有上亿条的文本,近期在和某高效一起研究某教育政策的网络影响确实也发现了一些问题,和我一起合作的研究者本人就是这个教育政策指定人之一,目前就是后续的研究就是在考虑后续政策是否要有变化。系列报告的内容包含三部分(1)网络数据研究的主要技术与方法(2)可以公开的本次教育政策研究的部分数据与成果(3)目前网络管理中的一些问题和可能有效的解决方法。因为审判官的准确率非常低,大量有问题的评论,尤其是掌握了话术的评论,基本要考审判官去二次申诉才行。
2024-05-01 16:32:21 399
原创 PyTorch中常用的工具(5)使用GPU加速:CUDA
在训练神经网络的过程中需要用到很多的工具,最重要的是数据处理、可视化和GPU加速。本章主要介绍PyTorch在这些方面常用的工具模块,合理使用这些工具可以极大地提高编程效率。由于内容较多,本文分成了五篇文章(1)数据处理(2)预训练模型(3)TensorBoard(4)Visdom(5)CUDA与小结。1 数据处理2 预训练模型3 可视化工具3.2 Visdom4 使用GPU加速:CUDA5 小结。
2024-01-01 00:03:00 1719
原创 PyTorch中常用的工具(4)Visdom
在训练神经网络的过程中需要用到很多的工具,最重要的是数据处理、可视化和GPU加速。本章主要介绍PyTorch在这些方面常用的工具模块,合理使用这些工具可以极大地提高编程效率。由于内容较多,本文分成了五篇文章(1)数据处理(2)预训练模型(3)TensorBoard(4)Visdom(5)CUDA与小结。1 数据处理2 预训练模型3 可视化工具3.2 Visdom4 使用GPU加速:CUDA5 小结。
2024-01-01 00:01:40 1319
原创 PyTorch中常用的工具(3)TensorBoard
在训练神经网络的过程中需要用到很多的工具,最重要的是数据处理、可视化和GPU加速。本章主要介绍PyTorch在这些方面常用的工具模块,合理使用这些工具可以极大地提高编程效率。由于内容较多,本文分成了五篇文章(1)数据处理(2)预训练模型(3)TensorBoard(4)Visdom(5)CUDA与小结。1 数据处理2 预训练模型3 可视化工具3.2 Visdom4 使用GPU加速:CUDA5 小结PyTorch中常用的工具(1)数据处理PyTorch常用工具(2)预训练模型。
2024-01-01 00:00:24 804
原创 PyTorch常用工具(2)预训练模型
在训练神经网络的过程中需要用到很多的工具,最重要的是数据处理、可视化和GPU加速。本章主要介绍PyTorch在这些方面常用的工具模块,合理使用这些工具可以极大地提高编程效率。由于内容较多,本文分成了五篇文章(1)数据处理(2)预训练模型(3)TensorBoard(4)Visdom(5)CUDA与小结。1 数据处理2 预训练模型3 可视化工具3.2 Visdom4 使用GPU加速:CUDA5 小结PyTorch中常用的工具(1)数据处理PyTorch常用工具(2)预训练模型。
2023-12-31 23:59:11 710
原创 PyTorch常用工具(1)数据处理
在训练神经网络的过程中需要用到很多的工具,最重要的是数据处理、可视化和GPU加速。本章主要介绍PyTorch在这些方面常用的工具模块,合理使用这些工具可以极大地提高编程效率。由于内容较多,本文分成了五篇文章(1)数据处理(2)预训练模型(3)TensorBoard(4)Visdom(5)CUDA与小结。1 数据处理2 预训练模型3 可视化工具3.2 Visdom4 使用GPU加速:CUDA5 小结PyTorch中常用的工具(1)数据处理PyTorch常用工具(2)预训练模型。
2023-12-31 23:57:14 1437
原创 Python操控HDFS
Python中进行HDFS编程共有两种方法,库pyhdfs与hdfs,两个库都是直接pip安装即可。同时两个库的实现原理也是一样的,hdfs的web api接口。
2023-11-19 21:51:33 823
原创 Ubuntu20.04中安装shutter
从18.04 换成了20.04,但是自带的截屏实在太难用了。于是按照之前的方法安装了shutter,然而发现安不上,然后查了下官网,才发现20和19上的安装方式都改变了。除了命令行之外,还可以通过其他方法安装。其他多种安装方式(包括多种操作系统)可以到。
2021-02-26 10:40:56 1785
原创 docker 命令行筛选与删除<none>镜像
在本地制作镜像时,有时会导致原有镜像标签变为。处理方法为使用docker rmi -f docker_id来强行删除镜像。如下:如果需要停止所有有关标签镜像的容器,则可以使用以下命令:docker stop $(docker ps -a | grep "Exited" | awk '{print $1 }')两个命令合二为一,即为:docker rmi-f $(docker images | grep "none" | awk '{print $3}')...
2021-01-22 16:45:45 3171 1
原创 No PIL installation found INFO:superset.utils.screenshots:No PIL installation found
pip 安装 superset 有时会出现该问题。手动安装pillow即可。
2020-12-11 14:48:27 6602
原创 使用容器与云计算技术快速进行深度学习
Docker 是一个开源的应用容器引擎,容器不同于虚拟机,更简单的架构使其无需创建臃肿的操作系统就能够创建一个隔离的应用环境。利用Docker我们也就可以快速的部署各类服务,而无需复杂的安装过程。
2020-12-02 15:05:47 744
原创 安装nvidia-docker2
安装nvidia-docker2后,即可在docker中使用GPU,也是在k8s中创建使用GPU的docker的基础,使用kubeflow的技术安装英伟达显卡驱动首先需要操作系统中英伟达显卡驱动的支持有关内容可以参考:Ubuntu18.04 显卡驱动安装 Ubuntu18.04 CUDA与cudnn安装 Ubuntu 18.04 独显和集显切换配置nvidia-docker2源# 添加源curl -s -L https://nvidia.github.io/nvidia-d
2020-12-02 14:57:42 2597
原创 pyhanlp 命名实体识别
pyhanlp中的命名实体识别对于分词而言,命名实体识别是一项非常重要的功能,当然发现新词同样重要(这部分内容被我放在之后的“关键词、短语提取与自动摘要、新词识别”与再之后的案例中了。首先是一个简单的例子,展示一下命名实体识别的效果。之后是正式内容:简单的展示例子from pyhanlp import *"""HanLP开启命名实体识别""&quo
2020-09-15 17:25:45 6880 7
转载 淘宝用户行为分析
项目背景以淘宝app平台为数据集,通过行业的指标对淘宝用户行为进行分析,从而探索淘宝用户的行为模式,具体指标包括:日PV和日UV分析,付费率分析,复购行为分析,漏斗流失分析和用户价值RFM分析。数据来源https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1数据介绍列名称说明用户ID整数类型,序列化后的用户ID商品ID整数类型,序列化后的商品ID商品类目ID整数类型,序列化后的商
2020-08-20 17:32:39 4579
原创 自动化机器学习(三)神经网络架构搜索综述(NAS)简述
自动化机器学习就是能够自动建立机器学习模型的方法,其主要包含三个方面:方面一,超参数优化;方面二,自动特征工程与机器学习算法自动选择;方面三,神经网络结构搜索。本文侧重于方面三,神级网络结构搜索。自动化机器学习的前两个部分,都有一个特点——只对现在已有的算法进行搜索,而不创造新的算法。一般而言机器学习专家在开发机器学习应用或者构建机器学习模型时,都不太可能从头造轮子,直接创造一个新的算法。但是到了深度神经网路的时候,就发生了一些变化。严格意义上来说,神经网络的基本结构都是固定的,有限的。
2020-08-20 16:15:56 4394 2
原创 自动化机器学习(二)自动构建机器学习流水线
自动化机器学习(一)超参数自动优化自动化机器学习就是能够自动建立机器学习模型的方法,其主要包含三个方面:方面一,超参数优化;方面二,自动特征工程与机器学习算法自动选择;方面三,神经网络结构搜索。本文侧重于方面二,我们将使用TPOT完成自动特征工程与机器学习算法自动选择。在机器学习中,模型本身的参数是可以通过训练数据来获取的,这些参数属于算法的普通参数,通过数据训练获得算法合适的参数,构建强大的模型本身就是机器学习的核心目标。
2020-08-20 15:07:43 2152 2
原创 自动化机器学习(一)超参数自动优化技术
自动化机器学习就是能够自动建立机器学习模型的方法,其主要包含三个方面:方面一,超参数优化;方面二,自动特征工程与机器学习算法自动选择;方面三,神经网络结构搜索。本文侧重于方面一,如何对超参数进行自动优化。在机器学习中,模型本身的参数是可以通过训练数据来获取的,这些参数属于算法的普通参数,通过数据训练获得算法合适的参数,构建强大的模型本身就是机器学习的核心目标。
2020-08-20 15:05:20 5928 3
原创 利用多项式特征生成与递归特征消除解决特征组合与特征选择问题
项目背景无论是对于什么数据都存在两个非常经典的问题:问题一是,数据与标签之间,数据与数据之间的一些实际关系很难搞清楚。有些时候特征A,特征B可能都与标签存在正向关系。然而实际上的关系却可能是标签与特征A,B的乘积存在实际关系;问题二,在不同机器学习的模型中,特征的最佳选择往往并不一致。比如当模型选择为模型model1的时候,特征可能为特征ABC,而当模型变为model2的时候,最佳特征可能就变为了ACD。为了解决这两个问题,有一个比较成熟的自动化方案可供我们使用。那就是多项式特征生成与自动特征选择。这
2020-08-19 19:54:12 1116
原创 Applications模块解析(一)
文章目录说明官方模型使用与下载存储文件与位置预测完整代码构建新网络特征提取提取任意中间层特征微调神经网络自动输入张量其他推荐前言阅读该文档需要二十分钟,完成后你将会学会使用applications模块的核心功能,并能够使用该模块中与训练模型进行预测,或在对该模块提供的神经网络进行微调,提取任意中间层特征。以下为类库版本:keras 2.3.1keras-applications 1.0.8 keras-base
2020-07-01 10:41:54 860
原创 角点检测——发现图像的特征
文章目录写在最前角点检测是什么?有什么用?OpenCV中的角点检测Harris角点检测Shi-Tomasi 角点检测特征检测,从ORB说起写在最后往期文章下载写在最前不知不觉,漫谈计算机视觉也写了四篇了,我们从最基本的除噪引出计算机图形学的各种技术,然后又学会了发现图像的轮廓,发现图像的边缘,等等,但是始终没有接触一个核心的问题——特征。我们肯定经常在数据科学或者人工智能领域不断的听到这个词汇,我们之前做的内容比如轮廓发现,计算轮廓面积周长,发现图像边缘等等其实也都或多或少能够在很多牵扯到图像的领域中用
2020-05-20 11:36:06 3591
原创 图像边缘检测,检测亦或简化
上一章节,我们在使用图像轮廓发现的时候使用了图像边缘检测,一次来提高图像轮廓发现的准确率。事实上在计算机的各个领域都有图像边缘检测的身影。边缘检测一大优点就在于可以大幅度减少数据量,并且提出可以认为不相关的信息,保留了图像的结构属性。边缘检测的方法有很多,但是绝大部分都可以分为两大类,第一类是基于搜索,也就是通过寻找图像一阶导数中的最大值和最小值来检测边界,通常是定位在梯度最大的方向。其次是基于零穿越的方法,其通过寻找图像二阶导数零穿越来寻找便捷,通常是Laplacian过零点或者非线性差分表示的过零点。(
2020-05-12 17:02:44 1553
原创 发现你的身形——OpenCV图像轮廓
OpenCV(三) 图像轮廓上一节最后,我们说过这一次我们就将会讲解真正的OpenCV图像轮廓有关知识。轮廓发现的具体实现有多种方式,不过其的使用在OpenCV中的使用并不困难,不过想用好还需要多点基础知识。这里我们会首先讲一讲OpenCV中的轮廓发现算法,然后再讲一讲其他可以用于轮廓发现的特殊方法。这里我们主要使用了两种来自于opencv官方的图片,第一张是彩色快乐鱼,第二张是水果分尸图不对,...
2020-05-06 23:54:59 2820 1
原创 计算机视觉的基石-滤波
我在之前的文章中讲了OpenCV中的滤波函数以及专门去模糊化的函数fastNlMeansDenoisingColored讲解了OpenCV的入门。这一次,我们详细讲解OpenCV中的滤波函数,这样我们在学会滤波函数之后,既可以按照上一篇文章的内容进行噪音去除,也可以使用滤波函数进行反向操作—模糊。OpenCV中的滤波类型OpenCV实现了常见的数种滤波函数,同时也支持用户自己编写滤波函数。O...
2020-04-30 00:11:08 734 2
原创 从去除噪点的说起,有OpenCV要什么PS?
OpenCV一个出色的开源框架,其中Open指的就是OpenSource,开源。而CV则是计算机视觉(Computer Vision)。依靠OpenCV背后开源社区背书,其不仅在过去实现了绝大多数计算机视觉所需要的基础算法,同时也能跟随时代发展不断更新新的神经网络。我们在之前曾经编写过OpenCV实现人脸识别,为了更好地进行之后技术的发展。我们自然需要对OpenCV进一步学习。今天就是从最基本的...
2020-04-29 16:08:11 1632
原创 opencv快速入门人脸检测与人脸识别
利用opencv快速入门人脸检测与人脸识别opencv,顾名思义“开源,计算机视觉”。OpenCV就是这样的一个特殊的框架,一群大牛然绕自己的时间,制作了一个开源的计算机视觉框架。借助它我们可以快速的创建计算机视觉的应用。而我们这里将会使用更更加快速的OpenCV-Python,也就是OpenCV的Python接口。假如你已经安装了Python和pip,那么只需简单的执行“pip install opencv-python”即可。
2020-04-04 19:06:16 15997 3
原创 人工智能的时代?未来已至?
在过去的几年里,高新技术发展似乎方兴未艾。大数据,云计算,人工智能又或者是数据科学,智慧城市,无人驾驶,无数崭新的名词不断地冲击着我们。或许不远了。而实际上它们早已经悄悄地改变了我们。下面几个故事将告诉我们,曾经难以想象的未来是如何一步一步走进我们的生活的。给奶爸一瓶啤酒第一个故事是啤酒和尿布的故事。在普通人眼里这或许是两个并不怎么相关的事物,但是对于全球零售巨头沃尔玛而言,它们却有着非凡的...
2020-03-20 15:07:51 901
原创 Ubuntu18.04 显卡驱动安装
更新阿里源Ubutnu安装后的第一件事是找到Software & Updates,将源更新为阿里云的源 。这样可以帮助我们减少很多麻烦。之后,到第二页选择Other Software勾选Canonical Partners。之后进行手动更新sudo apt updatesudo apt upgrade安装NVIDIA社区版驱动1. nouvean首先查看nouvean...
2020-02-12 17:32:27 4878
原创 Ubuntu18.04 CUDA与cudnn安装
cuda版本的选择CUDA与cudnn有多种安装方式,目前搜索cuda下载默认打开的是10.2:https://developer.nvidia.com/cuda-downloads进入连接,按照要求选择。本人使用的是1070,Ubuntu18.04,驱动为440.59,因此这里直接选择了10.2,如果你不是请参开该网址以下两个网址https://developer.nvidia.com/...
2020-02-12 17:21:56 1802 2
转载 linux下gcc、g++不同版本的安装和切换
Ubuntu 18.04预装GCC版本为7.3,但有时在编译是需要用的不同gcc版本,下面介绍,如何安装不同的gcc 和g++,并设置根据不同的需要在不同版本之间切换。1. 可以通过如下命令查看当前安装的版本:ll /usr/bin/gcc*2. 安装gcc-4.8 和gcc-5:sudo apt install gcc-4.8 gcc-4.8-multilib g++-4.8 g++-...
2020-02-12 15:12:18 7503 2
原创 Ubuntu 18.04 独显和集显切换
Ubuntu 18.04 独显和集显切换查看自己的显卡ubuntu-drivers devices #查看自己的显卡及可以安装的驱动版本== /sys/devices/pci0000:00/0000:00:01.0/0000:01:00.0 ==modalias : pci:v000010DEd00001BA1sv00001558sd000067C1bc03sc00i00vendo...
2020-02-12 15:04:18 11634 3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人