- 博客(80)
- 收藏
- 关注
原创 论文速读 - Cleaner Pretraining Corpus Curation with Neural Web Scraping
网络包含大规模、多样化和丰富的信息,以满足人类的信息需求。通过精心的数据收集、预处理和整理,网页可以作为语言模型预训练的基本数据资源。然而,面对不断革新和复杂的网页性质,基于规则/基于特征的scraper越来越显得不够用。本文介绍了一种简单、快速且有效的神经网络网页scraper(NeuScraper),以帮助从网页中提取主要和干净的文本内容。实验结果表明,NeuScraper通过实现超过20%的改进,超过了基线scraper,展示了其在提取更高质量数据以促进语言模型预训练方面的潜力。
2024-10-26 17:19:25 954
原创 Python OpenAI库安装问题的解决
因为要使用Moonshot平台的API开发一些小工具,用到OpenAI库(Moonshot API兼容OpenAI). 安装后导入却发现有依赖问题,解决过程如下.
2024-12-17 18:55:55 183
原创 matplotlib中文字体问题排查
本文记录排查MambaforgeSimHei下的字体渲染问题操作系统信息:Linux raspberrypi 6.1.21-v8+ #1642 SMP PREEMPT Mon Apr 3 17:24:16 BST 2023 aarch64 GNU/Linux。
2024-11-27 16:25:46 293
原创 西瓜书《机器学习》符号表KaTex表示
写这篇post的缘故是最近整理机器学习的相关公式,经常要用到KaTex, 但网络上搜索到的西瓜书符号表的表示有些并不准确或者严谨,本着严谨治学的态度,整理了一下符号表的KaTex表示,希望有所帮助,整理过程中参考了《南瓜书》和 KaTex官方文档
2024-10-26 11:50:17 1223
原创 GGUF和GGML格式介绍与比较
近年来,随着大语言模型(LLM)的迅速发展,如何高效地存储和部署这些模型成为了一个重要的课题。GGML和GGUF是两种为此而生的文件格式,它们在LLM领域发挥着重要作用。本文将介绍这两种格式的特点,并对它们进行比较。
2024-10-25 19:06:11 472
原创 uv: 一个统一的Python包管理工具
uv是一个功能强大、简单易用的Python包管理工具,集成了端到端的解决方案。它在性能和可靠性上都有突出的优势。无论是小型脚本还是大型项目,从初学者到专家,uv都能很好地满足Python开发的各种需求。Astral公司希望通过uv来降低Python开发的复杂度,提高生产力。如果你在内部使用uv,并有兴趣在Python打包方面与Astral合作,欢迎联系他们,共同应对未来的挑战。
2024-10-25 17:28:09 2250
原创 ASP.NET Core开发Chatbot API
本文介绍基于的Chatbot开发,通过调用大语言模型的SDK,完成一个简单的示例。并且通过容器化进行部署.
2024-10-24 10:24:09 1075
原创 Orleans - 构建分布式系统的利器
Orleans 是由微软开发的一个开源分布式应用框架,它基于 Actor 模型,采用了一种称为 “Virtual Actor” 的概念。Orleans 可以帮助开发者轻松构建可伸缩、高可用的分布式应用,从单个服务器扩展到全球分布的云服务。
2024-10-24 08:23:49 770
原创 中心极限定理的Python实践
最近在读扩散模型相关的几篇paper,中间有对概率论的大篇幅引用. 在DDPM的推导中,用到了中心极限定理.中心极限定理是概率论和统计学中的一个核心定理,它揭示了大量独立随机变量之和的分布规律。本文将深入探讨中心极限定理的原理、意义、历史以及如何通过Python代码来验证这一重要定理。
2024-10-15 20:07:41 781
原创 Docker日志管理:深入理解docker logs命令
命令用于查看Docker容器的日志输出。它可以显示容器内部应用程序的标准输出(stdout)和标准错误(stderr)。其中,CONTAINER是容器的名称或ID。命令是管理Docker容器日志的利器。通过灵活运用其各种选项和高级用法,你可以更好地查看、过滤和存储容器日志,从而提高问题定位和调试的效率。同时,选择合适的日志驱动也很重要,特别是在大规模Docker环境中。希望本文能够帮助你全面了解命令,提升你的Docker日志管理技能。让我们一起努力,打造可靠高效的Docker化应用吧!
2024-10-15 13:49:04 2043
原创 NLUX:打造 AI 对话界面的强大框架
NLUX 是一个开源的 JavaScript 和 React 库,用于快速构建对话式 AI 界面。它提供了一系列组件和 API,让开发者能够轻松地与 ChatGPT 等 AI 模型集成,打造出功能丰富、交互友好的 AI 对话应用。用户界面层🎨 - 负责渲染屏幕上的所有内容,如用户和 AI 的消息、输入框等,并提供事件监听器、钩子等。API 层📡 - 提供与聊天机器人编程交互的 API,实现发送消息、获取对话历史等操作。适配器层。
2024-10-14 20:06:32 1030
原创 Flash Attention:高效注意力机制的突破
Flash Attention是注意力机制领域的重大突破,它通过巧妙的算法设计和硬件优化,实现了显著的速度提升和内存节省。作为AI工程师和研究者,了解并掌握Flash Attention对于构建高效的注意力模型至关重要。相信Flash Attention必将在未来的AI系统中扮演越来越重要的角色。
2024-10-14 19:34:04 1260
原创 DDPM浅析
DDPM作为一种新兴的生成模型,通过其独特的扩散和去噪过程,为生成模型领域带来了新的突破。虽然其采样速度相对较慢,但随着各种加速技术的发展,DDPM及其变体已经成为了当前最先进的生成模型之一,在图像、音频等多个领域展现出了巨大的潜力。随着研究的深入,我们可以期待看到DDPM在更多领域的应用,以及更多基于DDPM的创新模型的出现。扩散模型无疑将继续是未来一段时间内生成模型研究的热点方向。
2024-10-14 19:28:10 612
原创 FastAPI中的流式响应:实现实时数据传输
在Web应用程序开发中,有时我们需要处理大量数据或长时间运行的操作。在这些情况下,传统的一次性响应可能会导致客户端长时间等待,甚至超时。这就是流式响应(Streaming Response)发挥作用的地方。
2024-10-13 21:51:52 1390 1
原创 orjson:高性能的Python JSON库
orjson是一个快速、正确的Python JSON库。它具有以下主要特点:性能卓越 - 在序列化和反序列化方面都比标准库和其他第三方库快得多。正确性高 - 严格遵守JSON规范,能正确处理各种边界情况。功能丰富 - 原生支持序列化dataclass、datetime、numpy数组、UUID等类型。内存效率高 - 相比其他库内存占用更少。使用简单 - API设计简洁,易于使用。如果你的Python项目中有大量JSON处理任务,尤其是对性能要求较高的场景,强烈建议你尝试使用orjson。
2024-10-13 21:46:54 399
原创 Pyramid-Flow推理环境搭建
Pyramid-Flow是一种基于流匹配的训练高效自回归视频生成方法。该方法仅在开源数据集上进行训练,能够生成高质量的10秒钟768p分辨率、24帧每秒的视频,并自然支持从图像到视频的生成
2024-10-12 22:09:48 843 2
原创 PyTorch 2.4 import 报错问题解决
看错误信息是Numpy 2.1导致的,推测是 numpy的版本和 torch的版本不兼容.网上搜到的信息是 numpy 2.1有一些特性还没有被 torch 2.4支持,因此需要把numpy 降级2.0之前的版本.再次进行导入,问题解决.
2024-08-28 13:47:53 508
原创 SGM(Score-Based Generative Model)扩散模型简介
扩散模型(Diffusion Models)近年来在生成建模中获得了广泛关注。特别是Score-Based Generative Model(SGM),在图像生成等任务上表现出色。本文将介绍SGM的原理,并结合代码示例,帮助您更好地理解这一强大的生成模型。扩散模型是一类生成模型,其核心思想是从一个简单的分布(如高斯噪声)逐渐演变成复杂的目标分布。这个过程可以看作是从无序到有序的反向扩散(Reverse Diffusion)。
2024-08-24 18:34:55 1536
原创 扩散模型 (Diffusion Models) 及其在生成式建模中的应用简介
扩散模型是一类生成模型,旨在通过模拟数据分布逐步生成逼真的样本。其核心思想是在高斯噪声的扰动下,逐步将数据样本退化成纯噪声,然后通过一个逆过程逐渐去噪,恢复出原始数据。扩散模型最初的构思源自于物理中的扩散过程,模拟粒子从高浓度区域向低浓度区域扩散。在生成模型中,这一过程被反过来使用,即从噪声开始,逐步引导模型生成具有真实感的样本。DDPM作为扩散模型的代表,在生成式建模中展示了强大的潜力。尽管其计算成本较高,但凭借其稳定性和高质量的生成能力,已在多个领域取得了显著成果。
2024-08-24 17:43:50 1189
原创 LLM笔记 - 简单认识Attention机制
Attention机制最初是在机器翻译任务中提出的,它的主要思想是让模型在预测下一个词时不仅关注当前输入,还能关注输入序列中的其他位置。Attention机制可以帮助模型更好地捕捉输入序列中不同部分之间的关系,提高模型的表现。
2024-08-10 11:01:53 446
原创 CentOS编译安装R
R语言是一种广泛用于统计计算和图形绘制的编程语言和软件环境。以下是R语言的一些主要特点和用途:统计分析:R语言为各种统计和数据分析提供了丰富的工具和函数。图形功能:R拥有强大的数据可视化能力,可以创建高质量的统计图表。开源免费:R是一个开源软件,可以免费使用和分发。跨平台:R可以在Windows、Mac OS和Linux等多种操作系统上运行。扩展性:通过安装包(packages),R的功能可以被轻松扩展。数据处理:R提供了强大的数据操作和清理工具。机器学习:R有许多用于机器学习和人工智能的库。
2024-08-10 09:59:56 673
原创 windows cmd中单引号和双引号的问题
这个问题的起因是在windows cmd中运行一个简单的命令发现没有输出,但是进入node环境后,直接执行是有输出的。于是在Linux上迅速做了验证,执行,成功输出了信息。这时意识到可能是和在windows cmd下含义是不同的,做了一个验证此时可以正常输出了。于是查阅了相关资料,对于和在windows cmd下区别,记录如下。
2024-06-22 09:20:39 1179
原创 辐射传输方程和图形学渲染方程的区别
因为最近在看NeRFs相关的论文,所以接触到一些图形学内容, 在一篇介绍文章中,看到了关于图形渲染方程的内容,但搜索下来,文中给出的方程形式和其他地方的似乎不一致,于是进行了一番搜索,本文是笔记。
2024-06-17 14:32:31 1064
原创 初识docker插件
Docker插件是一种特殊的容器,能够与Docker守护进程进行通信,扩展Docker的核心功能。插件可以是存储插件、网络插件、日志插件、监控插件等。使用插件可以简化Docker的管理和操作,提升其功能性和灵活性。Docker插件为Docker提供了强大的扩展能力,能够极大地提升Docker的功能和灵活性。通过插件,用户可以根据自身需求定制Docker的功能,实现存储、网络、日志等多方面的扩展。希望本文通过对Docker插件的介绍和具体使用例子的演示,能够帮助你更好地理解和使用Docker插件。
2024-06-16 15:50:53 974
原创 终极Python备忘单:日常任务的实用Python
这个cheat sheet是一份应需求而有的产物。最近,我被要求深入研究一个新的Python项目,但我已经长时间没有使用python了.我一直欣赏Python的实用语法和形式。然而,在Node/Typescript领域待了一段时间后,我发现自己需要快速复习Python的最新特性、最佳实践和最有影响力的工具。我需要快速恢复状况,而不被细枝末节所困扰,所以我整理了这个列表,以便可以查阅我经常需要使用的任务和功能。基本上,这个备忘单帮助我掌握了解决80%编程需求的Python基本20%。
2024-06-16 12:52:56 1064
原创 Python笔记 - 运算符重载
运算符重载是指为自定义类定义特殊方法,使得类实例对象可以使用标准运算符进行操作。例如,当我们重载了运算符后,可以直接使用运算符来合并两个对象。通过运算符重载,可以使自定义类的实例对象具备与内置类型相似的操作能力,从而使代码更加简洁和易读。本文介绍了运算符重载的基本概念,并通过一个Vector类的示例演示了如何重载常用运算符。在实际开发中,合理使用运算符重载可以大大提高代码的可维护性和可读性。
2024-06-15 16:03:19 719
原创 探索Docker容器网络
veth(virtual Ethernet)对是一种虚拟网络设备,它们总是成对出现,类似于一根虚拟网线的两端。数据从一端进入会从另一端出去。veth对的一个端点可以在一个网络命名空间中,另一个端点可以在另一个网络命名空间中,这使得它们成为跨命名空间通信的理想选择。# 创建网络命名空间# 创建veth对# 将veth的一端移到命名空间ns1中# 配置veth设备# 在命名空间中配置veth设备# 启动命名空间中的网络。
2024-06-15 11:19:07 1256
原创 KaTex在博客中显示数学公式
KaTeX 是由 Khan Academy 开发的一个 JavaScript 库,用于在网页上渲染 LaTeX 数学公式。与其他数学排版工具相比,KaTeX 的渲染速度更快,并且支持大多数常用的 LaTeX 数学命令。官方网站: https://katex.org/通过使用 KaTeX,你可以轻松地在博客中展示各种复杂的数学公式。KaTeX 不仅渲染速度快,而且兼容性好,非常适合需要展示数学内容的网页或博客。希望这篇文章能够帮助你快速上手 KaTeX,并在你的博客中愉快地使用它!
2024-06-15 10:06:15 1149
原创 Python笔记 - TOML配置文件
TOML(Tom’s Obvious, Minimal Language)是一种配置文件格式,旨在比JSON、YAML等格式更易读、更人性化。它使用简洁的语法,能清晰地表达复杂的结构,同时保留良好的可读性。本文将介绍TOML的基本语法,提供代码示例,并探讨其在Python项目中的使用场景。
2024-06-15 09:51:54 1009
原创 sklearn极简入门
sklearn是一个强大的Python库,用于机器学习和数据挖掘。它内置了许多常用的机器学习算法和工具,适合初学者和专家使用。本文将带你入门sklearn,并提供一些基本的例子。sklearn开源在github,可以很方便的获取源码当前,pytorch大行其道,那么sklearn是否还有什么优势呢?还是有的:适用于传统机器学习:scikit-learn提供了丰富的传统机器学习算法和工具,特别擅长处理结构化数据和应用于监督学习、无监督学习和特征工程等领域。
2024-06-14 09:55:08 1328
原创 Python笔记 - 正则表达式
正则表达式是一种用来描述字符串模式的方法。它可以用来匹配、查找和替换文本中的特定模式。通过使用正则表达式,你可以定义一些规则,然后搜索文本中符合这些规则的内容。这种功能在文本处理、数据抽取和字符串匹配等领域非常有用。
2024-06-14 08:34:47 641
原创 Python笔记 - 用typer开发CLI程序
在这篇博客中,我们探索了 Python 的 Typer 库,它是一个现代、用户友好的命令行界面(CLI)开发工具。Typer 基于 Click,但利用了类型提示来简化开发过程。我们讨论了 Typer 的优点,包括其简洁性、自动化和类型安全,并通过安装指南和一个简单的书籍管理应用示例展示了如何使用 Typer 构建 CLI 应用。最后,我们展示了如何运行和测试这些命令,帮助读者快速上手使用 Typer。
2024-06-10 16:39:47 1035
原创 5分钟弄懂WSGI和ASGI
WSGI 是一个用于Python Web应用程序和Web服务器之间的简单调用约定。它是Python标准库的一部分,由PEP 3333定义。WSGI的主要特点是同步和阻塞,它适用于处理同步的HTTP请求。ASGI 是一个用于Python异步Web服务器和应用程序之间的标准接口。它由Django Channels项目引入,旨在支持WebSocket、HTTP2等协议。ASGI的主要特点是异步非阻塞,它能够更好地处理并发请求。
2024-06-10 15:19:54 1703
原创 pip install 出现 Missing dependencies for SOCKS support 问题的解决
本文记录了在conda创建环境后,pip 安装依赖出现Miss dependencies for SOCKS support 问题的解决方法.
2024-06-09 16:28:08 1335 2
原创 Docker镜像优化 - 多阶段构建
多阶段构建是版本中引入的一个特性,它允许你在一个Dockerfile中使用多个FROM指令,每个FROM指令可以定义一个独立的构建阶段。这样做的主要目的是为了将构建和运行环境分开,从而优化最终生成的镜像大小。
2024-06-06 11:59:01 599 1
原创 Python笔记 - asyncio异步编程
asyncio是 Python 标准库中的一个模块,用于编写异步 I/O 操作。它通过使用协程(coroutines)来实现异步编程,允许程序在等待 I/O 操作时执行其他任务,从而提高效率和性能。详细内容可以参考官方文档地址asyncio是一个强大的工具,能够帮助我们编写高效的并发代码。通过理解和使用协程、事件循环、任务等概念,我们可以轻松地处理异步 I/O 操作,从而提升程序的性能。在实际应用中,asyncio可以与其他异步库(如aiohttp。
2024-06-06 11:18:44 451
原创 30分钟快速入门TCPDump
TCPDump是一款功能强大的网络分析工具,它可以帮助网络管理员捕获并分析流经网络接口的数据包。由于其在命令行环境中的高效性与灵活性,TCPDump成为了网络诊断与安全分析中不可或缺的工具。本文将详细介绍TCPDump的基本用法,并提供一些高级技巧,帮助您更好地利用这一工具。
2024-06-05 13:22:51 474
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人