Ubuntu 系统更新显卡驱动后网络图标消失及驱动丢失的修复记录
Ubuntu 系统更新显卡驱动后网络图标消失及驱动丢失的修复记录由于学校实验室意外停电导致强制关机,一台运行 Ubuntu 22.04 与 Windows 的双系统主机重启后显卡驱动掉了,大致就是出现了Failed to initialize NVML: Unknown Error 这种问题,应该是重启后内核版本升级与驱动版本不匹配了。我当时没有想太多,直接更新了一下驱动(因为这台电脑平时放在一个比较偏远的地方,我是通过桌面远程或者ssh远程的) Linux 1sudo ubuntu-drivers autoinstall 重启后,就连不上了(双系统引导默认进ubuntu,远程重启也没有问题),我以为可能是卡在了装驱动的MOK(Machine Owner Key,机器所有者密钥)界面,但是我记得我的UEFI Secure Boot (安全启动)是关闭的,所以比较疑惑,这台主机还运行了一些服务,还需要处理一下,打算第二天直接过去看看。 安全启动初衷:为了防止木马或病毒在电脑开机时通过伪装成驱动程序进入系统。因此,BIOS 只允许运行经过“权威机构”(通常是微软或主板厂商)数...
对vibe coding的思考
对vibe coding的思考时代变了,以前看到屎山代码肯定会怒喷半小时,但现在,这只是对生产力的一次解放。现在的编程,大家只是在做最核心的事情:定义需求。再一点是,大多数软件产品,都达不到上线水平。绝大多数非专业者的要求,其实也就是一个可运行的Demo,能用的小板凳。 结论:价值的唯一衡量标准是是否解决了问题,而不是解决方案有多优雅。大概很多数学家会很排斥吧。 或许现在的人太浮躁功利,不愿意去看算法程序里那些的原理,但是这些优雅的算法和逻辑,才是我选择这一行的原因,我清楚的记得当时被它吸引时内心的兴奋和激动。抛开兴趣不谈,从前的编程是思维的流动,对自己代码的全盘掌控,把握每一句的边界。如今的编程是意境的渲染,对AI建议的顺势接纳,交出每一行的主导。现在感觉自己已经逐渐失去了写代码的能力😂,这也是趋势吧,ai帮忙干活确实爽。 这种浮躁也是行业筛选机制的一部分。大浪淘沙,这波ai浪潮过去之后,留下的会是两类人。一类是极少数真正的技术专家,他们驾驭ai,利用ai把系统的复杂度推向新的高度。另一类是大量的低端操作员,他们只是ai的挂件,随时可以被替换。 大语言模型,本质上是基于概率的...
服务器配置clash代理简易流程
学校服务器(hpc,托管私有)的代理配置学校的服务器是基于slurm,组内服务器是基于kube,安装使用代理是很常见的需求(Hugging Face,Github,Claude Code等),并且需要随时切换不同区域的代理,或者走自己搭建的代理服务器。最近能用官方的cc,所以在hpc和组内服务器上都配置了代理,不需要sudo权限,这里简单记录一下。 由于原版 Clash 项目已经删库停更,目前社区的主流替代方案是 Mihomo (原 Clash Meta),它完全兼容 Clash 的配置文件。 服务器都是x86架构,配置很方便。 1. 下载并安装内核 (Mihomo) Linux 123456789101112131415# 1. 创建个人可用二进制文件目录,正常应该已存在mkdir -p ~/.local/bin# 把它加入环境变量echo 'export PATH="$HOME/.local/bin:$PATH"' >> ~/.bashrcsource ~/.bashrc# 2. 直接从 Github 下载Mihomo...
服务器上VNC死锁的排查与处理
服务器上VNC死锁的排查与处理+近期记录现在大部分实验室或者公司都会使用基于Kubernetes(k8s)的容器编排来管理服务器算力资源,实现多任务之间彼此的隔离,自动完成在部署、管理和扩展容器化应用过程中涉及的许多手动操作,并维护和跟踪资源分配情况。或者一些大型hpc集群会基于slurm来更加规范的进行任务调度。 在这样的系统中,运维是一大重任,因为用户的操作无法预料,一个开发时的bug可能会导致出现一系列的连带问题。组内的服务器是第三方基于k8s开发管理的,容器化分别部署,Django后端,包含一个用户web界面(可以提交任务,申请算力资源)和一个微信小程序监控用户任务,小程序几乎用不到,并且其中的数据同步涉及一些隐私问题,容器使用的记录日志都被同步到了第三方的平台。 现在的市场,用户数据就是资源,国内许多卖AI工具api的中转站无疑都会保存用户和ai的对话记录,然后转手卖出,再赚一笔,据我了解,现在50条会话能够卖到1刀。这些中转站本身就使用廉价的逆向或者低价批量号池来卖低质量的api(主要是claude code,codex),价格能压到如此之低也是因为国内大量用户涌入...
FastAPI+Cloudflare
FastAPI+Cloudflare把自己的服务放到公网最近在一台Linux主机中使用docker部署了一个需要GPU算力的计算机视觉服务,专门给某个特定场景使用。采用这个方案的原因主要是因为租用带有显卡服务器成本太高,不如自己搭建(有显卡),并且现有的一些第三方服务的网站能够调用通用算法包含的模型较少,访问起来很慢,并且pro版本十分昂贵,比如roboflow,免费版使用的时候网站有时候会卡住显示OOM,调用接口批量测试的时候效果也有点差强人意。综合考虑还是自己搭建了一个api,在AI的帮助下也就半天时间就可以完成,这样一来模型完全可控,可微调可训练。 项目构建了一个集成 GroundingDINO(目标检测)和 Segment Anything Model(图像分割)的 API 服务。技术栈选择: 工具/库 类型 选择理由 FastAPI Web 框架 现代、高性能(基于 Starlette 和 Pydantic)。原生支持异步编程(Async/Await),非常适合处理 IO 密集型任务,且能自动生成 Swagger 文档。 Uvicor...
一些网络问题和近期信息整理
Win11 RDP最近配了windows主机,肯定要配置一下远程桌面,这在校园网中非常丝滑。但是这次配置的时候出现了以前从没出现过的问题,因此记录一下。校园网内的主机ICMP是不响应的,可能是配置了网络层ACL(访问控制列表)。因此可以使用其他方式先判断一下连通性: windows 1Test-NetConnection -ComputerName 目标IP -Port 端口号 如果是不通的,可能有多种原因导致,比如被访问的主机没有打开远程桌面功能(一些常规的设置可以去网络上搜索)。所有基本设置都完成之后,如果还是不通,需要查看一下下面这个注册表的值: windows 1(Get-ItemProperty 'HKLM:\System\CurrentControlSet\Control\Terminal Server').fDenyTSConnections 如果fDenyTSConnections的值为1,意味着“拒绝终端服务连接”,Remote Desktop (RDP) 服务被禁用,Windows 不会接受 RDP 连接请求,也没有监听3389...
Scrcpy手机投屏电脑并结合Termux解析ip
Scrcpy手机投屏电脑平时使用手机时需要和电脑传输一些链接或者文本,不想在Mac上登陆微信,只能打开文件传输助手,然后就要扫码确认,并且总是要去拿起手机很不方便,能够直接在电脑上操作包括打字会更加流畅舒适。还有一些时候可能需要做手机上的演示视频,分享一些Android App,一般是录像或者投屏,或者在电脑上使用Android模拟器。 需要满足所有要求一般使用投屏,我看到许多人都推荐scrcpy,自己使用之后也觉得非常好用,开源、轻量、简单。scrcpy不仅能投屏还能在电脑上控制手机,声音也可以投屏,显示很清晰,速度快,可以通过USB连接,也可以通过Wifi连接,并且不需要手机root权限,同时适用于Linux、Windows和MacOS。在有公司网络或者校园网的场景中非常舒适,延迟低,还能远程控制设备。下面是使用方式: 启用adb调试不同手机品牌启用adb的方式不同,一般是进入设置 -> 关于手机 -> 版本信息 -> 版本号 连续点击7下,直到提示”您已处于开发者模式”,即打开开发者模式。然后在设置主界面可以看到开发人员选项,打开 USB调试 USB调试...
EasyConnect 放入 Docker 中避免流量劫持和监控
EasyConnect 放 Docker 中避免流量劫持EasyConnect是深信服(Sangfor)开发的VPN客户端软件,常用于: 校园网接入:让学生/教职工通过VPN访问校内资源 企业远程办公:接入企业内部系统 网络准入控制:对接入设备进行安全检查和管控 通过EasyConnect可以使我们在校外访问校内资源,并且港科广连接HPC需要通过可信主机,而可信主机就包含了EasyConnect中的两台入口主机。因此,无论在校内还是校外,使用EasyConnect的场景都是很多的。 但是,这也带来一些麻烦,由于EasyConnect节点比较少使用人数较多,所以放在后台时会导致访问学校以外的网页速度变慢,并且也没有办法访问外网。此外,也存在一些安全问题,EasyConnect可能会监控所有流量,可能收集用户上网行为数据。还有EasyConnect软件权限过高,需要安装虚拟网卡。 针对这些问题,其实校内许多大佬也已经在各个吃喝玩乐群里提出了解决方案,刚入学时就看到他们分享了许多经验(主要是美食),但是每个人方式不一样,下面是我参考大佬们的方法。也可以直接使用Link 1...
信息整理
LeanCloudServerless云开发或者函数即服务对于经常需要部署的前端静态网页很有效,腾讯云阿里云相关服务使用一段时间之后需要付费,如果只是轻量的数据没有必要。如果网页是托管在其他平台,并且不想每次改一个值都要打开源码然后push到服务器,可以考虑使用。 使用教程: More Info: https://cloud.tencent.com/developer/article/1558010 分布式训练现在深度学习模型越来越大,一般来说使用A6000显卡显存能满足大部分科研需求,但目前能使用的只有4090,24G的显存有时确实不够挥霍。之前研究了一会分布式,在使用分布式之前其实可以先优化自己的训练代码,比如适当减小训练图像尺寸、使用混合精度训练、CPU卸载、梯度检查点等。 很多机构的HPC或者服务器集群使用slurm或者Kubernetes管理,一些指令可以用于提交job训练任务。 hkust-gz HPC基于slurm,相关指令Link 学校智算集群还是很牛的,第一次看到的时候有点震惊Link slurm或者Kubernetes主要还是用于运维多机多卡之间的...
DNS 缓存清理、查看本地 DNS、whois 与 dig
清理 DNS 缓存网络诊断或者做一些抓包实验有时候需要清理DNS缓存 macOS 1sudo dscacheutil -flushcache; sudo killall -HUP mDNSResponder Windows 1ipconfig /flushdns Linux 1sudo systemd-resolve --flush-caches 常见的情况:电脑把DNS查询请求都发给了路由器,再由路由器向上一级的ISP(网络服务商)或它自己设置的DNS服务器转发 也可以自己设置为公用的DNS 查看本地 DNS 配置 Windows(仅显示含 “DNS” 的行) 1ipconfig /all | findstr "DNS" macOS 1scutil --dns | grep 'nameserver\[[0-9]*\]' Linux 123resolvectl status # 或systemd-resolve --status # 旧别名cat /etc/resolv.conf # ...
