《【我推的孩子】》第03卷
Sensitive content
Sensitive content
美国人工智能标准与创新中心(CAISI)的2026年5月1日报告: “根据 DeepSeek 的数据,DeepSeek V4 的性能与大约两个月前发布的 Opus 4.6 和 GPT-5.4 相当。然而,CAISI 的评估(包括非公开基准测试)表明,DeepSeek V4 的性能与大约八个月前发布的 GPT-5 类似”。
CAISI 是什么?
它不是 LMSYS 那种“用户体验竞技场”,LMSYS的核心成果为 Chatbot Arena 大模型竞技评测平台,被业界视为全球大模型能力评估的风向标。
它更接近“面向国家标准的能力测量体系”,聚焦于能力是否可量化、是否可对比、是否可监管、是否可进入国家关键基础设施体系。
它测试的可能是:
1)长链推理(long-chain reasoning):如数学证明、复杂规划;
2)对齐(alignment):让模型“在复杂语境中不犯错”;
3)稳定性与泛化能力:对分布外问题不崩,输出一致性高。
这三类能力,本质上都是在用极高的成本换取极限能力和长尾可靠性。
毫无疑问,美国闭源大模型的超大规模算力投入(数十亿美金级别)、长周期训练、不以短期盈利为核心约束的资源禀赋,特别适合这种能力测试,如ARC-AGI-2 (抽象推理)、CTF-Archive (夺旗赛网络安全)、FrontierScience (前沿科学问题),无一不是对模型推理极限的严苛考验。这同时也符合美国模型的商业逻辑:“卖最强能力给最愿意付费的人”。
但中国开源大模型都不是这么设计和运行的。
美国在解的问题是:“模型能有多聪明?”
中国在解的问题是:“智能在社会中能被用到多大规模?”
美国希望寻求的答案是:“让模型更像博士。”
但中国更关注的答案是:“让模型变成基础设施,像水电气、医疗服务和云计算服务一样。”
总而言之,请记住两句话:
第一句话是,DeepSeek v4 在用户体验层面已经进入全球第一梯队,但在极限能力与可靠性层面仍落后;然而凭借其成本结构,使它在 Agentic 时代具备不对称竞争力。
第二句话是,CAISI 评测体系选择了一个美国已经投入了最多资源的测评子空间,本质上是用美国的标准和考卷,来衡量一个为不同目标而优化的学生,美国闭源模型大概率赢。
reshared this
从零开始的 Natsume reshared this.
like this
ねねね likes this.
reshared this
reshared this
2026年7月新番《超超超超超喜歡你的100個女朋友》第三季公開主視覺圖,並宣布 7 月 5 日起,每週日 22:30(JST)開始播出。
同步預告三名新登場角色為「優敷山女」、「茂見紅葉」與「土呂瀞騎士華」,其配音資訊有待後續揭曉。
出處:TVアニメ『君のことが大大大大大好きな100人の彼女』公式 / X
x.com/hyakkano_anime/status/20…
❤❤━━━━━君のことが大大大大大好きな100人の彼女 第3期 2026年7月5日より放送開始❣ ━━━━━❤❤恋太郎ファミリーが愛しい視線で見つめるキービジュアルを大大大大大公開💞#アニメ100カノ pic.twitter.com/wWu3FXYCEx— TVアニメ『君のことが大大大大大好きな100人の彼女』公式 (@hyakkano_anime) May 1, 2026TVアニメ『君のことが大大大大大好きな100人の彼女』公式 (X (formerly Twitter))
从零开始的 Natsume reshared this.
我昨晚把 Color OS 16降级到15,今天兴高采烈地解锁,还是失败了。似乎是一加从某个版本开始引入了防止回滚,只要是曾经升到了那个版本并且处于未解锁状态,即使降级了也还是不能解锁。还不如继续用16,等着哪天官方也许大发慈悲把我这个机型加入深度测试。
那我能怎么办,只好7天无理由退款了 🤯
like this
ZAKU II reshared this.
《OnePlus 一月固件更新引入了硬件级防回滚机制》 OnePlus 一月固件更新 ColorOS 16.0.3.501 引入了硬件级防回滚机制,阻止用户降低设备运行的固件版本或安装自制 ROM,受影响的型号包括 OnePlus 13、OnePlus 13T 和 OnePlus 15,任何尝试安装旧版本固件的行为都会导致设备永久“变砖”——设备将无法使用,因设备上的高通处理器内部电子熔断器熔断。升级到 ColorOS 16.0.3.Solidot (mas.to)
从零开始的 Natsume likes this.
从零开始的 Natsume reshared this.
从零开始的 Natsume reshared this.
虽然我基本看不懂 write-up 在说什么,但发现这个 CopyFail 的人真的太帅了 xint.io/blog/copy-fail-linux-d…
TLDR,十年 ctf 经验的韩国人 Taeyang Lee (0wn.kr/) 在今年初的 kernelCTF 工作上意识到 AF_ALG + splice 可能会有潜在的安全问题,这个直觉引导他和同事用 Xint (An AI-driven penetration testing platform) 在内核里搜索这种模式,prompt 很短:
This is the linux crypto/ subsystem. Please examine all codepaths reachable from userspace syscalls. Note one key observation: splice() can deliver page-cache references of read-only files (including setuid binaries) to crypto TX scatterlists.
Xint 找了一个小时找到了这个 bug。
太帅了,简直是新时代人类 AI 协作典范。
Xint Code disclosed CVE-2026-31431, an authencesn scratch-write bug chaining AF_ALG + splice() into a 4-byte page cache write. A 732-byte PoC gets root on Ubuntu, Amazon Linux, RHEL, SUSE. | AI for Security, Vulnerability Researchxint.io
从零开始的 Natsume reshared this.
Sensitive content

reshared this
大都会CoolUncle在线收留心碎罗宾 likes this.
🎁フォロワー500人ごとにアイコン🎁
162000フォロワー
ありがとうございます🎀
从零开始的 Natsume reshared this.
在毛象也吆喝一声希望在使用Misskey的香油如果觉得我说的有道理可以去Crowdin给我的翻译投个支持票
Misskey这个中文界面翻译也是长期有个乱七八糟的地方就是这个ミュート(Mute)和ブロック(Block),在目前的Misskey里两个都被翻译成了“屏蔽”(如P1),但其实官方文档里对这两个功能的描述是这样的:
如果有不喜欢的用户,可以通过ミュート使该用户从自己的视野中消失。 另外,作为更强力的措施,通过ブロック可以使该用户无法看到自己的内容,并且无法与自己互动。 对方不会察觉到自己被ミュート了,但会知道自己被ブロック了。
也就是说这个Block也和推特之类的Block并不一样,经过测试,对用户进行Block操作,并不会使对方的内容消失在自己的时间线上,所以我认为这个ブロック不管翻译为“拉黑”还是“屏蔽”都是不对的,会让用户产生疑问:“为什么我都屏蔽对方了,对方还出现在我的时间线上?”
我支持保持原有的让对方在自己时间线上消失的“ミュート”为“屏蔽”,而禁止对方与我互动(但并不会让对方在我的时间线上消失!)的“ブロック”为“禁止对方与我互动”(P2),如果你也觉得这样在使用上更易理解,欢迎去Crowdin给这一条翻译投下支持票
like this
reshared this
展示 HN:搭配 NASA 影像的太陽與月球即時儀表板 lumara-space.app/
Lumara 是一個把太陽、月球與近地太空資訊集中呈現的即時儀表板。主畫面會顯示 NASA 的 SDO (Solar Dynamics Observatory,太陽動力學觀測站) 太陽影像、月相與照明比例、月出月沒、月球距離與高度角,還有 24 小時太陽縮時影像,以及 ISS (International Space Station,國際太空站) 的地球即時攝影畫面。網站也用幾個重點數字快速帶出太陽直徑、地月距離、最熱耀斑電漿溫度與 CME (coronal mass ejection,日冕物質拋射) 速度,讓人一眼掌握天文動態。
站內說明強調,太陽影像約每 15 分鐘從 NASA 的 SDO 與 SOHO (Solar and Heliospheric Observatory,由 NASA 與 ESA, European Space Agency, 歐洲太空總署合作的太陽觀測計畫) 更新;太陽本身則以 12 個波段、約每 12 秒拍攝一次的方式觀測,不同波段可對應從約 5,000 K 表面到上千萬 K 耀斑電漿的不同層次。月球資料採用 Jean Meeus 的《Astronomical Algorithms》離線計算,可估算月相、照明、月出月沒與距離,精度到分鐘。Lumara 也追蹤 B 到 X 級太陽閃焰、CME 與 G1 到 G5 地磁風暴,資料來自 NASA 的 DONKI (Database Of Notifications, Knowledge, Information,太空天氣事件資料庫);其中 Kp 指數是 0 到 9 的地磁活動尺度,達 5 以上代表可能出現地磁風暴與極光。這個專案完全免費、沒有廣告或內購,由美國陸軍退伍軍人兼獨立開發者 Beeswax Pat 一人打造,不追蹤定位,只讓使用者手動選城市並把資料留在裝置端;月球計算可離線運作,太陽影像與太空天氣則需連網更新。
在 Hacker News 的留言裡,多數人對它的視覺呈現印象很好,認為這類專案很難靠標題傳達效果,實際上非常適合放在桌面長時間觀看,甚至有人直接敲碗桌面背景或待機展示版本。作者也在留言中補充發行進度:Android 版已先在 Google Play 上架,iOS 版原本還在審查,討論串稍後便更新為已於 App Store 正式上線;先前一度有人發現 App Store 按鈕導向錯誤頁面,作者也立即修正。另有讀者建議加入資訊說明按鈕,解釋各種太陽波段與指標差異,作者表示會跟進,也有人期待未來能做成 Home Assistant 的 HACS (Home Assistant Community Store,外掛商店) 整合。
留言區也補上不少技術脈絡。有人打趣說,所謂「live」其實已經晚了約 500 秒,因為太陽光到地球本來就需要時間;作者則承認這裡的「即時」用得相對寬鬆,站上的日縮時畫面是把約每 12 秒一張的素材拼成 24 小時動畫。對於讀者觀察到太陽一天內轉動幅度似乎比想像更大,作者解釋那是太陽自身自轉造成,赤道附近的 Carrington rotation period (卡林頓自轉週期) 約 27 天,所以 24 小時約會橫跨 13 度經度。作者也透露網站幾乎是靠 Claude 這類 AI (人工智慧) 助理協助完成,部署在 Render 代管平台、以 GitHub 發布,成本相當低;但熟悉太陽觀測處理流程的讀者提醒,這些畫面並非完全未經處理的原樣資料,從 NASA 觀測值轉成適合大眾觀看的視覺化,本來就包含映射、配色與後製判斷。另有人從科學傳播角度指出,站內單位若能更一致會更好,例如克耳文 (Kelvin,絕對溫標) 與攝氏溫度不宜混用,速度單位也應統一,才能兼顧美感與精確度。
👥 25 則討論、評論 💬
news.ycombinator.com/item?id=4…
12 NASA SDO wavelengths live, real-time moon phases for 200+ cities, ISS Earth feed, space weather. Free, no tracking, no signup.Lumara
从零开始的 Natsume reshared this.
从零开始的 Natsume reshared this.
外國網友不懂日本校園文化《室內鞋的顏色》究竟有什麼特殊意義呢?
09:50
日本校園從幼稚園到高中,經常都會要求學生踏進教室之前,必須將鞋子放進個人的鞋櫃,然後換穿一種名為上履き(uwabaki)的室內鞋。相近經常看日本動漫作品或是日劇的大家,應該已經對這種日本校園文化熟到不...
news.gamme.com.tw/1773929
reshared this
like this
reshared this
希望透過推特的自動翻譯告訴日本人,跟台灣人溝通與其把日文丟到翻譯裡面變成簡體字,不如直接用日文漢字寫僞中國語— 蒸德式油薄餅 (@bby_7689) April 23, 2026蒸德式油薄餅 (X (formerly Twitter))
天妇罗炸虾 
#随拍
reshared this
like this
从零开始的 Natsume reshared this.
like this
Local assigned nekololi! on your timeline likes this.
老兄 likes this.
reshared this
reshared this
糖喵💕🍭(◍•ᴗ•◍)✧*
in reply to fivestone • • •从零开始的 Natsume likes this.