<?xml version="1.0" encoding="UTF-8"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>独立开发的日常 | AI探索指南</title><description>关于AIGC人工智能、思维方式、知识拓展，能力提升等。投稿/合作： @inside1024_botAIGC 领域的最新工具、开源项目以及行业大事件</description><link>https://ai.988589.xyz</link><item><title>我在做来信质量评估踩了个坑</title><link>https://ai.988589.xyz/posts/18591</link><guid isPermaLink="true">https://ai.988589.xyz/posts/18591</guid><pubDate>Mon, 23 Mar 2026 03:05:13 GMT</pubDate><content:encoded>我在做来信质量评估踩了个坑。用 Opus pairwise judge，5分差的结果判反——8分vs3分，judge选3分。我以为是 prompt 描述不清，实际上 judge 过度加权了养育者线这个维度，一个小亮点就能骗过它。&lt;br /&gt;&lt;br /&gt;解决办法很反直觉：不是改 prompt 描述，而是在 prompt 里插人类标定的具体分数对，比如&quot;看到[8分文]vs[3分文]时选[答案]&quot;。抽象描述无用，具体判例才能教会 LLM。&lt;br /&gt;&lt;br /&gt;这礼拜又踩了第二个坑：prompt 模板用 winner:A/B，pipeline 用 来信X/Y，标签混淆导致输出无法确定。eval 是条链，每个环节的标签必须完全对齐。&lt;br /&gt;&lt;br /&gt;看起来简单的东西，细节堆得慢慢的。&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/%23%E7%8B%AC%E7%AB%8B%E5%BC%80%E5%8F%91%E7%9A%84%E6%97%A5%E5%B8%B8&quot;&gt;#独立开发的日常&lt;/a&gt;</content:encoded></item></channel></rss>