问题定义与收集计划：情报循环的前两步

OSINT-投资情报 | 第 02 篇 | 核心概念：问题分解、来源评估、收集策略

回忆热身

在开始新内容之前，不看笔记回答以下问题：

情报循环的五个步骤是什么？用你自己的语言简述每一步的核心动作。
OSINT 的定义中有两个关键限定词，分别是什么？为什么这两个限定词很重要？
Mauboussin 把投资者的优势分为三类，OSINT 直接对应其中哪两类？

为什么问题定义决定一切

上一篇讲了情报循环的全景图，五个步骤看起来都很重要。但如果你去问真正做过情报分析的人——无论是 CIA 分析师还是做空基金的调查员——他们都会告诉你同一件事：前两步（Requirements 和 Planning）决定了整个分析的质量上限。Clark 在《Intelligence Analysis: A Target-Centric Approach》中说得很直接："The success of analysis depends on an accurate problem definition."（分析的成功取决于准确的问题定义。）

这句话背后有一个残酷的现实：错误的问题定义不会在后续步骤中被修正，只会被放大。如果你在 Requirements 阶段就问错了问题——比如"这只股票会涨吗"而不是"这只股票的隐含预期是什么、哪些催化剂可能改变预期"——那你后续收集的所有数据都是在回答一个无用的问题。你可能爬了十万条数据、做了精美的可视化，但方向错了，一切归零。

Clark 指出，问题定义是"structured argumentation"（结构化论证）的第一步，而这个过程的核心动作是"breaking a problem down into parts"（把问题分解成组成部分）。他提出了一个叫 strategies-to-task 的方法：

"Deconstruct the highest level abstraction of the problem into its lower level constituent functions until you arrive at the lowest level of tasks."（把问题的最高层抽象分解为更低层的组成功能，直到你到达最底层的可执行任务。）

这种层级化分解在情报分析中表现为一个 requirements hierarchy（需求层级）：高层反映决策者视角和优先级，底层反映收集和分析的具体任务。高层问题（"伊朗局势对原油市场的影响"）很难直接回答，但分解到底层（"霍尔木兹海峡过去7天的船舶通行量变化"）就变成了一个可以收集、可以量化、可以验证的任务。

你在原油交易中其实已经做了这件事。你的高层问题是"原油会长期高位运行吗"，然后你把它分解成了一系列子问题：哈梅内伊死亡对伊朗派系的影响、霍尔木兹海峡的通行率、波斯湾停泊船只数量、伊朗的战争动机分析。每个子问题都有对应的数据源。这不是偶然——这就是 strategies-to-task 的投资版本。

graph TD
    A["高层问题
原油是否长期高位运行？"] --> B["伊朗是否会攻击 GCC？"]
    A --> C["霍尔木兹海峡会否被封锁？"]
    A --> D["全球供应替代方案是否充足？"]
    B --> B1["伊朗内部派系动态
（Telegram RSS、本地新闻）"]
    B --> B2["军事调动信号
（卫星影像、航运保险费率）"]
    C --> C1["海峡通行速率
（AIS 船舶追踪）"]
    C --> C2["波斯湾停泊船只数量
（自建看板）"]
    D --> D1["OPEC+ 产能缓冲
（官方数据+历史对比）"]
    D --> D2["美国 SPR 释放意愿
（政治分析+历史先例）"]

反思点

如果你是一家做空基金的分析师，接到任务调查一家中概股是否存在财务造假。你的高层问题是"这家公司的营收是否虚增"。用 strategies-to-task 方法，把这个问题分解到至少三层，直到每个底层任务都是一个可以去收集数据的具体动作。

来源评估：不是所有信息都值得收集

问题定义清楚之后，下一个关键步骤不是立刻开始爬数据，而是评估你的信息来源。Clark 在证据评估框架中提出了来源评估的三个核心问题：

评估维度	核心问题	投资场景举例
Competence（胜任性）	来源是否具备相关知识？	一个分析特斯拉电池技术的博主，他有没有材料科学或电化学背景？还是只是在复述新闻？
Access（接触性）	来源是否有获取该信息的条件？	一个声称知道公司内部产能数据的 Twitter 账号，他是怎么拿到的？是前员工、供应商、还是在编故事？
Bias（偏见性）	来源是否有利害关系可能扭曲信息？	一个做多特斯拉的分析师写的看多报告，vs 一个做空的对冲基金发布的做空报告——两边都有偏见，但偏见的方向和程度不同。

来源评估不是信息过滤器，而是信息权重调节器。一个有偏见的来源不一定要丢弃——做空基金的报告虽然有偏见，但 Hindenburg 和 Muddy Waters 的调查质量极高，因为他们的钱押在上面，错了要赔钱。关键是你要知道偏见的方向和程度，在分析时给它一个合理的权重。

Clark 还特别强调了一个经常被忽略的维度：传播渠道评估。信息从来源到你手中经过了多少个节点？每个节点是否会产生失真？他把传播渠道称为"可靠性拼图中的关键部分"。一条路透社的原始报道和一个 Twitter 用户对这条报道的二手转述，信息内容可能相同，但可靠性完全不同——因为传播链条上每多一个节点，信息就多一次失真的机会。

美国政府情报体系对信息可信度有一个层级划分：

层级	定义	投资场景对应
Fact（事实）	已验证、确知存在或发生的信息	SEC Filing 中的财务数据（经审计）
Direct Information（直接信息）	因来源性质可被视为事实（影像、拦截、直接观察）	你自己爬取的招聘网站岗位数据、卫星影像中的停车场车辆计数
Indirect Information（间接信息）	来源可靠性存疑、缺乏直接接触或内容复杂	分析师的盈利预测、行业专家的口头判断、地方媒体的二手报道

这个层级对你特别重要，因为你自己爬取的一手数据在可信度层级上天然高于大多数二手来源。你的 World Monitor 抓取的 400+ 新闻源是 Indirect Information，但你的伊朗 Monitor 中波斯湾船只数量、霍尔木兹海峡通行速率——这些是你直接从数据源爬取的 Direct Information。在分析时，后者的权重应该显著高于前者。这就是为什么做爬虫的人天然具有 OSINT 优势：你跳过了传播链条上所有的中间节点。

反思点

基于来源评估的三个维度（Competence / Access / Bias），设计一个简单的评分系统：给你常用的五个信息来源（比如 Twitter 大V、SEC Filing、行业研报、Reddit、你自己的爬虫数据）各打一个 1-5 分的可信度评分。这个评分在你未来的分析流程中应该如何影响你对各来源信息的权重？

收集策略：Target Model 与 Problem Breakdown 的配合

有了清晰的问题定义和来源评估，接下来是制定收集策略。Clark 在这里提出了一个关键原则：target model（目标模型）和 problem breakdown（问题分解）必须并行使用。

什么意思？Target model 是你对调查目标的全景认知——比如你在调查一家公司，target model 包括它的股权结构、管理层背景、财务状况、供应链关系、竞争格局、监管环境等所有已知信息。Problem breakdown 是你的具体调查问题的分解树。Clark 警告说：

"仅用 target model 会让客户被大量细节淹没；仅用 problem breakdown 会导致 tunnel vision（隧道视野）。"

这句话在投资调研中太常见了。纯做 target model 的人——读了公司所有的 10-K、看了所有分析师报告、参加了每一次 earnings call——信息量巨大，但没有焦点，不知道哪些信息和自己的交易论点直接相关。纯做 problem breakdown 的人——只盯着一个假设去找证据——容易陷入确认偏差，只看到支持自己结论的数据。

收集策略的正确做法是两者结合：先用 problem breakdown 确定收集的焦点和优先级，同时用 target model 保持对周边信息的敏感度，防止遗漏意外发现。

Clark 还给出了收集策略设计的几条实操原则：

原则	原文要点	投资实操
从已有经验出发	使用过去成功的收集策略为起点	你的原油看板已经证明有效，下次做地缘政治事件驱动交易时，复用这套架构（新闻聚合 + 另类数据看板 + 地方来源 RSS）
避免可预测性	鼓励创新，减少被否认与欺骗利用的风险	不要只看公司自己披露的数据——他们知道你在看。去看供应商、客户、竞争对手的数据，那些是公司控制不了的
重内容不重数量	以内容质量而非数据量作为收集绩效标准	爬了十万条微博不如找到一条供应商员工在朋友圈发的工厂照片。信噪比比数据量重要。
维护反馈机制	与收集人员保持密切关系和反馈循环	定期检查你的爬虫是否还在正常工作、数据格式是否变了、新的数据源是否出现。收集不是设好就忘的。

Lowenthal 在《Intelligence: From Secrets to Policy》中补充了一个重要观点："Collection derives directly from requirements. Not every issue requires the same types of collection support."（收集直接源自需求。不是每个问题都需要相同类型的收集支持。）这看起来是废话，但在实操中很多人犯的错误就是对所有问题用同一套收集方法。调查一家中概股的财务造假和追踪原油地缘政治风险，需要的数据源、工具链和分析方法完全不同。

OSINT 工具链：把方法论落地的具体手段

Michael Bazzell 在《OSINT Techniques》（第11版）中系统整理了 OSINT 从业者的核心工具链。这里不是全面罗列（那是一本 500 页的书），而是挑出对投资调研最直接有用的几类。

搜索引擎高级操作符。Google 的 site:、filetype:、引号精确匹配、时间范围过滤，这些是最基础但威力巨大的工具。Bazzell 特别强调 site: 操作符："My favorite operator is the 'site:' function... It will only provide results of pages located on a specific domain."（我最喜欢的操作符是 site: 功能...它只返回位于特定域名上的页面结果。）比如 site:sec.gov "10-K" "risk factors" "supply chain" 可以精准定位 SEC 10-K 中讨论供应链风险的段落。

网站历史存档。Wayback Machine 是 OSINT 投资调研的核武器之一。公司改了官网上的产品描述？管理层从"关于我们"页面消失了？招聘岗位突然全部下架？这些变化如果不做历史对比你永远不会注意到。Bazzell 列出了多个归档平台，核心是 Wayback Machine（web.archive.org），还有 TimeTravel（Memento协议）、葡萄牙网络档案馆（arquivo.pt）等备用来源。

公司注册与企业信息库。Open Corporates（opencorporates.com）可以搜索全球公司注册信息；OCCRP Aleph（aleph.occrp.org）是跨国反腐调查联盟的企业关联搜索引擎；AIHIT 可以用邮箱、电话等字段反查关联企业。对于美股，SEC EDGAR 是核心——Bazzell 指出 EDGAR 的全文搜索覆盖了超过二十年的申报文件，可以用关键词精准定位 DEF-14（proxy statement）中的董事高管薪酬、关联交易等信息。

社交媒体搜索与聚合。Social Searcher 可以跨平台搜索社交媒体内容并导出 CSV。更基础的方法是 Google 精确搜索 + site: 限定社交平台。对投资来说，LinkedIn 是最有价值的社交平台——公司关键人物的履历变化、团队扩张/收缩、供应商员工的跳槽方向，这些都是 Direct Information 级别的信号。

robots.txt 与隐藏内容。一个经常被忽略的线索来源：公司网站的 robots.txt 文件。它列出了网站"不希望被搜索引擎索引"的目录。Bazzell 举了 CNN 的例子，robots.txt 中的 Disallow 目录暴露了 /cnnbeta、/development、/partners 等未公开路径。对投资来说，一家公司的 robots.txt 如果突然新增了一个 /new-product 或 /acquisition 目录——即使这个目录还是空的——这本身就是一个信号。

反思点

文中说"不是每个问题都需要相同类型的收集支持"，但反过来想：有没有一种情况下，用同一套收集工具反而是正确的？什么时候标准化的收集流程比定制化更有价值？

目标中心分析法：Clark 对传统情报循环的修正

Clark 在《Intelligence Analysis: A Target-Centric Approach》中对传统情报循环提出了一个重要修正。传统循环是线性的：需求 -> 收集 -> 分析 -> 传播。但 Clark 认为这个模型过于简化，在复杂目标上效果很差。他提出的 target-centric approach 强调三个关键特征：

协作性：让 collectors（收集者）、analysts（分析师）和 consumers（使用者）围绕一个共享的目标模型协同工作，而不是在线性流水线上各干各的。Clark 指出："involving customers increases the likelihood that the resulting intelligence will be used"（让客户参与其中，能提高情报被使用的可能性）。翻译成投资语言：如果你在做调研，你的"客户"就是那个要做交易决策的你自己。让做决策的那个你参与定义调研问题，而不是把调研和决策分成两个独立过程。

非线性：收集和分析不是先后关系，而是持续交替的。你在分析过程中发现新的信息空白，立刻回到收集阶段补充；你在收集过程中发现了意外线索，立刻回到问题定义阶段重新评估。这和你在原油交易中的实际做法一致——你不是先收集完所有信息再分析，而是收集、分析、调整、再收集，持续循环。

参与式：Target-centric approach 能缓解两个传统情报循环中的顽疾——"information glut"（信息过载）和客户对更多细节的无限需求。通过让所有参与者共享目标模型，每个人都能看到全局，知道自己的工作如何嵌入整体，从而避免无效收集。

对你来说，这个方法论最直接的启发是：不要把调研和交易当成两个分离的过程。你的调研框架（看板、爬虫、数据源）和你的交易决策（仓位、止损、目标价）应该共享同一个目标模型。每一次新的数据点不仅更新你的目标模型，也直接影响你的仓位管理。这就是为什么你为原油交易专门搭建看板是对的——看板本身就是一个共享的目标模型。

概念索引

概念	一句话定义
Strategies-to-Task	把高层抽象问题逐层分解为可执行底层任务的方法
Requirements Hierarchy（需求层级）	从决策者视角到收集任务的多层问题分解结构
来源评估三维度	Competence（胜任性）、Access（接触性）、Bias（偏见性）
信息可信度层级	Fact > Direct Information > Indirect Information 的连续谱
Target-Centric Approach	围绕共享目标模型的协作式、非线性情报分析方法
Target Model vs Problem Breakdown	全景认知与焦点分解必须并行，单用任何一个都有致命缺陷

你的反馈

概念辨析

"Target Model"和"Problem Breakdown"的区别是什么？如果只用其中一个会出什么问题？用你自己的话说，不要复述原文。

查看参考思路

Target Model 是你对调查目标的全景认知——把关于这个目标的所有已知信息组织在一起，形成一个完整的图谱。Problem Breakdown 是你针对一个具体问题的分解树——把一个大问题拆成可以去做的小任务。

只用 Target Model 的问题是"什么都知道一点，但不知道哪些信息和你的交易论点直接相关"——你读了公司的所有 Filing，但问你"这家公司下季度营收能不能超预期"你答不上来，因为你没有聚焦。

只用 Problem Breakdown 的问题是"隧道视野"——你只盯着自己假设去找证据，容易忽略那些不在你分解树上但可能彻底推翻你论点的信息。比如你在分析供应链扩产，但完全没注意到公司刚被 SEC 发了一封 comment letter 质疑营收确认政策。

案例重做

回忆你的原油交易。用本篇的框架重新审视：你当时的 target model 包含了哪些维度？你的 problem breakdown 分了几层？有没有哪些维度现在看来应该加入 target model 但当时忽略了？

查看参考思路

根据你的反馈，你当时的 target model 至少包括：伊朗内政（派系动态）、军事/地缘（霍尔木兹海峡、GCC 关系）、能源供应（OPEC+、航运）。Problem breakdown 至少两层：高层（油价是否长期高位）-> 子问题（海峡封锁风险、战争持续时间、供应替代）-> 数据任务（船只数量、通行速率、Telegram RSS）。

可能被忽略的维度：(1) 美国国内政治约束——拜登/总统候选人对油价的政治敏感度，是否会释放 SPR 或施压 OPEC+ 增产 (2) 全球需求端——中国经济恢复程度对原油需求的影响 (3) 衍生品市场结构——期权 put/call 比率、期货曲线结构（contango vs backwardation）本身包含的市场预期信息。

论点反驳

本文认为"一手爬取的数据在可信度层级上天然高于二手来源"。找出这个论点最薄弱的地方并反驳它——在什么情况下，一手爬取的数据反而比专业分析师的二手解读更不可靠？

查看参考思路

至少有三种情况下一手数据不如二手解读：

1. 数据需要专业知识才能正确解读：你爬到了一家生物制药公司的 FDA 临床试验数据，但如果你不懂统计学和药理学，你对 p 值和终点指标的解读可能远不如一个有医学背景的分析师的二手报告。一手数据的可信度高，但你的解读能力可能不匹配。

2. 样本偏差：你爬取的招聘数据可能只覆盖了某个平台（比如 LinkedIn），但该公司大量通过内推和猎头招聘，你的数据只反映了冰山一角。一个有 Access 的行业专家（比如 expert network）可能知道全貌。

3. 数据被污染或操纵：公司知道有人在爬它的招聘页面，可能故意发布虚假岗位来误导竞争对手或做空者。你的"一手数据"看起来是 Direct Information，实际上是被精心设计的 disinformation。

已保存

问题定义与收集计划：情报循环的前两步

回忆热身

为什么问题定义决定一切

来源评估：不是所有信息都值得收集

收集策略：Target Model 与 Problem Breakdown 的配合

OSINT 工具链：把方法论落地的具体手段

目标中心分析法：Clark 对传统情报循环的修正

概念索引

你的反馈

概念辨析

案例重做

论点反驳

添加批注