Jeremy的博客

二、背景知识与关键技术

Simulating Opinion Dynamics 中的关键技术和知识背景

背景知识（Existing Technologies and Knowledge）

>基于代理的模型（Agent-Based Models, ABMs）
- 传统观点动力学研究的基础方法，通过数学方程模拟代理的数值化观点更新（如标量观点值 ( o \in \mathbb{R} ) 和信号 ( x \in \mathbb{R} )）。
- 已有研究显示，在ABMs中引入确认偏误（confirmation bias）会导致观点碎片化（Lorenz et al., 2021; Flache et al., 2017）。
>观点动力学的评估指标
- 偏差（Bias, B）：群体最终观点的平均值（( B = \text{mean}(F_o^T) )）。
- 多样性（Diversity, D）：群体最终观点的标准差（( D = \text{std}(F_o^T) )）。
初始观点分布控制
- 通过均匀分布或特定分布（如极端极化分布）初始化代理的初始观点（§3.4）。
认知偏误的数学建模
- 确认偏误的弱/强分级（弱：“更可能相信支持自身观点的信息”；强：“完全忽略反对信息”），已在ABMs中验证其对观点碎片化的影响（Lorenz et al., 2021）。

关键技术（Innovative Contributions）

基于LLM的代理框架
- 用自然语言交互的LLM代理替代传统ABMs的数值化代理，支持复杂语言交互和个性化人物设定（如政治倾向、教育背景等）。
- 创新点：首次将LLM的生成能力与ABMs结合，模拟真实人类对话的动态（§2.1, §5）。
×动态记忆模块
- 累积记忆（Cumulative Memory）：直接追加新经验到记忆文本中。
- 反思记忆（Reflective Memory）：通过持续总结更新记忆状态（受Park et al., 2023启发，但用于观点动力学场景）。
- 创新点：通过自然语言管理记忆，影响代理生成消息和评估他人观点的过程（§2.2, §E）。
封闭世界与开放世界设置
- 封闭世界：限制代理仅依赖系统内交互（通过提示工程禁止“幻觉”外部信息）。
- 开放世界：允许代理自由生成外部信息（如虚构事实）。
- 创新点：首次在观点动力学中区分两种环境，并量化幻觉率（15%）对结果的影响（§2.4, §G）。
确认偏误的提示工程诱导
- 通过自然语言指令（如“仅相信支持自身观点的信息”）在LLM代理中模拟人类认知偏误。
- 创新点：验证LLM代理在确认偏误下的观点碎片化现象，与传统ABMs结果一致（§2.3, §F）。
观点分类器（FLAN-T5-XXL）
- 将代理的文本回复分类为数值观点（( o \in {-2, -1, 0, 1, 2} )），验证其与人类评分的一致性（Cohen’s ( \kappa = 0.81 )）。
- 创新点：解决自然语言到数值观点的映射问题（§3.1, §N）。
多模型与网络规模敏感性分析
- 测试不同LLM（GPT-4、Vicuna-33B）和代理数量（( N=20 )）对结果的影响，验证方法的鲁棒性（§J, §K）。

AgentSociaty 的关键技术和知识背景

背景知识（Existing Technologies and Theories）

大型语言模型（LLMs）驱动代理
- 论文基于已有的LLM技术（如GPT系列）构建代理的认知和行为生成能力，利用LLM的对话、推理和角色扮演能力模拟人类行为。
- 引用：LLM驱动的代理在行为生成（如移动、社交、经济决策）中的应用（如Park et al., 2023；Shvo et al., 2023）。
√基于代理的建模（Agent-Based Modeling, ABM）
- 传统ABM方法用于模拟复杂社会系统，通过个体交互研究集体现象（如极化、经济波动）。
- 引用：ABM在社会科学、经济学等领域的应用（如Epstein & Axtell, 1996；Gilbert, 2008）。
√心理学与社会学理论
- 马斯洛需求层次理论（Maslow’s Hierarchy of Needs）：用于设计代理的需求驱动行为（如生存需求→移动至餐厅）。
- 计划行为理论（Theory of Planned Behavior）：解释代理如何将需求转化为具体行动计划。
- 认知评价理论（Cognitive Appraisal Theory）：建模代理对事件的认知和情绪反应。
- 引用：心理学理论在代理设计中的应用（如Shvo et al., 2023；Ajzen, 1991）。
×经济模型与仿真工具
- 动态随机一般均衡模型（DSGE）：用于宏观经济环境建模（如企业生产、工资分配）。
- 重力模型（Gravity Model）：优化代理的移动位置选择（如公式 (P_{ij} = \frac{S_j / D_{ij}^\beta}{\sum S_k / D_{ik}^\beta})）。
- 交通仿真工具（如SUMO、CityFlow）：模拟城市交通动态。
- 引用：经济模型（如Woodford, 2003）、交通仿真工具（如Lopez et al., 2018）。
社交网络分析
- 通过预定义的社交关系（家庭、朋友、同事）和动态关系强度模拟信息传播。
- 引用：社交网络在传播动力学中的应用（如Granovetter, 1973）。

关键技术（Innovative Contributions）

AgentSociety框架
- 整合LLM代理、现实环境与仿真引擎：提出首个支持10k级代理的大规模社会模拟器，支持代理间及代理与环境的500万次交互/天。
- 多空间环境建模：
  - 城市空间：融合OpenStreetMap路网、POI数据，支持多模态交通（驾驶、步行、公交）。
  - 社会空间：引入“监督者”角色过滤社交内容，模拟平台干预（如封禁用户）。
  - 经济空间：构建企业-政府-银行账户体系，支持就业、消费、税收等宏观经济行为。
√心理状态与行为的显式耦合（Mind-Behavior Coupling）
- 分层心理模型：
  - 情绪：基于六维情绪（悲伤、喜悦等）实时更新，影响行为风格（如对话语气）。
  - 需求：按马斯洛层次动态调整优先级，驱动行为序列（如“需求→计划→移动”）。
  - 认知：通过事件记忆（Event Flow）和感知流（Perception Flow）更新态度（如对政策的支持度）。
- 行为生成机制：将需求转化为具体行为（如社交需求→选择咖啡馆→重力模型计算最优路径）。
√大规模仿真引擎
- 分布式计算与MQTT消息系统：通过分布式架构和轻量级通信协议（MQTT）支持10k代理的高并发交互。
- 实时环境反馈：动态调整代理行为（如天气影响移动半径，经济波动改变消费预算）。
√社会实验方法论
- 四类社会问题仿真：
  - 极化（Polarization）、煽动性信息传播、全民基本收入（UBI）政策、飓风外部冲击。
- 支持传统社会科学方法：在仿真中嵌入调查、访谈、干预实验，验证结果与真实实验的一致性。

Oasis的关键技术和知识背景

背景知识（已有技术）

基于规则的ABM（Agent-Based Models）
- 传统基于代理的模型（ABMs）使用预定义规则模拟代理行为（如阈值决策），用于研究复杂系统（如信息传播、群体极化）。
- 示例：Schelling的隔离模型、金融市场的群体行为模拟。
LLM驱动的代理行为
- 利用大语言模型（LLM）模拟人类行为，如角色扮演和复杂决策（如OpenAI API支持的Smallville、Sotopia等研究）。
- 工具：LLM的推理能力（CoT）、工具调用（如GPT-4的API）。
社交媒体推荐系统
- Twitter（X）的推荐算法：基于用户兴趣（TwHIN-BERT向量匹配）、热度（点赞数）和网络关系（关注列表）。
- Reddit的热门评分算法：结合点赞、点踩和时间衰减的公式（$$h=\log_{10}(\max(|u-d|, 1))+\operatorname{sign}(u-d)\cdot\frac{t-t_{0}}{45000}$$）。
时间步管理与分布式推理
- 时间步映射（如3分钟/步）参考Park等人（2023）的设计。
- 分布式GPU推理优化（如vLLM框架的并行处理）。
社交网络生成
- 无标度网络生成（Barabási-Albert模型），结合核心用户与普通用户的连接策略。

关键技术（创新点）

模块化通用架构（OASIS）
- 五大核心组件：环境服务器、推荐系统（RecSys）、代理模块、时间引擎、可扩展推理器，支持多平台（X/Reddit）适配。
- 动态环境更新：实时更新社交网络、帖子信息与用户关系。
百万级代理可扩展性
- 分布式异步系统：代理、环境服务器、推理服务独立运行，通过信息通道通信。
- 大规模用户生成：结合真实数据与生成模型，生成百万级用户画像并保持无标度网络特性。
混合推荐系统设计 -> 平台调研
- X平台：融合兴趣匹配（TwHIN-BERT）、热度排序和超级用户广播机制。
- Reddit平台：动态热门评分算法，支持反事实内容实验（如初始点赞/点踩控制）。
时间引擎优化
- 概率化激活：基于用户历史行为的24小时活动概率向量，替代全局同步激活。
- 线性时间映射：支持真实时间与模拟时间的灵活缩放。
多样化动作空间与CoT增强
- 21种交互动作（发帖、评论、关注等），覆盖真实社交媒体行为。
- 链式推理（CoT）：通过prompt设计提升代理行为的可解释性。
实验验证与现象发现
- 跨平台现象复现：信息传播、群体极化、从众效应。
- 规模效应分析：代理数量增加导致观点多样性提升（如10万代理比196代理的响应更有帮助性）。

可用于SPSL的关键技术和背景知识

1、基于多智能体的模型 ABMs（Agent-Based Models）

基于多智能体的建模（Agent-Based Models, ABMs）是一种通过模拟自主智能体（Agent）的微观行为及其相互作用来研究复杂系统宏观现象的计算方法。其核心由四个要素构成：智能体（具有属性和行为规则的独立个体）、环境（智能体活动的空间或网络）、交互规则（描述智能体之间及与环境动态关系的函数）以及时间步（离散化推进模拟进程）。数学上可形式化为：

智能体状态更新：$s_i(t+1) = f(s_i(t), E(t), {s_j(t)})$，其中$f$为行为规则函数，$E(t)$为环境状态，${s_j(t)}$为其他智能体状态集合
环境动态：$E(t+1) = g(E(t), {s_i(t)})$，体现系统反馈机制

ABMs遵循KISS原则（Keep It Simple, Stupid），通过简单规则涌现复杂行为，广泛应用于传染病传播、社会隔离、群体合作等领域。传统模型（如DeGroot意见动力学$o_i(t+1)=\sum w_{ij}o_j(t)$）虽能揭示群体趋势，但难以处理语言交互等非线性过程。

2、基于LLM代理的建模

基于LLM的智能体模型（LLM-Based Agent-Based Models）通过将大语言模型与传统多智能体系统（ABMs）结合，实现了对复杂交互场景的动态建模能力提升。其核心范式可概括为：以LLM为认知引擎驱动智能体决策，赋予ABMs类人的语言理解、推理能力。
alt text
LLM 生成型代理与经典基于代理的模型（ABM）的对比。虽然两者都可以模拟意见动态，但LLM 生成型代理使用自然语言作为输入（$x_{input}$）和输出（$x_{output}$），维持信念（$m_t$），并采用基于 transformer 的LLM 进行信念更新。相比之下，经典 ABM 使用数值作为输入和输出，维持信念（$o_t$），并使用手工编写的方程进行信念更新。

3、大模型调用

框架
大模型开发框架（如LangChain、LlamaIndex、camel等）通过模块化设计封装模型调用、数据检索、流程编排等功能，帮助开发者快速构建复杂应用（如多轮对话、检索增强问答）。这些框架提供链式调用、上下文管理、工具集成等接口，简化多模型协同和外部系统对接的复杂性。

提示词工程与思维链
提示词工程通过设计精准的指令（如角色设定、任务描述）引导模型生成符合预期的输出，而思维链（Chain of Thought, CoT）通过分步推理的提示模板（如“先分析原因，再提出建议”）提升模型逻辑推理能力。两者结合可优化模型对复杂任务的解析和生成质量。

自定义工具调用
语言模型通过API接口调用开发者设计的自定义工具tools（如函数、外部服务），在进行理解用户指令时，模型会根据需要调用将自然语言请求转化为结构化参数返回，工具对参数进行处理后以tools的身份回复模型，模型最终整合结果生成用户可理解的响应。

4、信息传播动力学意见动力学

信息传播动力学与意见动力学是研究社交网络中信息扩散与观点演化的交叉领域，两者均以复杂网络理论与数学建模为核心工具。信息传播动力学关注信息（如新闻、谣言）在网络中的扩散机制，常借鉴流行病学模型（如SIR模型）描述传播过程，其核心方程为：

[
\frac{dS}{dt} = -\beta S I, \quad \frac{dI}{dt} = \beta S I - \gamma I, \quad \frac{dR}{dt} = \gamma I
]

其中(S, I, R)分别代表未知者、传播者与免疫者，(\beta)为传播率，(\gamma)为恢复率。例如，在谣言传播中，研究者通过引入媒体介入的ISMR模型（包含未知者、传播者、沉默者、免疫者）发现，高公信力媒体早期介入能抑制传播规模。意见动力学则聚焦个体观点的交互与极化现象，经典模型如Deffuant连续意见模型，其更新规则为：

[
x_i(t+1) = x_i(t) + \mu [x_j(t) - x_i(t)] \quad (\text{当} |x_i - x_j| < \varepsilon)
]

其中(\varepsilon)为意见包容阈值，(\mu)为收敛系数，该模型揭示当(\varepsilon)较小时，网络易出现极化而非共识。近年来，研究进一步发现推荐算法（如基于结构相似性或意见相似性的关联推荐）通过强化同质连接加剧回音室效应，例如Santos等人的研究表明，结构相似性推荐可显著提升网络极化指数。这两个领域的结合为理解社交媒体的信息生态提供了框架，例如通过蒙特卡洛模拟分析推荐系统对极化的动态影响。

5、 √心理学与社会学理论

马斯洛需求层次理论（Maslow’s Hierarchy of Needs）：
马斯洛需求层次理论（Maslow’s Hierarchy of Needs）是由美国心理学家亚伯拉罕·马斯洛于1943年提出的心理学理论，将人类需求从低到高分为五个层级：生理需求（如食物、水、睡眠等生存基础）、安全需求（寻求稳定、免受威胁的环境）、归属与爱的需求（渴望社交关系、情感联结）、尊重需求（包括自尊与他人的认可）、自我实现需求（发挥潜能、追求理想）。该理论强调需求满足的递进性，即低层次需求相对满足后，更高层次需求才会成为主要动机，其关系可简化为公式化的层级模型：
生理 → 安全 → 归属与爱 → 尊重 → 自我实现
这一理论广泛应用于管理学、教育学等领域，用于解释人类行为背后的驱动机制。
用于设计代理的需求驱动行为（如生存需求→移动至餐厅）。
计划行为理论（Theory of Planned Behavior）：解释代理如何将需求转化为具体行动计划。
计划行为理论（Theory of Planned Behavior, TPB）由社会心理学家Icek Ajzen于1985年提出，是理性行为理论（TRA）的扩展，旨在解释和预测个体如何将需求转化为具体行动。该理论认为，行为意图（Behavioral Intention）是驱动实际行为的直接因素，而行为意图由三个核心要素共同决定：
1. 态度（Attitude）：个体对执行某行为的积极或消极评价，基于其对行为结果的预期评估（如“该行为能带来多大好处”）；
2. 主观规范（Subjective Norm）：感知到的社会压力（如亲友、群体的期望）对行为选择的影响；
3. 知觉行为控制（Perceived Behavioral Control）：个体对自身执行行为的能力、资源和障碍的感知，反映为对行为难易程度的判断。
当代理（如个人或智能体）需将需求转化为行动计划时，首先会综合评估上述三要素：若态度积极、社会支持充足且自认有足够控制力，则行为意图增强，进而促使实际行为发生。例如，若某代理需制定健康饮食计划，其态度（认为健康饮食有益）、社会规范（亲友鼓励）和控制感知（相信自己能坚持）共同决定其行动决策。TPB的公式化表达为：
行为意图 = 态度 + 主观规范 + 知觉行为控制 → 实际行为
该理论通过量化行为驱动因素，为理解需求到行动的转化机制提供了结构化框架，广泛应用于管理、健康、环境等领域的行为预测与干预设计。
认知评价理论（Cognitive Appraisal Theory）：建模代理对事件的认知和情绪反应。
认知评价理论（Cognitive Appraisal Theory, CAT）由美国心理学家理查德·拉扎勒斯（Richard Lazarus）于20世纪60年代提出，旨在解释个体如何通过认知评估过程对事件产生情绪反应。该理论的核心观点是：情绪并非由事件本身直接触发，而是取决于个体对事件的主观解释与评估。这一机制可分解为三个阶段：
1. 初评价（Primary Appraisal）：个体首先判断事件与自身目标、需求的关联性，即事件是否具有威胁性、挑战性或无关紧要。例如，若代理将某事件评估为“威胁生存”，则会触发负面情绪。
2. 次评价（Secondary Appraisal）：若事件被初评价为重要，个体会进一步评估自身应对该事件的资源与能力，例如“能否有效处理威胁”或“是否有足够支持系统”。若代理自认能力不足，可能产生焦虑或无助感。
3. 再评价（Reappraisal）：随着情境变化或新信息输入，个体会动态调整前两阶段的评估结果，形成情绪反应的动态适应。
该理论可用公式简化为：
情绪反应 = 初评价（事件相关性） × 次评价（应对能力）
例如，当代理认为事件高度相关（如生存威胁）且自认无法应对时，情绪强度最大（如恐惧）；若评估为可应对，则可能转化为积极情绪（如信心）。

在大模型代理建模中，认知评价理论被用于模拟智能体如何基于环境输入进行多维度评估，并生成适应性情绪与行为。

6、异步

Python的异步技术基于asyncio库，通过async/await语法实现协程（Coroutine）编程模型，利用**事件循环（Event Loop）**调度任务，以非阻塞I/O机制提升程序性能。其核心在于：

协程：通过async def定义异步函数，使用await挂起耗时操作（如网络请求、文件读写），允许单线程内多任务交替执行，避免阻塞。
事件循环：作为调度中枢，通过epoll或kqueue等系统级I/O多路复用技术监听任务状态，动态切换协程执行，实现高并发处理。

在大模型代理模拟中，实现多进程并行，同时运行社交平台和数量巨大的智能体进行异步交互。

三、平台调研

推荐系统：
Twitter的推荐系统机制基于其官方开源框架，核心流程分为候选集筛选-排序-过滤-混合推送四个阶段。在候选源选择环节，系统区分了网络内（In-Network）和网络外（Out-of-Network）内容。网络内的内容优先展示用户关注对象的推文，通过Real Graph模型预测用户与作者的互动概率（如点赞、转发等），根据作者粉丝数（影响力）和新近性权重（发布时间）和点赞数排序，而网络外的帖子采用嵌入空间方法匹配用户兴趣，使用TwHIN-BERT模型进行兴趣匹配，同时考虑新近性和发布者的粉丝数。按多目标加权得分排序。最终通过过滤规则（如屏蔽内容、作者多样性控制）和混合策略（平衡广告、关注推荐等内容类型）生成时间线。

用户行为空间：

对于其他用户的操作:
following 关注其他用户

对于推送信息的操作：
refresh 刷新以获得最新内容
scroll 滚动获取推荐系统时间线上之前的内容
search user 查看某个用户的资料以及作品
search post 查看某个帖子信息以及该帖子的评论

帖子操作：
post 编写帖子并发表
repost 转发帖子
reply 回复评论帖子
quote 引用帖子
like 点赞帖子

四、模拟系统设计

Simulating Opinion Dynamics 中的设计图片

alt text

AgentSociety 的设计图片

alt text

Oasis的设计图片

alt text

总体设计
alt text
用户代理设计

根据心理学与社会学理论，通过心智、记忆、用户空间的设置来模拟twitter用户

记忆模块：
由静态存档和经验记忆组成，静态存档用于记录用户的静态属性，包括用户姓名、年龄、职业、人格等，经验记忆用于按照时间记录历史事件以及心智或者自身的反思和看法。

心智模块：
由情感和认知组成，认知由模型对记忆进行提炼总结得到，情感受到人格和事件影响实时更新。

提示词处理器根据心智模块和记忆模块合成大语言模型更容易理解和接受的提示词

用户行为空间，整合封装了twitter用户所有的行为，异步向信息通道发送行为对应的消息五元组(action, user_id,target_user_id, post_id, content)，并等待消息通道的回应。每个行为封装成大语言模型可以理解的函数，并通过tools接口输入模型，这样模型就会根据提示词提供的心智记忆等信息，从tools中选择合适的函数进行调用，从而实现了模型的决策。

消息队列传输通道

由两个单项的通道组成，其中异步队列用于用户代理向社交平台发送消息，不同代理的消息都会添加到异步队列中，并返回一个消息id，社交平台对消息的响应会根据id添加到异步字典中，用户行动函数就可以根据发送消息的id取出对应的响应

其中运用了异步锁，通过互斥机制确保共享资源的一致性，防止队列和字典的数据丢失和错误。

平台设计

平台持续监听异步队列来获取用户指令，并对指令进行解析，运行对应的数据库操作，并返回数据库响应结果。

数据库，设计了四个数据库表 user post follow like 库表结构：来对用户数据帖子数据等其他信息进行存储
alt text