英语不是一门垃圾语言，而是被塞满了垃圾。

Clear English 项目计划书

版本 0.1 | 2026-02-28

1. 项目概述

1.1 背景

英语经过千年演变，吸纳了大量拉丁语、希腊语、法语等外来词汇，导致词汇体系庞大且缺乏逻辑关联（如“猪”是 pig，“猪肉”却是 pork）。这种“一词一形”的模式给非母语学习者带来巨大负担，也造成了专业领域（医学、法律等）的认知壁垒。反观汉语，用 2500 个常用字即可组合出几乎一切概念，语义透明，易学易用。

1.2 目标

借鉴汉语的构词智慧，对英语词汇进行系统性重构，形成一套语义透明、易于理解的“Clear English”词汇体系，并生成可供第三方应用使用的标准数据文件（Clear English Book）。该体系保留核心高频词与全球通用借词，其余词汇均采用“核心词 + 组合规则”的方式透明化表达。

1.3 核心理念

保留骨架：约 5000 个核心词（语法词、高频动词、基础名词等）不重构。
全球借词保留：如 coffee, internet, iPhone 等已国际通用的词保留原样。
透明化重构：其余 99% 的词汇采用“修饰语 + 中心语”等规则组合生成透明词。
动态权重：通过多维度评分模型（透明度、惯性、通用性、简洁性、准确性）和可调场景权重，智能选择最优表达。
持续进化：Clear English Book 作为数据产品，可随使用反馈和 AI 分析不断迭代升级。

2. 系统架构

2.1 整体流程

输入单词/短语 → 核心词表判断 → 候选透明词生成 → AI辅助多维度评分 → 决策输出 → 更新Book

系统以离线批处理为主，亦可支持实时 API 调用。

2.2 模块划分

数据管理模块：管理核心词表、汉语映射表、构词规则、术语映射表，以及最终的 Clear English Book。
候选生成模块：根据输入词，通过词根拆解、汉语映射、预定义术语表等方式生成候选透明词列表。
评分模块：调用 AI（如 GPT 或本地语言模型）对原词及各候选词进行多维度评分，并支持场景权重调节。
决策与更新模块：比较得分，决定输出原词还是透明词；若透明词得分显著高于原词且稳定，则将其加入核心词表或术语映射表。
Book 生成与版本管理模块：将最终决策结果按版本固化，生成标准格式的 Clear English Book 文件。

3. 数据模型

3.1 核心词表 T (Core Vocabulary)

字段	类型	说明
word_id	INTEGER PRIMARY KEY	自增ID
word	TEXT UNIQUE	英语单词
pos	TEXT	词性（可选）
freq_rank	INTEGER	词频排名（来自外部语料）
is_retain	BOOLEAN	强制保留标志（如语法词）
added_date	DATETIME	加入时间

3.2 汉语常用字映射表 (Hanzi Mapping)

字段	类型	说明
hanzi_id	INTEGER PRIMARY KEY	自增ID
hanzi	TEXT UNIQUE	汉字
pinyin	TEXT	拼音
meaning_core	TEXT	核心义项描述
english_eq	TEXT	最匹配的英语核心词（多个用逗号分隔）
notes	TEXT	备注

3.3 透明词构词规则表 (Composition Rules)

字段	类型	说明
rule_id	INTEGER PRIMARY KEY	规则ID
pattern	TEXT	模式描述（如 “modifier + head”）
example_hanzi	TEXT	对应汉语示例
example_en	TEXT	生成示例
priority	INTEGER	优先级（数字越小越优先）

3.4 术语映射表 (Term Mapping)

字段	类型	说明
term_id	INTEGER PRIMARY KEY	自增ID
original_word	TEXT UNIQUE	原术语
transparent_word	TEXT	透明词
domain	TEXT	领域（医学、法律等）
confidence	REAL	置信度（0~1）
source	TEXT	来源（人工/自动/AI）

3.5 Clear English Book 输出结构

可采用 SQLite 数据库或 JSON 文件格式。推荐 SQLite，便于查询和版本管理。

Book 表结构：

字段	类型	说明
entry_id	INTEGER PRIMARY KEY	自增ID
original_word	TEXT	原词
clear_word	TEXT	透明词（可能为原词）
is_retained	BOOLEAN	是否直接保留原词
score_original	REAL	原词综合得分（可选）
score_clear	REAL	透明词综合得分（可选）
version	TEXT	Book 版本号
updated_at	DATETIME	更新时间

4. 核心算法

4.1 评分模型设计

评分模型从五个维度评估一个词汇表达的质量，每个维度得分范围 0~10。

维度	说明	计算方式（示例）
透明度	看词是否能猜出意思	在核心词表中得 10；由核心词按规则组合得 8~~10；纯拉丁词根得 0~~3。
历史惯性	词汇在真实语料中的使用频率	根据词频排名映射得分，如 top1000 得 10，top10000 得 5，低于 50000 得 0。
全球通用度	是否为国际通用词	预定义列表（如 internet, coffee），是则 10，否则 0。
简洁性	字符数或音节数	字符数越少得分越高，例如 `score = 10 * exp(-length/20)`。
准确性	有无歧义	基于 AI 或人工判断，初始可设为固定值 8，后续通过反馈校准。

场景权重：不同应用场景可调节各维度的权重，甚至可以为历史惯性设置负权重（如用户倾向淘汰旧词）。

4.2 AI 辅助评分机制

由于部分维度（透明度、准确性）难以通过简单规则计算，引入 AI（如 GPT-4）进行辅助评分。

调用 AI 时，提供提示词，要求 AI 对给定词按 0~10 打分并给出理由。例如：
“请评估英语单词 ‘beef’ 的语义透明度（能否直接看出与牛和肉的关系），按 0~10 打分，0 表示完全看不出，10 表示一眼就懂。并简要说明理由。”
为确保稳定性，可对同一词汇多次调用 AI 取平均，或使用开源本地模型降低成本。

4.3 候选透明词生成

对于输入词 w，生成候选列表：

查术语映射表：若 w 在表中，直接加入透明词。
词根拆解：利用词根词典（如 word-roots.json），将 w 拆解为词根序列，将词根映射为核心词，然后按构词规则组合。
汉语映射：通过汉英词典（如有道 API）获取 w 的汉语翻译，对汉语短语分词，将每个汉字映射为英语核心词，再组合。
语义分解：利用 WordNet 或 AI 提取 w 的定义，从中提取核心词组合。
人工预置：对常见专业词汇，预先在术语映射表中定义。

4.4 决策与更新

对原词和所有候选透明词，按当前场景权重计算综合得分。
若最高得分候选是透明词，且得分超过原词一定阈值（如 2 分），则输出该透明词，并考虑将其加入术语映射表或核心词表。
定期运行批处理任务，对大量词汇进行上述流程，生成新版 Clear English Book。

5. 实现计划

5.1 第一阶段：基础框架与核心词表（1个月）

搭建 Python + SQLite 环境。
收集并清洗核心词表：
- 从 BNC/COCA 获取最常用 5000 词。
- 加入语法功能词（约 300 个）。
- 手动添加全球通用借词（初步列表 200 个）。
设计数据库表结构，导入核心词表。

5.2 第二阶段：汉语映射与规则构建（2个月）

获取《现代汉语常用字表》（3500 字），为每个汉字分配最匹配的英语核心词（借助汉英词典及人工审核）。
定义 10~20 条基本构词规则（如定中、动宾、并列等），并录入规则表。
构建术语映射表初版（医学/法律各 500 个常用术语的人工映射）。

5.3 第三阶段：评分模型与 AI 集成（2个月）

开发评分模块，实现各维度的基础评分函数（历史惯性、简洁性、全球通用度可通过规则计算）。
封装 AI 调用接口（先接入 OpenAI API，后续可替换为本地模型如 LLaMA）。
设计提示词模板，测试 AI 评分稳定性。
实现场景权重配置，支持用户自定义。

5.4 第四阶段：Book 生成与验证（1个月）

集成候选生成、评分、决策模块，形成完整处理管道。
对英语中高频的 10 万词汇进行批处理，生成 Clear English Book 初版（V0.1）。
抽样验证质量（邀请双语用户对比原词与透明词的可理解性）。
根据反馈优化映射表、规则和评分权重。

5.5 第五阶段：应用生态与版本迭代（长期）

发布 Clear English Book 文件（SQLite 格式）及使用文档。
开发示例应用：浏览器插件（实时替换网页生僻词）、写作助手、语言学习工具。
建立反馈渠道，收集用户偏好，定期更新 Book 版本（如 V0.2, V1.0）。
考虑开放众包编辑，完善术语映射。

6. 技术选型

编程语言：Python 3.10+
数据库：SQLite（轻量、单文件，便于分发）
NLP 工具：
- spaCy / nltk：分词、词性标注
- wordfreq：获取词频数据
- PyDictionary / WordNet：词汇定义
AI 接口：OpenAI API（或 Azure OpenAI），备用方案为 HuggingFace 模型（如 GPT-NeoX）。
Web 框架：FastAPI（用于搭建演示 API）
前端：React（可选，用于用户反馈面板）

7. 输出成果

7.1 Clear English Book

格式：SQLite 数据库文件（clear_english_book_v{version}.db）
内容：包含原词与透明词映射、评分信息、版本号等
更新策略：每季度发布新版本，支持增量升级

7.2 使用文档与 API 示例

开发者指南：如何在自己的应用中加载并使用 Book 文件
Python 示例代码：查询某个词的透明版本
浏览器插件示例：替换网页文本的脚本

8. 风险与对策

风险	影响	对策
AI 评分不稳定	导致决策质量波动	多次采样取平均；引入人工审核关键词汇；建立评分缓存库
透明词过长，影响交流	用户可能不接受	优化简洁性权重；允许保留常用缩写（如 MRI）；通过用户测试调整
汉语映射不准确	生成错误透明词	构建高质量汉字映射表；人工校对；开放众包修正
项目范围过大	开发周期失控	分阶段交付，MVP 只处理前 10 万词；优先聚焦医学/法律领域
用户接受度低	推广困难	先从语言学习工具切入，证明透明词的学习效率优势；提供可调权重满足不同偏好

9. 未来展望

多语言扩展：将透明化思想推广到其他语言（如法语、德语），只需替换汉语映射表为相应语言的“最小语义单位”。
实时翻译引擎：基于 Clear English Book，开发可解释性强的翻译工具，让机器翻译结果更易懂。
教育产品：出版《Clear English 分级词典》，与在线课程结合，革新英语教学方式。
社区共建：建立类似 Wikipedia 的社区，让全球用户共同完善透明词映射，推动英语向更易用的方向演化。

Clear English 不仅是一套词汇表，更是一种语言民主化的尝试——让知识不再被晦涩的术语所垄断。 让我们从这份计划书开始，一步步将它变为现实。

项目发起人：Kicer & DeepSeek

日期：2026-02-28

对话: https://chat.deepseek.com/share/vyuqvn1jxonscbmlre

AI畅谈——Clear English项目计划书

2026/02/28