英语不是一门垃圾语言,而是被塞满了垃圾。
Clear English 项目计划书
版本 0.1 | 2026-02-28
1. 项目概述
1.1 背景
英语经过千年演变,吸纳了大量拉丁语、希腊语、法语等外来词汇,导致词汇体系庞大且缺乏逻辑关联(如“猪”是 pig,“猪肉”却是 pork)。这种“一词一形”的模式给非母语学习者带来巨大负担,也造成了专业领域(医学、法律等)的认知壁垒。反观汉语,用 2500 个常用字即可组合出几乎一切概念,语义透明,易学易用。
1.2 目标
借鉴汉语的构词智慧,对英语词汇进行系统性重构,形成一套语义透明、易于理解的“Clear English”词汇体系,并生成可供第三方应用使用的标准数据文件(Clear English Book)。该体系保留核心高频词与全球通用借词,其余词汇均采用“核心词 + 组合规则”的方式透明化表达。
1.3 核心理念
- 保留骨架:约 5000 个核心词(语法词、高频动词、基础名词等)不重构。
- 全球借词保留:如 coffee, internet, iPhone 等已国际通用的词保留原样。
- 透明化重构:其余 99% 的词汇采用“修饰语 + 中心语”等规则组合生成透明词。
- 动态权重:通过多维度评分模型(透明度、惯性、通用性、简洁性、准确性)和可调场景权重,智能选择最优表达。
- 持续进化:Clear English Book 作为数据产品,可随使用反馈和 AI 分析不断迭代升级。
2. 系统架构
2.1 整体流程
输入单词/短语 → 核心词表判断 → 候选透明词生成 → AI辅助多维度评分 → 决策输出 → 更新Book
系统以离线批处理为主,亦可支持实时 API 调用。
2.2 模块划分
- 数据管理模块:管理核心词表、汉语映射表、构词规则、术语映射表,以及最终的 Clear English Book。
- 候选生成模块:根据输入词,通过词根拆解、汉语映射、预定义术语表等方式生成候选透明词列表。
- 评分模块:调用 AI(如 GPT 或本地语言模型)对原词及各候选词进行多维度评分,并支持场景权重调节。
- 决策与更新模块:比较得分,决定输出原词还是透明词;若透明词得分显著高于原词且稳定,则将其加入核心词表或术语映射表。
- Book 生成与版本管理模块:将最终决策结果按版本固化,生成标准格式的 Clear English Book 文件。
3. 数据模型
3.1 核心词表 T (Core Vocabulary)
| 字段 | 类型 | 说明 |
|---|---|---|
| word_id | INTEGER PRIMARY KEY | 自增ID |
| word | TEXT UNIQUE | 英语单词 |
| pos | TEXT | 词性(可选) |
| freq_rank | INTEGER | 词频排名(来自外部语料) |
| is_retain | BOOLEAN | 强制保留标志(如语法词) |
| added_date | DATETIME | 加入时间 |
3.2 汉语常用字映射表 (Hanzi Mapping)
| 字段 | 类型 | 说明 |
|---|---|---|
| hanzi_id | INTEGER PRIMARY KEY | 自增ID |
| hanzi | TEXT UNIQUE | 汉字 |
| pinyin | TEXT | 拼音 |
| meaning_core | TEXT | 核心义项描述 |
| english_eq | TEXT | 最匹配的英语核心词(多个用逗号分隔) |
| notes | TEXT | 备注 |
3.3 透明词构词规则表 (Composition Rules)
| 字段 | 类型 | 说明 |
|---|---|---|
| rule_id | INTEGER PRIMARY KEY | 规则ID |
| pattern | TEXT | 模式描述(如 “modifier + head”) |
| example_hanzi | TEXT | 对应汉语示例 |
| example_en | TEXT | 生成示例 |
| priority | INTEGER | 优先级(数字越小越优先) |
3.4 术语映射表 (Term Mapping)
| 字段 | 类型 | 说明 |
|---|---|---|
| term_id | INTEGER PRIMARY KEY | 自增ID |
| original_word | TEXT UNIQUE | 原术语 |
| transparent_word | TEXT | 透明词 |
| domain | TEXT | 领域(医学、法律等) |
| confidence | REAL | 置信度(0~1) |
| source | TEXT | 来源(人工/自动/AI) |
3.5 Clear English Book 输出结构
可采用 SQLite 数据库或 JSON 文件格式。推荐 SQLite,便于查询和版本管理。
Book 表结构:
| 字段 | 类型 | 说明 |
|---|---|---|
| entry_id | INTEGER PRIMARY KEY | 自增ID |
| original_word | TEXT | 原词 |
| clear_word | TEXT | 透明词(可能为原词) |
| is_retained | BOOLEAN | 是否直接保留原词 |
| score_original | REAL | 原词综合得分(可选) |
| score_clear | REAL | 透明词综合得分(可选) |
| version | TEXT | Book 版本号 |
| updated_at | DATETIME | 更新时间 |
4. 核心算法
4.1 评分模型设计
评分模型从五个维度评估一个词汇表达的质量,每个维度得分范围 0~10。
| 维度 | 说明 | 计算方式(示例) |
|---|---|---|
| 透明度 | 看词是否能猜出意思 | 在核心词表中得 10;由核心词按规则组合得 8 |
| 历史惯性 | 词汇在真实语料中的使用频率 | 根据词频排名映射得分,如 top1000 得 10,top10000 得 5,低于 50000 得 0。 |
| 全球通用度 | 是否为国际通用词 | 预定义列表(如 internet, coffee),是则 10,否则 0。 |
| 简洁性 | 字符数或音节数 | 字符数越少得分越高,例如 score = 10 * exp(-length/20)。 |
| 准确性 | 有无歧义 | 基于 AI 或人工判断,初始可设为固定值 8,后续通过反馈校准。 |
场景权重:不同应用场景可调节各维度的权重,甚至可以为历史惯性设置负权重(如用户倾向淘汰旧词)。
4.2 AI 辅助评分机制
由于部分维度(透明度、准确性)难以通过简单规则计算,引入 AI(如 GPT-4)进行辅助评分。
调用 AI 时,提供提示词,要求 AI 对给定词按 0~10 打分并给出理由。例如:
“请评估英语单词 ‘beef’ 的语义透明度(能否直接看出与牛和肉的关系),按 0~10 打分,0 表示完全看不出,10 表示一眼就懂。并简要说明理由。”
为确保稳定性,可对同一词汇多次调用 AI 取平均,或使用开源本地模型降低成本。
4.3 候选透明词生成
对于输入词 w,生成候选列表:
- 查术语映射表:若 w 在表中,直接加入透明词。
- 词根拆解:利用词根词典(如
word-roots.json),将 w 拆解为词根序列,将词根映射为核心词,然后按构词规则组合。 - 汉语映射:通过汉英词典(如有道 API)获取 w 的汉语翻译,对汉语短语分词,将每个汉字映射为英语核心词,再组合。
- 语义分解:利用 WordNet 或 AI 提取 w 的定义,从中提取核心词组合。
- 人工预置:对常见专业词汇,预先在术语映射表中定义。
4.4 决策与更新
- 对原词和所有候选透明词,按当前场景权重计算综合得分。
- 若最高得分候选是透明词,且得分超过原词一定阈值(如 2 分),则输出该透明词,并考虑将其加入术语映射表或核心词表。
- 定期运行批处理任务,对大量词汇进行上述流程,生成新版 Clear English Book。
5. 实现计划
5.1 第一阶段:基础框架与核心词表(1个月)
- 搭建 Python + SQLite 环境。
- 收集并清洗核心词表:
- 从 BNC/COCA 获取最常用 5000 词。
- 加入语法功能词(约 300 个)。
- 手动添加全球通用借词(初步列表 200 个)。
- 设计数据库表结构,导入核心词表。
5.2 第二阶段:汉语映射与规则构建(2个月)
- 获取《现代汉语常用字表》(3500 字),为每个汉字分配最匹配的英语核心词(借助汉英词典及人工审核)。
- 定义 10~20 条基本构词规则(如定中、动宾、并列等),并录入规则表。
- 构建术语映射表初版(医学/法律各 500 个常用术语的人工映射)。
5.3 第三阶段:评分模型与 AI 集成(2个月)
- 开发评分模块,实现各维度的基础评分函数(历史惯性、简洁性、全球通用度可通过规则计算)。
- 封装 AI 调用接口(先接入 OpenAI API,后续可替换为本地模型如 LLaMA)。
- 设计提示词模板,测试 AI 评分稳定性。
- 实现场景权重配置,支持用户自定义。
5.4 第四阶段:Book 生成与验证(1个月)
- 集成候选生成、评分、决策模块,形成完整处理管道。
- 对英语中高频的 10 万词汇进行批处理,生成 Clear English Book 初版(V0.1)。
- 抽样验证质量(邀请双语用户对比原词与透明词的可理解性)。
- 根据反馈优化映射表、规则和评分权重。
5.5 第五阶段:应用生态与版本迭代(长期)
- 发布 Clear English Book 文件(SQLite 格式)及使用文档。
- 开发示例应用:浏览器插件(实时替换网页生僻词)、写作助手、语言学习工具。
- 建立反馈渠道,收集用户偏好,定期更新 Book 版本(如 V0.2, V1.0)。
- 考虑开放众包编辑,完善术语映射。
6. 技术选型
- 编程语言:Python 3.10+
- 数据库:SQLite(轻量、单文件,便于分发)
- NLP 工具:
spaCy/nltk:分词、词性标注wordfreq:获取词频数据PyDictionary/WordNet:词汇定义
- AI 接口:OpenAI API(或 Azure OpenAI),备用方案为 HuggingFace 模型(如 GPT-NeoX)。
- Web 框架:FastAPI(用于搭建演示 API)
- 前端:React(可选,用于用户反馈面板)
7. 输出成果
7.1 Clear English Book
- 格式:SQLite 数据库文件(
clear_english_book_v{version}.db) - 内容:包含原词与透明词映射、评分信息、版本号等
- 更新策略:每季度发布新版本,支持增量升级
7.2 使用文档与 API 示例
- 开发者指南:如何在自己的应用中加载并使用 Book 文件
- Python 示例代码:查询某个词的透明版本
- 浏览器插件示例:替换网页文本的脚本
8. 风险与对策
| 风险 | 影响 | 对策 |
|---|---|---|
| AI 评分不稳定 | 导致决策质量波动 | 多次采样取平均;引入人工审核关键词汇;建立评分缓存库 |
| 透明词过长,影响交流 | 用户可能不接受 | 优化简洁性权重;允许保留常用缩写(如 MRI);通过用户测试调整 |
| 汉语映射不准确 | 生成错误透明词 | 构建高质量汉字映射表;人工校对;开放众包修正 |
| 项目范围过大 | 开发周期失控 | 分阶段交付,MVP 只处理前 10 万词;优先聚焦医学/法律领域 |
| 用户接受度低 | 推广困难 | 先从语言学习工具切入,证明透明词的学习效率优势;提供可调权重满足不同偏好 |
9. 未来展望
- 多语言扩展:将透明化思想推广到其他语言(如法语、德语),只需替换汉语映射表为相应语言的“最小语义单位”。
- 实时翻译引擎:基于 Clear English Book,开发可解释性强的翻译工具,让机器翻译结果更易懂。
- 教育产品:出版《Clear English 分级词典》,与在线课程结合,革新英语教学方式。
- 社区共建:建立类似 Wikipedia 的社区,让全球用户共同完善透明词映射,推动英语向更易用的方向演化。
Clear English 不仅是一套词汇表,更是一种语言民主化的尝试——让知识不再被晦涩的术语所垄断。 让我们从这份计划书开始,一步步将它变为现实。
项目发起人:Kicer & DeepSeek
日期:2026-02-28