AI畅谈——Clear English项目计划书

2026/02/28

英语不是一门垃圾语言,而是被塞满了垃圾。

Clear English 项目计划书

版本 0.1 | 2026-02-28


1. 项目概述

1.1 背景

英语经过千年演变,吸纳了大量拉丁语、希腊语、法语等外来词汇,导致词汇体系庞大且缺乏逻辑关联(如“猪”是 pig,“猪肉”却是 pork)。这种“一词一形”的模式给非母语学习者带来巨大负担,也造成了专业领域(医学、法律等)的认知壁垒。反观汉语,用 2500 个常用字即可组合出几乎一切概念,语义透明,易学易用。

1.2 目标

借鉴汉语的构词智慧,对英语词汇进行系统性重构,形成一套语义透明、易于理解的“Clear English”词汇体系,并生成可供第三方应用使用的标准数据文件(Clear English Book)。该体系保留核心高频词与全球通用借词,其余词汇均采用“核心词 + 组合规则”的方式透明化表达。

1.3 核心理念


2. 系统架构

2.1 整体流程

输入单词/短语 → 核心词表判断 → 候选透明词生成 → AI辅助多维度评分 → 决策输出 → 更新Book

系统以离线批处理为主,亦可支持实时 API 调用。

2.2 模块划分

  1. 数据管理模块:管理核心词表、汉语映射表、构词规则、术语映射表,以及最终的 Clear English Book。
  2. 候选生成模块:根据输入词,通过词根拆解、汉语映射、预定义术语表等方式生成候选透明词列表。
  3. 评分模块:调用 AI(如 GPT 或本地语言模型)对原词及各候选词进行多维度评分,并支持场景权重调节。
  4. 决策与更新模块:比较得分,决定输出原词还是透明词;若透明词得分显著高于原词且稳定,则将其加入核心词表或术语映射表。
  5. Book 生成与版本管理模块:将最终决策结果按版本固化,生成标准格式的 Clear English Book 文件。

3. 数据模型

3.1 核心词表 T (Core Vocabulary)

字段类型说明
word_idINTEGER PRIMARY KEY自增ID
wordTEXT UNIQUE英语单词
posTEXT词性(可选)
freq_rankINTEGER词频排名(来自外部语料)
is_retainBOOLEAN强制保留标志(如语法词)
added_dateDATETIME加入时间

3.2 汉语常用字映射表 (Hanzi Mapping)

字段类型说明
hanzi_idINTEGER PRIMARY KEY自增ID
hanziTEXT UNIQUE汉字
pinyinTEXT拼音
meaning_coreTEXT核心义项描述
english_eqTEXT最匹配的英语核心词(多个用逗号分隔)
notesTEXT备注

3.3 透明词构词规则表 (Composition Rules)

字段类型说明
rule_idINTEGER PRIMARY KEY规则ID
patternTEXT模式描述(如 “modifier + head”)
example_hanziTEXT对应汉语示例
example_enTEXT生成示例
priorityINTEGER优先级(数字越小越优先)

3.4 术语映射表 (Term Mapping)

字段类型说明
term_idINTEGER PRIMARY KEY自增ID
original_wordTEXT UNIQUE原术语
transparent_wordTEXT透明词
domainTEXT领域(医学、法律等)
confidenceREAL置信度(0~1)
sourceTEXT来源(人工/自动/AI)

3.5 Clear English Book 输出结构

可采用 SQLite 数据库或 JSON 文件格式。推荐 SQLite,便于查询和版本管理。

Book 表结构

字段类型说明
entry_idINTEGER PRIMARY KEY自增ID
original_wordTEXT原词
clear_wordTEXT透明词(可能为原词)
is_retainedBOOLEAN是否直接保留原词
score_originalREAL原词综合得分(可选)
score_clearREAL透明词综合得分(可选)
versionTEXTBook 版本号
updated_atDATETIME更新时间

4. 核心算法

4.1 评分模型设计

评分模型从五个维度评估一个词汇表达的质量,每个维度得分范围 0~10。

维度说明计算方式(示例)
透明度看词是否能猜出意思在核心词表中得 10;由核心词按规则组合得 810;纯拉丁词根得 03。
历史惯性词汇在真实语料中的使用频率根据词频排名映射得分,如 top1000 得 10,top10000 得 5,低于 50000 得 0。
全球通用度是否为国际通用词预定义列表(如 internet, coffee),是则 10,否则 0。
简洁性字符数或音节数字符数越少得分越高,例如 score = 10 * exp(-length/20)
准确性有无歧义基于 AI 或人工判断,初始可设为固定值 8,后续通过反馈校准。

场景权重:不同应用场景可调节各维度的权重,甚至可以为历史惯性设置负权重(如用户倾向淘汰旧词)。

4.2 AI 辅助评分机制

由于部分维度(透明度、准确性)难以通过简单规则计算,引入 AI(如 GPT-4)进行辅助评分。

4.3 候选透明词生成

对于输入词 w,生成候选列表:

  1. 查术语映射表:若 w 在表中,直接加入透明词。
  2. 词根拆解:利用词根词典(如 word-roots.json),将 w 拆解为词根序列,将词根映射为核心词,然后按构词规则组合。
  3. 汉语映射:通过汉英词典(如有道 API)获取 w 的汉语翻译,对汉语短语分词,将每个汉字映射为英语核心词,再组合。
  4. 语义分解:利用 WordNet 或 AI 提取 w 的定义,从中提取核心词组合。
  5. 人工预置:对常见专业词汇,预先在术语映射表中定义。

4.4 决策与更新


5. 实现计划

5.1 第一阶段:基础框架与核心词表(1个月)

5.2 第二阶段:汉语映射与规则构建(2个月)

5.3 第三阶段:评分模型与 AI 集成(2个月)

5.4 第四阶段:Book 生成与验证(1个月)

5.5 第五阶段:应用生态与版本迭代(长期)


6. 技术选型


7. 输出成果

7.1 Clear English Book

7.2 使用文档与 API 示例


8. 风险与对策

风险影响对策
AI 评分不稳定导致决策质量波动多次采样取平均;引入人工审核关键词汇;建立评分缓存库
透明词过长,影响交流用户可能不接受优化简洁性权重;允许保留常用缩写(如 MRI);通过用户测试调整
汉语映射不准确生成错误透明词构建高质量汉字映射表;人工校对;开放众包修正
项目范围过大开发周期失控分阶段交付,MVP 只处理前 10 万词;优先聚焦医学/法律领域
用户接受度低推广困难先从语言学习工具切入,证明透明词的学习效率优势;提供可调权重满足不同偏好

9. 未来展望


Clear English 不仅是一套词汇表,更是一种语言民主化的尝试——让知识不再被晦涩的术语所垄断。 让我们从这份计划书开始,一步步将它变为现实。


项目发起人:Kicer & DeepSeek

日期:2026-02-28

对话: https://chat.deepseek.com/share/vyuqvn1jxonscbmlre

← Prev AI畅谈——《人生海海》一个垃圾佬的虚伪自白