实现了DOM树转换系统,用于提取和翻译文本内容。添加了将文本分组为语义块的逻辑,以在翻译时保留上下文。
新增内容
- HTML文档解析 — 从页面中提取所有文本内容
- 将相关文本分组为语义块,以实现更准确的翻译
- 静态内容的基本翻译 — 文本和元标签的自动翻译
- 保留上下文 — 算法在分组时考虑元素的关联性
技术细节
转换器分析页面的DOM树,提取文本节点并根据语义相似性进行分组。这使得可以发送整个短语和段落进行翻译,而不是单个单词,从而显著提高了翻译质量。
有关实施的更多信息: 自动AI翻译和网站多语言化
结果
该系统能够翻译Tilda网站的静态内容,同时保留结构和上下文。
