テキストコンテンツを抽出・翻訳するためのDOMツリー変換システムを実装しました。翻訳時のコンテキストを維持するため、テキストを意味のあるブロックにグループ化するロジックを追加しました。
追加されたもの
- HTMLドキュメントの解析 — ページからすべてのテキストコンテンツを抽出
- 関連するテキストを意味のあるブロックにグループ化し、より正確な翻訳を実現
- 静的コンテンツの基本翻訳 — テキストとメタタグの自動翻訳
- コンテキストの保持 — アルゴリズムはグループ化時に要素の関連性を考慮します
技術的な詳細
トランスフォーマーはページのDOMツリーを分析し、テキストノードを抽出し、意味的な近接性に基づいてグループ化します。これにより、個々の単語ではなく、フレーズ全体や段落全体を翻訳に送信できるため、翻訳の品質が大幅に向上します。
実装の詳細: 自動AI翻訳とサイトの多言語化
結果
このシステムは、Tildaサイトの静的コンテンツを構造とコンテキストを維持したまま翻訳できます。
