TamonRadar 怎麼運作?

TamonRadar 是一個「網頁化的爬蟲」:前端(Next.js)負責畫面與互動,後端(Python FastAPI) 負責真正用瀏覽器去 Google 搜尋、進入網頁抓資料,再把整理好的結果即時回傳給你看。

使用流程

在首頁一行一個輸入想查的關鍵字(例如「多聞公仔」),設定要抓幾頁、要不要進詳細頁,按「開始搜尋」。

後端開始爬之後,進度會透過 SSE(伺服器即時推播) 一條一條傳回來,你會看到「正在搜尋 X、找到 N 筆、抓第幾頁」這種即時訊息與進度條。

爬完後會自動產生:統計卡片、分類/來源長條圖、商品候選卡(含圖片價格)、以及可篩選排序搜尋的完整表格。

可一鍵匯出 CSV / Excel / Markdown 報告;按「AI 分析」用 Claude 幫你判斷哪些是真商品、哪些重複; 每次搜尋也會存進「歷史紀錄」供回看比較。

這是整個系統的核心。後端用 Selenium 開一個真的 Chrome 瀏覽器(無頭模式,看不到視窗), 模擬人去搜尋,流程分成五步:

1. Google 搜尋 — 對每個關鍵字開google.com/search, 用多組 CSS selector 抓標題、網址、摘要(Google 的 HTML 結構常變,所以多重兼容)。
2. 還原真實網址 — Google 的連結常包一層/url?q=…,程式會把真正網址解出來。
3. 去重複 + 過濾 — 相同網址只留一筆,並濾掉圖片/壓縮檔等不該爬的連結。
4. 進入詳細頁 — 逐一打開結果頁,用 BeautifulSoup解析 title、meta、og:image、結構化價格(JSON-LD)等。
5. 分類與抓價 — 用關鍵字計分判斷分類,並用多種規則抓出最可能的售價。

⚠️ 每個動作之間會隨機等 2–5 秒,降低被判定成機器人的機率。即使如此,Google 仍可能跳驗證頁; 遇到時系統會標記並跳過該關鍵字,不會卡住。請務必控制頻率、勿繞過網站限制。

早期版本有幾個讓資料不可信的問題,這版都處理了:

前端 · Next.js + Tailwind

畫面、互動、SSE 進度、圖表、表格、匯出按鈕。

後端 · FastAPI + Selenium

背景執行緒跑爬蟲、SSE 推進度、產生報告、Claude AI 摘要。