📡TamonRadar

TamonRadar 怎麼運作?

TamonRadar 是一個「網頁化的爬蟲」:前端(Next.js)負責畫面與互動,後端(Python FastAPI) 負責真正用瀏覽器去 Google 搜尋、進入網頁抓資料,再把整理好的結果即時回傳給你看。

使用流程

1

輸入關鍵字

在首頁一行一個輸入想查的關鍵字(例如「多聞 公仔」),設定要抓幾頁、要不要進詳細頁,按「開始搜尋」。
2

即時看進度

後端開始爬之後,進度會透過 SSE(伺服器即時推播) 一條一條傳回來,你會看到「正在搜尋 X、找到 N 筆、抓第幾頁」這種即時訊息與進度條。
3

看整理好的結果

爬完後會自動產生:統計卡片、分類/來源長條圖、商品候選卡(含圖片價格)、以及可篩選排序搜尋的完整表格。
4

後續動作

可一鍵匯出 CSV / Excel / Markdown 報告;按「AI 分析」用 Claude 幫你判斷哪些是真商品、哪些重複; 每次搜尋也會存進「歷史紀錄」供回看比較。

爬蟲是怎麼抓資料的?

這是整個系統的核心。後端用 Selenium 開一個真的 Chrome 瀏覽器(無頭模式,看不到視窗), 模擬人去搜尋,流程分成五步:

  1. 1. Google 搜尋 — 對每個關鍵字開google.com/search, 用多組 CSS selector 抓標題、網址、摘要(Google 的 HTML 結構常變,所以多重兼容)。
  2. 2. 還原真實網址 — Google 的連結常包一層/url?q=…,程式會把真正網址解出來。
  3. 3. 去重複 + 過濾 — 相同網址只留一筆,並濾掉圖片/壓縮檔等不該爬的連結。
  4. 4. 進入詳細頁 — 逐一打開結果頁,用 BeautifulSoup解析 title、meta、og:image、結構化價格(JSON-LD)等。
  5. 5. 分類與抓價 — 用關鍵字計分判斷分類,並用多種規則抓出最可能的售價。

⚠️ 每個動作之間會隨機等 2–5 秒,降低被判定成機器人的機率。即使如此,Google 仍可能跳驗證頁; 遇到時系統會標記並跳過該關鍵字,不會卡住。請務必控制頻率、勿繞過網站限制。

資料品質:我們修掉的問題

早期版本有幾個讓資料不可信的問題,這版都處理了:

  • 💰 價格更準 — 不再從整頁文字硬抓第一個數字(會抓到運費/樓層/0 元), 改成優先讀結構化價格、過濾雜訊值、用出現頻率挑出真正售價。
  • 🏷️ 分類更分散 — 從「命中就回傳」改成計分制, 標題權重高於內文,不再幾乎全部被歸成「周邊」。
  • 🚫 減少誤判攔截 — 不再因頁面出現 “sorry” 就誤標成被擋。
  • 🧹 更乾淨的連結 — 帶參數的圖片網址(如 .png?x=1)也能正確排除。

技術架構

前端 · Next.js + Tailwind

畫面、互動、SSE 進度、圖表、表格、匯出按鈕。

後端 · FastAPI + Selenium

背景執行緒跑爬蟲、SSE 推進度、產生報告、Claude AI 摘要。