Mở page với chế độ disable javascript

Do khi crawl scrapy chỉ đơn thuần download page về dạng html, chứ không thực thi js. Nên việc mở web với chế độ đã disable javascript sẽ giúp bạn có thông tin chính xác về mã html mà scrapy đang làm việc. Tránh tình huống "rõ ràng nhìn thấy trên web mà lúc crawl lại không có".

Sử dụng id trong selector khi có thể

Khi select element, id là rất hữu ích, vì nó chỉ có duy nhất, còn class thì có thể có nhiều.

Sử dụng // khi có thể

//tag có nghĩa là tìm tag mà ko cần biết parent hay level của tag. xpath sẽ gọn hơn rất nhiều.

Chú ý về index, hay position()

Khi muốn select element thứ n trong một tag. Ví dụ tag li thứ 3 trong tag ul thì bạn có thể sử dụng //ul/li[3] hoặc //ul/li[position()=3] . Tuy nhiên cần nhớ rằng, index của element là tính với thằng cha trực tiếp của nó.  Ví dụ, tìm tag li đầu tiên trong tag ul thứ 3 trong div, bạn có thể sẽ hiểu là tìm tag li thứ 3 trong thẻ div và sử dụng biểu thức //div//li[3]. Nhưng thực tế nó sẽ không trả về kết quả đúng.