Bác ơi up lại ảnh đc ko anh die hết rồiVâng rốt cuộc đạo tâm đã trải qua rèn giũa của mình sau khi tu công pháp "Đế bá" đã đánh tan phong ấn của "Thiên đạo lười" để ngồi dậy giảng giải đại đạo cho chúng sinh
Bài hướng dẫn này sẽ dính đến html và xpath nên có thể một số bạn sẽ không biết, mình sẽ nói một cách đơn giản theo từng bước(bạn nào biết rồi khỏi coi). Đầu tiên, chúng ta quy ước như sau:
0 - Danh sách rule
1 - RuleName
2 - ChapList
3 - ChapAddress
4 - Start
5 - End
6 - Title
7 - Content
8 - Mã GB2312
9 - Đảo ngược text
Chúng ta tiếp tục lấy truyện Hokage chi tối cường chấn độn trên trang www.69shu.com làm ví dụ.
Rê chuột lên 1 link bất kỳ trong danh sách chương, ở đây mình rê lên chương 1 sau đó nhấp chuột phải chọn Kiểm tra(Inspect) hoặc bôi đen sau đó bấm F12
Các bạn chú ý khung đỏ, chương truyện mình chọn bị bao bọc bởi các thẻ div, ul, li, a,...
Mục tiêu của chúng ta là xác định đường dẫn của text dựa vào khung đỏ. 1.第1章 不该出现的果实 nằm trong thẻ a, thẻ a nằm trong thẻ li, thẻ li nằm trong thẻ ul,...
Bắt đầu gõ đường dẫn thôi từ trên xuống:Mã nguồn HTML:<ul class="mulu_list"> <li> <a href="/txt/25770/15383750">1.第1章 不该出现的果实</a> </li> <li> <a href="/txt/25770/15383751">2.第2章 震遁血继限界</a> </li> ... </ul>
Bạn có thấy thiếu gì không? Uhm thẻ ul còn có cái class gì đó nữa, class="mulu_list" này như là bảng tên để nhận dạng thẻ ul hiện tại cùng vô số thẻ ul trong trang web. Giống như 2 thằng sinh đôi, nó không nói biết ai là ai. Không khéo con gấu nhận lầm gây ra thảm án trầu cau thứ 2 cũng nên Như vậy chúng ta dán bảng tên của thằng ul vào:Mã:ul/li/a
Thêm dấu // vào nữa để chương trình biết chúng ta muốn tìm trong cả trang web:Mã:ul[@class='mulu_list']/li/a
Mở thằng TD2 lên để dán đường dẫn mới tìm được nàoMã://ul[@class='mulu_list']/li/a
RuleName gõ địa chỉ trang chủ của trang truyện mà bạn muốn tải. Trong ví dụ này địa chỉ sẽ là:
Nhớ kỹ địa chỉ không có http:// ở đầu và dấu / cuối địa chỉMã nguồn PHP:
www.69shu.com
ChapList là đường dẫn chúng ta mới tìm được
Tiếp theo, rê chuột vào phần trong href thẻ a mà chúng ta chọn lúc đầu
Trong href thẻ a
Phần tooltip hiện lênMã:/txt/25770/1538375
So sánh 2 chuỗi và tìm ra phần ít hơn tooltip của href, kết quả sẽ là ChapAddress:Mã:http://www.69shu.com/txt/25770/15383750
Ở chỗ này có 3 trường hợp xảy ra:Mã:http://www.69shu.com
Trường hợp 1: đã trinh bày ở trên
Trường hợp 2: 2 chuỗi giống hệt nhau, các bạn để trống ô ChapAddress
Trường hợp 3: khi không giông 2 trường hợp trên, các bạn để ô ChapAddress là auto
Đối với 2 ô Start và End, đại đa số trường hợp sẽ điền là 0 và 0 nhưng rất đáng tiếc 69shu thuộc về số ít Quay lại trang chứa danh sách chương và nhìn phần đầu danh sách chương.
Nếu điền 0 vào ô Start chương trình sẽ tải luôn 6 chương, sau đó là chương 1, 2, 3,... tới cuối sẽ lặp lại 6 chương ở đầu. Bây giờ kéo xuống cuối danh sách, nhìn phần khung đỏ.
Đó chỉ là 1 đường link báo lỗi không chứa text truyện nhưng lại nằm trong phần danh sách chương, nếu điền ô End là 0 sẽ dính nó, gây lỗi. Vậy chúng ta cần điền vào 2 ô Start và End lần lượt là 6 và 1 (bỏ qua 6 chương đầu và 1 chương cuối).
Kế tiếp, bạn mở 1 trang text truyện bất kỳ trong danh sách chương, mình thì mở chương 1
Tương tự như lấy đường dẫn phía trước, ta lấy đường dẫn cho Title(tên chương) và Content(text chương truyện), kết quả:
Title:
Content:Mã://td[@class='ydleft']/h1
Mã://div[@class='yd_text2']
Cuối cùng là 2 lựa chọn:
Dùng mã GB2312: bình thường chương trình sẽ tự nhận diện mã của trang web(như UTF-8) nhưng không phải trang web khựa nào cũng theo chuẩn nên cần người dùng nhận diện thủ công, đại số trang web có mã GB2312 nên các bạn cứ tick chọn. Nếu tải text về bị lỗi hãy bỏ tick.
Đảo ngược văn bản: các trang web thường sắp chương theo thứ tự 1, 2, 3 nhưng không phải em nào cũng vậy ví dụ như uukanshu.com sắp theo thứ tự 3, 2, 1. Cái này chủ yếu để đảo text lại cho đúng thứ tự 1, 2, 3.
Bấm lưu và tìm truyện để tải thử thành quả của bạn nào.
PS1: đường dẫn chỉ chấp nhận dấu nháy đơn không chấp nhận dấu nháy kép
PS2: trong thẻ không phải lúc nào cũng có class mà còn có id(nếu gặp các bạn ưu tiên chọn thằng này) hoặc cái khác, chỉ cần thay chữ class là được(xem các rule khác trong chương trình để tham khảo).
PS3: các bạn nhớ chia sẻ rule để cho dữ liệu của chúng ta phong phú hơn nhé.
TTV Translate - Ứng dụng convert truyện trên mobile