Ăn cắp dử liệu Blogspot

13:14 |
Các bước Lấy data của blogspot khác hay gọi lịch sự là leech data  .
B1- xác định blogspot cần lấy  phải thỏa mãn điều kiện rss của nó phải là rss full,rss không bật full thì chỉ lấy phần giới thiệu


để xác định rss là full hay không chỉ cần đánh tên địa chỉ web như sau vào :

http://www.atsuu.com/atom.xml  thay bằng địa chỉ blogspot cần lấy  http://diachi.blogspot.com/atom.xml

Nếu rss được bật full thì ta có thể lấy toàn bộ data. còn không thì dừng ở đây được rồi.
1 số template yêu cầu bắt buộc phải  bật full rss như template

Simplex Celebrity .... các trang tin hot teen hay dùng lắm




B2-
Xác định tổng số bài  viết có trong blogspot đó bằng cách   đã hướng dẫn ở đâu đây  .
vì 1 số blogspot khủng data > 10000 nên ta sẽ  chia nhỏ thành các đoạn data ,sau đó lấy theo khỏang từ 1-50 bài hay 1-10 bài tùy đường truyền mạng hay cấu hình máy.
Blogspot cho import tối đa 500 bài  .
khuyến cáo nếu data ít ảnh chơi luôn 300 bài còn  nhiều ảnh 1 bài thì nên  lấy  10 bài 1 lúc


 B3-
copy và paste đoạn cần lấy vào chương trình download IDM  khi đó sẽ là
http://diachi.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=10
 trong đó 
start-index=1 = bắt đầu bài đăng mới nhất

max-result=10  lấy từ bài 1 đến bài thứ 10
khi đó IDM sẽ cho ra 1  file xml
cứ thế lấy tiếp đến hết data thì thôi

http://diachi.blogspot.com/atom.xml?redirect=false&start-index=11&max-results=10

http://diachi.blogspot.com/atom.xml?redirect=false&start-index=21&max-results=10


sau đó ta  thu được các file .xml (chuẩn rss hình như wordpress cũng cho phép import rss vào- chưa thử )
B4 import file xml đó vào blogspot
setting->import. done

*Bonus:
B5- tránh clone cho blogspot của bạn bằng cách tắt chức năng full này đi.
. Nếu template bắt buộc đặt full thì ta nên tạo thêm  1 đoạn giới thiệu ,để  khi bài được mang vác khắp nơi người đọc biết nguồn xuất phát từ đâu khi có ai dùng( 1 số hay quên ghi tác giả như mình đây)
.
Ngoài ra đây  là 1 cách Seo thêm  backlink khá hiệu quả

B6-chú ý : khi import xong nên đăng lấy lệ 1 vài bài để xóa bỏ capchar khi import quá nhiều bài 1 lúc, google săm soi blog sẽ cho là spam sẽ disable acc .

Ý kiến bạn đọc [ 0 nhận xét ] Thêm Ý kiến của bạn cho bài này

Ý kiến của bạn

* Lưu ý :
- Vui lòng gõ tiếng Việt có dấu khi viết bình luận.
- Nội dung phải liên quan đến chủ đề bài viết.
- Không dùng lời lẽ khích bác, thô tục ảnh hưởng đến người khác.
- Không đặt link đến Blog/Web khác.
- Những góp ý, thắc mắc không liên quan các bạn vui lòng post tại đây.
Thân, weblamgiau.

 
Copyright © 2011 by weblamgiau. All rights reserved.
Địa Chỉ;79,Đ.Phạm Hùng Dũng,TX.Hồng Ngự,T.Đồng Tháp
Tác giả:Tống Kiều Loan
EMAIL:weblamgiau@gmail.com
Copyright © 2011 by weblamgiau. All rights reserved.
Ghi rõ nguồn khi phát hành lại thông tin từ Website này
Design by weblamgiau. Powered by Blogger
Based on Minima Template.