tailieunhanh - Luận văn:Nghiên cứu ứng dụng học bán giám sát

Trích chọn thực thể là bài toán cơ bản nhất trong các bài toán trích chọn thông tin nhưng lại đóng vai trò khá quan trọng. Thực thể tên ngày càng được ứng dụng trong nhiều bài toán trong khai phá dữ liệu web cũng như nhiều các bài toán trong xử lý ngôn ngữ tự nhiên. Do đó việc xây dựng các giải thuật trích chọn các thực thể tên này từ web là bài toán có ý nghĩa quan trọng. Luận văn tập trung vào tìm hiểu việc xây dựng một mô hình trích chọn thực thể tên. | Bộ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẰNG HỒ THỊ NGỌC NGHIÊN CỨU ỨNG DỤNG HỌC BÁN GIÁM SÁT Chuyên ngành KHOA HỌC MÁY TÍNH Mã số TÓM TẮT LUẬN VĂN THẠC sĩ KỸ THUẬT Đà Nang - Năm 2012 1 Công trình được hoàn thành tại ĐẠI HỌC ĐÀ NẰNG Người hướng dẫn khoa học Võ Trung Hùng Phản biện 1 TS. Nguyễn Thanh Bình Phản biện 2 . Đoàn Văn Ban Luận văn đã được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật họp tại Đại học Đà Nang vào ngày 04 tháng 03 năm 2012 Có thể tìm hiểu luận văn tại Trung tâm Thông tin - Học liệu Đại học Đà Nang. - Trung tâm Học liệu Đại học Đà Nang. 2 MỞ ĐẦU 1. Lý do chọn đề tài Công nghệ thông tin phát triển mạnh đã đem lại nhiều tiện ích cho cuộc sống đuợc ứng dụng rộng rãi ở nhiều lĩnh vục đặc biệt là thu viện điện tử tin tức điện tử. Do đó mà số luợng văn bản xuất hiện trên mạng Internet cũng tăng với một tốc độ chóng mặt và tốc độ thay đổi thông tin là cục kỳ nhanh chóng. Hầu hết số luợng thông tin đồ sộ là chua đuợc gán nhãn một yêu cầu lớn đặt ra là làm sao tổ chức và tìm kiếm thông tin dữ liệu có hiệu quả nhất. Đe giải quyết vấn đề trên thì bài toán phân lớp là một trong những giải pháp họp lý. Trong thục tế là số luợng thông tin quá lớn sử dụng phuơng pháp phân lóp dữ liệu bằng thủ công là điều không thể. Huớng giải quyết là tìm một chuơng trình máy tính tụ động phân lớp các thông tin dữ liệu trên. Đe xử lý các bài toán phân lớp tụ động thì phải xây dụng đuợc bộ phân lớp có độ tin cậy cao đòi hỏi phải có một luợng lớn các mẫu dữ liệu huấn luyện tức là các văn bản đã đuợc gán nhãn lóp tuơng ứng. Tuy nhiên giải quyết vấn đề này thuờng gặp nhiều khó khăn vì các dữ liệu huấn luyện này thuờng rất hiếm và đắt vì đòi hỏi phải tốn nhiều thời gian và công sức của con nguời. Đe khắc phục những hạn chế trên cần phải có một phuong pháp học không cần nhiều dữ liệu gán nhãn và có khả năng tận dụng đuợc các nguồn dữ liệu chua gán nhãn rất phong phú nhu hiện nay phuong pháp học đó là học bán giám sát. Học bán giám sát chính là .

TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN